Chinese-Character-Stroke-Sequence-Dataset

汉字笔画序列的图片数据集

数据集来源

本项目整合了Liu.等提出的CCES数据集，以及Arphic Technology Co., Ltd.提出的汉字笔画数据集。感谢以上两个项目的贡献。

数据集说明

包含笔画序列信息的汉字数据集非常稀少，Arphic Technology Co., Ltd.为此提供了一个非常棒的优秀工作（makemeahanzi)，按准确的笔画信息绘制了汉字字符；而Liu.等提出的CCES工作进一步使用25个笔画类别为笔画信息进行了标注。

本数据集整合了二者的工作，相较于CCES数据集，本数据集借助makemeahanzi的曲线数据，将其与CCES的标注数据（fort_annotation.json)对齐，通过曲线信息和标注信息，程序直接在本地生成对应的笔画序列图。因此本数据集的在线文件更小，离线文件分辨率更高。

整合后的标注信息存储在fort_graphics.json中。

本数据集与CCES一样，包含了9523个汉字的标注信息，所有的图片都是1024*1024的二值图。

数据生成脚本最终生成9523个npz文件，其中每个npz文件是一个压缩的三维矩阵，每个0维上的切片是该汉字的一个笔画，按笔画顺序排列，如果按0维叠加则形成完整汉字。同时，每个切片矩阵的非零值是该笔画的标签值。

本数据集尽可能保留更多信息以供研究者使用。

使用说明

本项目基于python开发，除了常见的库以外，请运行以下命令安装一些必要的库：

pip install opencv-python svgwrite cairosvg

为了正确使用 cairosvg ，请前往这里下载GTK-3并重启你的计算机（Windows系统）（默认添加环境变量），直接下载链接在这里。

执行命令开始生成数据：

python run.py

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
.idea		.idea
__pycache__		__pycache__
.gitignore		.gitignore
README.md		README.md
README_EN.md		README_EN.md
fort_graphics.json		fort_graphics.json
requirements.txt		requirements.txt
run.py		run.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Chinese-Character-Stroke-Sequence-Dataset

数据集来源

数据集说明

使用说明

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Chinese-Character-Stroke-Sequence-Dataset

数据集来源

数据集说明

使用说明

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages