-
Notifications
You must be signed in to change notification settings - Fork 25
Open
Description
飞书文档汇总训练数据中存在的问题
数据集链接:150万下厨房微调数据集:提取密码8489

带点数据用例,做点规定, 大家把更多的情形填进去
解决方法暂定为: 匹配模式,分类处理
数据集分段解析遇到的问题
- 食谱里有一些还有表情符号之类的非中文字符,很可能测试的时候出问题
solution: 最好是先过滤,后期想加再忘里加,
简单的做法是只保留中英文字符,推荐大家试试data-juicer,阿里的, 做一些规则设定,去重和过滤
-
主要就是因为下厨房的菜谱是各个作者自己上传的,各式各样,五花八门
-
模糊性(左右,大约,少许,适量)说法解决(数据规范化, 调成结构性数据):
【书生·浦语大模型实战营】二阶段:菜谱数据集食材部分的处理(尚未完成)
https://zhuanlan.zhihu.com/p/682745169
数据集这样的数据还不少
菜谱有很多说法,比如 100+-10g
基于规则处理下, ±的去掉,100g,
Metadata
Metadata
Assignees
Labels
No labels

