Skip to content

飞书文档汇总训练数据中存在的问题 #79

@chg0901

Description

@chg0901

飞书文档汇总训练数据中存在的问题

数据集链接:150万下厨房微调数据集:提取密码8489
image

image

带点数据用例,做点规定, 大家把更多的情形填进去

解决方法暂定为: 匹配模式,分类处理

数据集分段解析遇到的问题

  1. 食谱里有一些还有表情符号之类的非中文字符,很可能测试的时候出问题

solution: 最好是先过滤,后期想加再忘里加,

简单的做法是只保留中英文字符,推荐大家试试data-juicer,阿里的, 做一些规则设定,去重和过滤

  1. 主要就是因为下厨房的菜谱是各个作者自己上传的,各式各样,五花八门

  2. 模糊性(左右,大约,少许,适量)说法解决(数据规范化, 调成结构性数据):

【书生·浦语大模型实战营】二阶段:菜谱数据集食材部分的处理(尚未完成)

https://zhuanlan.zhihu.com/p/682745169

94f7d812f521174e887f1ecfad86d05

数据集这样的数据还不少

菜谱有很多说法,比如 100+-10g

基于规则处理下, ±的去掉,100g,

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions