使用GPT-4生成不同意图的指令,验证它们与原始意图的语义相似度,同时包括正样本和负样本。将验证通过的指令作为数据集,方便进行下一步训练。
├── README.md
├── config.yaml // 配置文件,包含模型设置和指令列表
├── environment.yml // 环境需求
├── generation.ipynb // 数据集生成代码
├── IntentDatasetCreation.ipynb // 包含OPENAI_API_KEY和调试结果的数据集生成代码
├── prompts.yaml // 用于生成和评分的模板提示词
└── intent_dataset_outputs/ // 生成的数据集输出目录
| ├── {instruction}variations{timestamp}.xlsx
| ├── {instruction}scores{timestamp}.xlsx
| ├── {instruction}validated{timestamp}.xlsx
| └── ......xlsx
包含所有配置设置:
- 模型配置(GPT-4的生成和评分设置)
- 生成参数(数量、迭代次数、阈值)
- 指令列表
- 正样本生成、评分
- 负样本生成、评分
Jupyter Notebook:
- 加载配置,生成指令,对指令评分
- 输出文件处理
- 支持正样本和负样本生成
每个指令生成三种Excel文件:
{instruction}_variations_{timestamp}.xlsx: 所有生成指令{instruction}_scores_{timestamp}.xlsx: 评分结果{instruction}_validated_{timestamp}.xlsx: 最终验证通过的指令
同时对每个分类生成正样本和负样本文件(带有negative)
-
在
config.yaml中配置设置:- 设置模型参数
- 定义指令列表
- 调整生成数量和阈值
-
运行Jupyter Notebook(使用base环境)
-
结果将保存在
intent_dataset_outputs目录中
当前支持的指令类别:
- photo: 拍照
- video: 视频录制
- media: 媒体控制
- volume: 音量调节
- calling: 电话
- battery: 电池状态检查
- photo_chat: 视觉分析查询