当前医疗机构普遍面临两重困境:其一,医师在高强度接诊压力下面临重复性劳动负荷,导致报告存在信息缺失风险;其二,标准化模板与个性化病例间的语义鸿沟易引发表述偏差,这为基于大语言模型的智能辅助系统提供了明确的应用切入点。 通过微调、DPO等方法训练InternLM大模型在体检场景下辅助生成体检结论,可以大幅提升体检结论生成的效率和质量,具有十分重要的理论与应用意义。
体检报告结论生成与一般条件文本生成的区别在于数据的敏感性、专业性,体检报告数据的异质性与非规范性严重影响了数据的质量和可用性。本提案使用Model Whale平台的开源医院体检数据集,共5213份体检数据。如表1所示,数据集某病人体检报告数据是结构化的表格数据,该实例个人的检查项跨度有124项。 具体准备操作步骤如下:提取的列名['科室路径','项目名称','单位','参考范围','结果','是否正常','结论'],然后转为字符串格式,用|分割。通过数据清洗,去除有明显缺失值、异常值或者重复的数据。
对这一套数据集进行分割,包括: SFT数据集:包含提示词、输入数据和目标输出的对。 DPO数据集:包含提示词、输入数据、正负样本输出的偏好对。 EVAL数据集:包含提示词、输入数据和目标输出的对。 SFT数据集、DPO数据集和EVAL数据集的比例是7:2:1。比较特殊的是DPO数据集,对于每个样本,需要收集:提示词 ,输入数据 和正样本输出和负样本输出 ,即偏好数据对。 正样本输入数据和输出可直接采用SFT阶段使用的输入和目标输出,负样本输入数据抽取几条与结论无关的体检记录,负样本输出则使用未经过滤的模型生成一些常见错误结论。
体检报告结论生成之后,需要对结论文本进行评估。ROUGE(Recall-Oriented Understudy for Gisting Evaluation) 是另一种在机器翻译和文本摘要评估中广泛使用的指标。ROUGE 侧重于召回率,即强调文本信息的覆盖度和完整性。具体来说,ROUGE-𝑛 通过计算 𝑛元组上的召回率来评估候选文本的质量。 除了ROUGE-n之外,ROUGE还有一个重要的变种是ROUGE-L。ROUGE-L中的“L”代表最长公共子序列LCS (Longest Common Subsequence),这是一种衡量两个序列相似性的方法。它可以不要求词组在文本中连续出现,因此能够更灵活地捕捉文本间的相似性。与基于 元组的ROUGE- 指标不同,ROUGE-L不是简单地计算固定长度的词组匹配,而是寻找候选文本和参考文本之间的最长公共子序列。ROUGE-L以F1分数计算,结合了精确率和召回率的信息。精确率衡量了候选文本中有多少内容是与参考文本相关的,而召回率则衡量了参考文本中有多少内容被候选文本所覆盖。
待补充


