DISC( 二 )


医学知识图谱包含大量经过良好组织的医学专业知识 , 基于它可以生成噪声更低的 QA 训练样本 。我们在 CMeKG 的基础上 , 根据疾病节点的科室信息在知识图谱中进行采样 , 利用适当设计的 GPT-3.5 模型  , 总共生成了超过 5 万个多样化的医学场景对话样本 。
行为偏好数据集
在训练的最终阶段 , 为了进一步提高模型的性能 , 我们使用更符合人类行为偏好数据集进行次级监督微调 。从和两个数据集中人工挑选了约 2000 个高质量、多样化的样本 , 在交给 GPT-4 改写几个示例并人工修订后 , 我们使用小样本的方法将其提供给 GPT-3.5 , 生成高质量的行为偏好数据集 。
其他
通用数据 。为了丰富训练集的多样性 , 减轻模型在 SFT 训练阶段出现基础能力降级的风险 , 我们从两个通用的监督微调数据集 moss-sft-003 和gpt4 data zh 随机选择了若干样本 。
。为增强模型的问答能力 , 我们选择英文医学领域的多项选择题数据集  , 使用 GPT-3.5 对多项选择题中的问题和正确答案进行了优化 , 生成专业的中文医学问答样本约 8000 个 。
4、实验
训练 。如下图所示 , DISC- 的训练过程分为两个 SFT 阶段 。
图 7:两阶段训练过程

DISC

文章插图
评测 。在两个场景中评测医学 LLMs 的性能 , 即单轮 QA 和多轮对话 。
单轮 QA 评测:为了评估模型在医学知识方面的准确性 , 我们从中国国家医疗执业医师资格考试(NMLEC)和全国硕士研究生入学考试(NEEP)西医 306 专业抽取了 1500 + 个单选题 , 评测模型在单轮 QA 中的表现 。
多轮对话评测:为了系统性评估模型的对话能力 , 我们从三个公共数据集 —— 中文医疗基准评测(CMB-Clin)、中文医疗对话数据集(CMD)和中文医疗意图数据集(CMID)中随机选择样本并由 GPT-3.5 扮演患者与模型对话 , 提出了四个评测指标 —— 主动性、准确性、有用性和语言质量 , 由 GPT-4 打分 。
评测结果
比较模型 。将我们的模型与三个通用 LLM 和两个中文医学对话 LLM 进行比较 。包括的 GPT-3.5, GPT-4, -13B-Chat; -2 和 -13B 。
单轮 QA 结果 。单项选择题评测的总体结果显示在表 2 中 。GPT-3.5 展现出明显的领先优势 。DISC- 在小样本设置下取得第二名 , 在零样本设置中落后于 -13B-Chat , 排名第三 。值得注意的是 , 我们的表现优于采用强化学习设置训练的(13B) 。
表 2:单项选择题评测结果
多轮对话结果 。在 CMB-Clin 评估中 , DISC- 获得了最高的综合得分 ,  紧随其后 。我们的模型在积极性标准中得分最高 , 凸显了我们偏向医学行为模式的训练方法的有效性 。结果如表 3 所示 。
表 3:CMB-clin 结果
在 CMD 样本中 , 如图 8 所示 , GPT-4 获得了最高分 , 其次是 GPT-3.5 。医学领域的模型 DISC- 和的整体表现分数相同 , 在不同科室中表现各有出色之处 。
图 8:CMD 结果
CMID 的情况与 CMD 类似 , 如图 9 所示 , GPT-4 和 GPT-3.5 保持领先 。除 GPT 系列外 , DISC- 表现最佳 。在病症、治疗方案和药物等三个意图中 , 它的表现优于。
图 9:CMID 结果
各模型在 CMB-Clin 和 CMD/CMID 之间表现不一致的情况可能是由于这三个数据集之间的数据分布不同造成的 。CMD 和 CMID 包含更多明确的问题样本 , 患者在描述症状时可能已经获得了诊断并表达明确的需求 , 甚至患者的疑问和需求可能与个人健康状况无关 。在多个方面表现出色的通用型模型 GPT-3.5 和 GPT-4 更擅长处理这种情况 。