DISC

随着远程医疗的兴起 , 在线问诊、咨询越发成为患者寻求便捷高效的医疗支持的首选项 。近来大语言模型(LLM)展示出强大的自然语言交互能力 , 为健康医疗助手走进人们的生活带来了希望 。
医疗健康咨询场景通常较为复杂 , 个人助手需要有丰富的医学知识 , 具备通过多个轮次对话了解病人意图 , 并给出专业、详实回复的能力 。通用语言模型在面对医疗健康咨询时 , 往往因为缺乏医疗知识 , 出现避而不谈或者答非所问的情况;同时 , 倾向于针对当前轮次问题完成咨询 , 缺少令人满意的多轮追问能力 。除此之外 , 当前高质量的中文医学数据集也十分难得 , 这为训练强大的医疗领域语言模型构成了挑战 。
复旦大学数据智能与社会计算实验室()发布中文医疗健康个人助手 ——DISC- 。在单轮问答和多轮对话的医疗健康咨询评测中 , 模型的表现相比现有医学对话大模型展现出明显优势 。课题组同时公开了包含 47 万高质量的监督微调(SFT)数据集 ——DISC-Med-SFT , 模型参数和技术报告也一并开源 。
1、样例展示
图 1:对话示例
患者感到身体不适时 , 可以向模型问诊 , 描述自身症状 , 模型会给出可能的病因、推荐的治疗方案等作为参考 , 在信息缺乏时会主动追问症状的详细描述 。
图 2:问诊场景下的对话
用户还可以基于自身健康状况 , 向模型提出需求明确的咨询问题 , 模型会给予详尽有助的答复 , 并在信息缺乏时主动追问 , 以增强回复的针对性和准确性 。
图 3:基于自身健康状况咨询的对话
用户还可以询问与自身无关的医学知识 , 此时模型会尽可能专业地作答 , 使用户全面准确地理解 。
图 4:与自身无关的医学知识询问对话
2、DISC- 介绍
DISC- 是基于我们构建的高质量数据集 DISC-Med-SFT 在通用领域中文大模型 -13B 上训练得到的医疗大模型 。值得注意的是 , 我们的训练数据和训练方法可以被适配到任何基座大模型之上 。
DISC- 具有三个关键特点:
模型的优势和数据构造框架如图 5 所示 。我们从真实咨询场景中计算得到病人的真实分布 , 以此指导数据集的样本构造 , 基于医学知识图谱和真实咨询数据 , 我们使用大模型在回路和人在回路两种思路 , 进行数据集的构造 。
图 5:DISC-Med-SFT 的构造

DISC

文章插图
3、方法:数据集 DISC-Med-SFT 的构造
在模型训练的过程中 , 我们向 DISC-Med-SFT 补充了通用领域的数据集和来自现有语料的数据样本 , 形成了 DISC-Med-SFT-ext , 详细信息呈现在表 1 中 。
表 1:DISC-Med-SFT-ext 数据内容介绍
重构 AI 医患对话
数据集 。分别从两个公共数据集和 中随机选择 40 万个和 2 万个样本 , 作为 SFT 数据集构建的源样本 。
重构 。为了将真实世界医生回答调整为所需的高质量的统一格式的回答 , 我们利用 GPT-3.5 来完成这个数据集的重构过程 。提示词()要求改写遵循以下几个原则:
图 6 展示了一个重构的示例 。调整后医生的回答与 AI 医疗助手的身份一致 , 既坚持原始医生提供的关键信息 , 又为患者提供更丰富全面的帮助 。
图 6:对话重新改写的例子
知识图谱问答对