MLM 区别探索:掩码语言模型 和因果语言模型 (CLM)的区别( 二 )


何时使用什么?
当目标是学习输入文档的良好表示时,MLM 损失是首选, 然而,当我们希望学习生成流畅文本的系统时,CLM 是首选 。另外,直观上这是有道理的,因为在学习每个单词的良好输入表示时,您会想知道它出现在左侧和右侧的单词,而当您想学习生成文本的系统时,您只能看到什么到目前为止您所生成的所有内容(就像人类的书写方式一样) 。因此,制作一个在生成文本时也可以查看另一侧的系统可能会引入偏差,从而限制模型的创造力 。
athat could peek to the other side as well whiletext canbiastheof the model.
尽管在训练具有编码器和解码器的整个架构时,您经常会发现 MLM 和 CLM 损失 。两者都有各自的优点和局限性,一种名为XLNet的新模型使用排列技术来充分利用两个领域(MLM 和 CLM)的优点 。
图1. Judea Pearl 的因果之梯包括三个层级:关联()、干预()和反事实(),分别对应逐级复杂的因果问题 。
这到底是如何实现的呢?关键之处在于,大语言模型引入一种基于文本和元数据的新推理方式来实现这一目标,称之为基于知识的因果推理(-based),这与现有的基于数据的方法有所不同 。具体而言,大语言模型拥有迄今为止被认为只有人类才具有的能力,如使用知识生成因果图,或从自然语言中识别背景因果关系 。
大语言模型可以作为人类领域知识的代理,这对通常依赖于人类输入的因果任务来说是一个巨大的胜利 。通过捕捉关于因果机制的常识和领域知识,并支持自然语言与形式方法之间的转换,大语言模型为推进因果关系的研究、实践和采用开辟了新前沿 。
1. 大语言模型与因果发现
在成对因果发现任务中,GPT3.5/4 之类的大语言模型在涵盖物理学、工程学、医学和土壤科学的图宾根基准测试中,以超过 90% 的的准确率正确预测成对变量的因果方向(A是否导致B?),此前最高的准确率是83% 。提示语使用变量名,并询问更可能的因果方向 。
图2. 成对因果关系测试任务试图确定,变量A是否导致变量B,或者反之 。
在关于神经性疼痛的专门医学数据集上,大语言模型也获得了类似的高准确率 。在这种情况下,因果关系并不明显,然而 GPT-4 以96%的准确率检测到正确的因果方向 。提示语的选择对结果有很大影响 。
图3. 神经性疼痛诊断基准中的成对因果关系 。
对于更困难的任务,发现完整的因果图,此前在医学数据集上的工作预测大语言模型无效,然而事实并非如此 。通过简单的提示调整,测试分数迅速从0.1上升至0.7 。在一个北极科学数据集上,GPT-4 超越了最近的深度学习方法 。当然,大语言模型也会犯一些愚蠢的错误(例如回答鲍鱼的长度决定了其年龄),所以在关键应用上仍然难以信任 。但结果令人惊讶的地方在于,在涵盖广泛人类知识的数据集上,这类错误是如此之少 。
这对因果推理具有重要意义 。构建因果图可能是因果分析中最具挑战性的部分 。这些结果表明,我们可以不再依赖人类提供完整的因果图,而可以使用大语言模型来生成候选因果图或帮助评估 。
图4. 大语言模型检测因果方向的推理过程 。左侧的因果推理过程给出了正确答案:鲍鱼的年龄导致了其长度;右侧的例子需要同样的因果知识,但大语言模型的论证不连贯,给出了错误答案 。
2. 大语言模型用于现实因果推理
论文的第二部分关注反事实推理 。大语言模型能否从自然语言中推断因果关系?
例如:一个女人看到了火 。如果女人触摸了火,会发生什么?
对于实际因果关系,由于人类需要判断相关变量及其因果贡献,这是一个非常具有挑战性的任务 。GPT3.5/4 在这方面优于现有算法 。在预测日常反事实情况结果的 CRASS 基准测试中,GPT-4 获得 92% 的准确率,比之前的最好结果高出 20% 。