From Pretraining Data to Language Models

从预训练数据到语言模型再到下游任务:追踪导致不公平NLP模型的政治偏见路径
本文为年文章《FromData totoTasks:theoftoNLP 》的翻译 。
文章内容还待完善,如有错误请指出 。
Code and data areat
摘要:语言模型是在各种数据源上进行预训练的,包括新闻、讨论论坛、书籍和在线百科全书 。其中相当一部分数据包含了意见和观点,一方面庆祝民主和思想多样性,另一方面又具有固有的社会偏见 。本文开发了新的方法来衡量在这些语料库上进行预训练的LMs在社会和经济维度上的政治偏见,并衡量在政治偏见的LMs之上进行训练的下游NLP模型的公平性 。我们专注于仇恨言论和虚假信息检测,旨在实证量化预训练数据中的政治(社会、经济)偏见对高风险的社会导向任务的公平性的影响 。我们的研究结果表明,预训练LMs确实具有政治倾向,强化了预训练语料库中存在的极化现象,将社会偏见传播到仇恨言论预测和虚假信息检测中 。我们讨论了这些发现对NLP研究的影响,并提出了未来减轻不公平性的方向 。警告:本论文包含仇恨言论示例 。
文章目录3 实验设置结果和分析 5 降低政治偏见影响的方法6 相关工作7 总结
1 介绍
数字和社交媒体已经成为政治新闻传播的主要来源,用户参与率前所未有地高 。过去十年,围绕极化议题(气候变化、枪支控制、堕胎、工资差距、死刑、税收、同性婚姻等)的在线讨论量急剧增加 。虽然在线政治参与促进了民主价值观和多元化的观点,但这些讨论也反映和强化了社会偏见——对人们或社会群体的刻板印象 。这种语言构成了大型语言模型的预训练数据的主要部分,将偏见传播到下游模型中 。
数百项研究已经强调了NLP模型中的伦理问题,并设计了合成数据集或控制实验,以衡量语言中的偏见如何在学习的表示中编码,以及训练数据中的注释错误如何增加NLP模型的不公平性 。然而,有关极化政治问题的语言特别复杂,语言中隐藏的社会偏见很少能被归结为预先指定的刻板印象 。据我们所知,之前的工作尚未展示如何分析预训练数据中自然发生的媒体偏见对语言模型以及随后的下游任务产生的影响,以及它如何影响对不同社会群体的公平性 。我们的研究旨在填补这一空白 。
作为一个案例研究,我们关注了预训练数据中媒体偏见对仇恨言论检测在不同社会属性(如性别、种族、民族、宗教和性取向)的公平性,以及对虚假信息检测在党派倾向方面的影响 。我们调查了预训练数据中媒体偏见如何传播到LMs中,并最终影响到下游任务,因为关于极化社会和经济问题的讨论在从新闻、论坛、书籍和在线百科全书中获取的预训练数据中充分存在,这种语言不可避免地传播社会刻板印象 。我们选择仇恨言论和虚假信息分类,因为这些是社会导向的任务,不公平的预测可能尤其有害 。
为此,基于政治光谱理论和政治指南测试,我们提出了经验性地量化预训练LMs的政治倾向(§2) 。然后,我们在不同的党派语料库上进一步预训练语言模型,以调查LMs是否从训练数据中获取政治偏见 。最后,我们在不同政治倾向的LMs上训练分类器,并评估它们在针对不同身份群体的仇恨言论实例和带有不同议程的虚假信息检测上的性能 。通过这种方式,我们调查了政治偏见如何通过从预训练数据到语言模型再到下游任务的整个流程传播 。
我们的实验涵盖了多个数据领域、党派新闻数据集和LM架构(§3),结果表明,不同的预训练LMs确实具有不同的基本政治倾向,强化了预训练语料库中存在的政治极化(§4.1) 。此外,尽管这些在政治上有偏见的LMs的仇恨言论和虚假信息检测器的总体性能保持一致,但它们对不同身份群体和党派媒体来源表现出显著不同的行为(§4.2) 。