From Pretraining Data to Language Models( 三 )


3 实验设置
本节关注LMs的政治偏见以及它们在解决具体任务时的影响 。作者评估了14个不同种类的语言模型,使用了一个立场检测模型来验证这些模型的政治立场 。作者进行人工评估,验证立场检测器对LMs的响应准确度高 。
他们还采集了党派语料库,关注领域和政治倾向两个维度,并用它们来预训练和GPT-2模型,以研究预训练数据对模型政治偏见的影响 。

From Pretraining Data to Language Models

文章插图
研究还探讨了LMs的政治偏见在下游任务上的影响(仇恨言论检测和虚假信息检测任务) 。
LM和立场检测模型 我们评估了14个语言模型的政治偏见:BERT,,,,,BART,GPT-2,GPT-3,GPT-J,LLaMA,,Codex,,GPT-4以及它们的变体,代表了各种不同规模和架构的模型 。每个模型的具体版本和检查点名称在附录C中提供 。对于用于评估基于解码器语言模型响应的立场检测模型,我们使用了一个基于BART的模型,该模型在上进行了训练 。
为了确保现成的立场检测器的可靠性,我们对随机抽样的110个响应进行人工评估,并将结果与检测器生成的结果进行比较 。立场检测器对具有明确立场的LM响应的准确度为0.97,并且在3名注释者之间有很高的一致性(’ Kappa为0.85) 。关于立场检测器、响应到一致性映射过程以及人工评估的详细信息请参见附录A.2 。
用于预训练的党派语料库 我们收集了用于LM预训练的党派语料库,重点关注两个维度:领域(新闻和社交媒体)和政治倾向(左、中、右) 。我们使用了数据集的新闻文章,根据的分类分为左倾、右倾和中立三个类别 。对于社交媒体,我们使用了Shen和Rose以及 提供的左倾和右倾(网上的子论坛)列表 。我们还将不涉及政治的作为社交媒体的中心语料库 。另外,为了解决创建仇恨的LM的伦理问题,我们使用了基于的仇恨言论分类器,并在基准上进行微调,以从预训练数据中删除潜在的仇恨内容 。因此,我们获得了六个大小相近的预训练语料库:{左、中、右} × {、NEWS} 。这些党派预训练语料库的大小大致相同 。我们进一步在这些语料库上预训练和GPT-2,以评估它们在意识形态坐标上的变化,并研究预训练数据中的政治偏见与模型的政治倾向之间的关系 。
下游任务数据集 我们研究了模型的政治偏见在两个任务的下游行为之间的关系:仇恨言论检测和虚假信息检测 。对于仇恨言论检测,我们采用了Yoder等人提出的数据集,其中包括被针对的身份群体分成的示例 。在这项工作中,我们利用了两个官方数据集拆分:HATE-和HATE- 。对于虚假信息检测,我们采用了标准的数据集,其中包括新闻文章的来源 。我们评估了以及进一步在-LEFT、-RIGHT、NEWS-LEFT和NEWS-RIGHT语料库上进行了预训练的四个变体 。虽然还有其他任务和数据集可以选择,但我们将它们留给未来的研究 。我们计算了不同LM检查点的总体性能以及性能按类别的情况 。所采用的下游任务数据集的统计信息如表1所示 。
表 1:下游任务中使用的仇恨言论和错误信息数据集的统计数据4 结果和分析
在本节中,我们首先评估语言模型的固有政治倾向以及它们与预训练语料库中的政治极化之间的关联 。然后,我们评估了具有不同政治倾向的预训练语言模型在仇恨言论检测和虚假信息检测方面的性能,旨在了解预训练语料库中的政治偏见与LM-based任务解决方案中的公平性问题之间的关联 。
4.1 语言模型的政治偏向
预训练LMs的政治倾向 图1展示了各种原始预训练LM检查点的政治倾向结果 。具体而言,每个原始LM都在我们在第2.1节中提出的框架下映射到社会得分和经济得分 。