“为什么?是什么?怎么做?” — 关于AI安全性的几个问题( 二 )


如果我们认真考虑以人为中心的 AI,我们就能意识到对社会负责的自然语言处理以及 AI 安全性的重要 。因为任何不安全的 AI 行为都会对人类或社会造成伤害,这与以人为中心的 AI 的基本价值观是背道而驰的 。
在中国,AI 安全性这一问题甚至更为严重,任何不安全的生成式 AI,在符合严格的法律监管条例前,都不能被部署为商品 。
AI安全的关键问题有哪些方面?
在这一部分中,我将展示一些在没有特别强大的模型时候就由来已久的 AI 安全问题,以及像或 GPT4 这样强大模型带来的紧急 AI 安全问题,还有一些随着更强大模型的出现而已经展露或者可能涌现的问题 。
由来已久的AI安全问题
在问世之前,自然语言处理包括文本生成已经存在一些已经被深入探索的安全问题 。在这一部分,我将简要介绍其中的一些问题 。
1. 幻觉()是文本生成中的一个显著问题 [Tian, et al., 2019],在 LSTM、未预训练的和较小的预训练模型(如 BART、T5、GPT2 等)中更为严重 。
2. 有害内容( )是文本生成系统中的另一个常见安全问题 。某些有害内容可能违反 shi,对个人、群体或社会构成伤害,包括仇恨言论 [ 等,2021]、歧视等 。
3. 偏见(Bias)[ et al., 2020. Zhong et al. 2021] 和刻板印象()是典型的由模型不公平的群体代表性(Harms of )引发的危害,可能对社会产生严重负面影响 。
4. 多语言()[Hu et al., 2020] 和多方言(Multi-)[Ziems et al. 2022] 性能差异导致的不平等使用是推动多语言和多方言自然语言处理研究的核心动力 。
5. 一些自然语言处理系统试图分析具有误导性()但有说服力()的内容 [Yang et al. 2019] 。
6. 文本风格转换(Text Style )系统可以帮助改变关于某个内容的叙述方式并影响受众 ( )[Ziems et al. 2022] 。
7. 隐私()保护是一个热门话题,因为人们发现有可能从大语言模型中提取训练数据 [ et al. 2021] 。但一些研究结果表明,一般语言模型可能不擅长将个人信息与其所有者关联 [Huang et al. 2022] 。
8. 文本到代码生成系统的广泛应用也对网络安全()造成了威胁 。例如,一些人发现对基于语言模型的 SQL 生成系统进行 SQL 注入(SQL )非常容易 [Peng et al. 2022] 。
由先进大语言模型引发的紧急安全问题
上述自然语言处理中的安全问题大多仍然存在,并且其中很多随着 /GPT-4 的性能增强和广泛应用而变得更加严重 。甚至,随着 LLM 的进步,出现了更多新的安全问题 。在本节中,我将主要讨论最近出现的紧急的实际安全问题,特别是随着各种不安全的开源 LLM 和聊天机器人的兴起而引发的那些问题 。同时,我将展示一些来自这些缺乏足够安全对齐的聊天系统(包括 、 和 Koala)的例子 。
1. 虽然随着更强大的模型,幻觉()得到了一定的缓解,但这仍然是一个远未解决的问题 。反直觉的是,随着模型变得更具说服力、可信和真实,幻觉()的危害性甚至更大,因为这使得用户更信任模型生成的内容,并且让用户难以区分生成内容真实与否 。
2. 强大的生成模型还使得生成更多类型的有害内容( )成为可能,包括:1)自我伤害行为的建议;2)色情或暴力内容;3)骚扰、贬低和仇恨内容;4)用于施展攻击或暴力行为的建议;5)寻找非法商品或服务的指导 。需要注意的是,生成的内容是否有害也可能取决于使用的上下文 。信息丰富的生成文本更有可能被用于更多的有害目的,比如煽动暴力、传播虚假叙事或剥削个人等等 。
3. 通常情况下,在真实世界语料库上训练的 LLM 可能会通过生成内容来强化其偏见()及世界观,包括对某些边缘群体的有害刻板印象和贬低 。有趣的是,基于 LLM 的聊天机器人更倾向于使用婉转()的语气或者句式,这会进一步加剧刻板印象或贬低的危害 。