AI大佬不满ChatGPT：亟待完善ChatGPT的道德护栏( 二 ) _护栏

不仅如此，占据本周推文热榜、有近 400 万浏览量的一则推特，同样揭示了可以有多邪恶。

文章插图
引导突破围栏限制的尝试还有很多，一个月前，一位名叫 Shawn的软件工程师曾放出一组令人不安的示例展示，尽管这些示例不那么粗俗，但结果却显示即使是拥有限制的，也可能被用户用来生成错误信息。给出的非常复杂，从而可以毫不费力地引出一些不该输出的回答：
其实自从发布以来，技术爱好者们一直在尝试破解对仇恨和歧视等内容的严格政策，这一策略被硬编码到中，很难有人破解。许多研究者都在尝试用来达到目的，就像上文展示的。其实还有研究者为构建了另外一个身份，比如要求扮演一个 AI 模型的角色，并将该角色命名为 DAN ，之后 DAN 就借用的身份，输出一些原始做不到的事情。
以下为实验结果，对于相同的问题，与 DAN 输出不同的答案：
通过上述示例看来，并没有像我们想象的那样好用，它本质上是不道德的，并仍然可以用于一系列令人讨厌的目的 —— 即使经过两个月的深入研究和补救，并且全球范围内的反馈数量空前也是如此。
所有围绕其政治正确性的戏剧都在掩盖一个更深层次的现实：它（或其他语言模型）可以而且将会被用于危险的事情，包括大规模制造错误信息。
现在这是真正令人不安的部分。唯一能阻止它比现在更具毒性和欺骗性的是一个名为「人类反馈强化学习」的系统，而由于先进技术未予开源，一直没有介绍它到底是如何工作的。它在实践中的表现取决于所训练的数据（这部分是肯尼亚标注人创造的）。而且，你猜怎么着？这些数据也不开放。
事实上，整件事情就像一个未知外星生命形式。作为一名专业的认知心理学家，与成人和儿童一起工作了 30 年，我从未为这种精神错乱做好准备：
【AI大佬不满ChatGPT：亟待完善ChatGPT的道德护栏】如果我们认为自己将永远完全理解这些系统，那就是在自欺欺人，如果认为我们将使用有限数量的数据将它们与我们自己「对齐」，那也是在自欺欺人。
所以总而言之，我们现在拥有世界上最流行的聊天机器人，它由无人知晓的训练数据控制，遵守仅被暗示、被媒体美化的算法，但道德护栏只能起到一定的作用，而且比任何真正的道德演算更多地受文本相似性的驱动。而且，外加上几乎没有任何法规可以对此做出约束。现在，假新闻、喷子农场和虚假网站获得了无穷无尽的可能性，而它们会降低整个互联网的信任度。
这是一场正在酝酿中的灾难。