对于黑盒检测,因为用户可以微调他们的模型,改变模型输出的风格或者格式,从而导致黑盒检测无法找到通用的检测特征 。
白盒检测可能是一个解决办法,公司在开源模型之前可以给模型中加入一个水印 。但是用户同样可以通过微调模型,改变模型 token 的采样机制来移除水印 。现在还没有一种水印技术能够抵御用户的这些潜在攻击 。
- 5个人类历史上最奇怪的战争,因水桶被盗而发生冲突? 5大历史之最
- 人类历史上最年轻的8位国王 世界之最人类历史
- 冒充儿童过六一犯法吗
- 大智路
- FudanNLP团队最新成果,借助RLHF实现人类对齐的MOSS-RLHF来了
- 为AI造“楚门世界” 人类围观对话机器人社交、谈恋爱
- 第六感海外
- ChatGPT背后模型被证实具有人类心智!斯坦福新研究炸了
- 中国珠算入了人类非遗名录5周年?你可能还不知道它的厉害! 珠算吉尼斯记录
- 面包新语