微软小冰智能聊天机器人 智能聊天机器人 最智能的聊天机器人( 二 )


微软小冰智能聊天机器人 智能聊天机器人 最智能的聊天机器人

文章插图
Meena 和其他聊天机器人的性能对比 。困惑度指标但是 , 由于人类评价存在的问题 , 很多研究者都希望找到一个能够自动计算的评价指标 。这个指标需要能够和人类评价精确对应 。研究者在研究中发现 , 困惑度(perplexity) , 一个在 seq2seq 模型中常见的指标 , 和 SSA 有着强相关性 。困惑度用于评价一个语言模型的不确定性 , 低困惑度说明模型在生成下一个 token(如字、词等)时有着更高的信心 。困惑度表示的是模型在选择生成下一个 token 的过程中的候选数量 。在研究中 , 研究中采用了 8 个不同的模型版本 , 分别有着超参数和架构上的区别 , 如层数、注意力 head 数量、训练步数 , 使用的是 Evolved Transformer 还是一般的 Transformer , 使用 hard label 进行旋律还是使用蒸馏的方法进行训练等 。从下图来看 , 越低的困惑度模型有着更高的 SSA 分数 , 而两者的相关系数很强(R^2 = 0.93) 。
微软小冰智能聊天机器人 智能聊天机器人 最智能的聊天机器人

文章插图
【微软小冰智能聊天机器人 智能聊天机器人 最智能的聊天机器人】交互式 SSA vs. 困惑度 。每个蓝点都是都是 Meena 模型的不同版本 。这里绘制出了回归曲线 , 表明 SSA 与困惑度之间存在很强的相关性 。虚线则表示了人 , 其他机器人 , Meena(base) , 端到端的训练模型以及具有过滤机制和调整解码的 Meena 。最好的端到端 Meena 训练模型 , 被称之为 Meena(base) , 实现了 10.2 的困惑度(越小越好)转化为 72% 的 SSA 得分 。与其他获得 SSA 分数相比 , 72% 的 SSA 分数与普通人获得的 86% 的 SSA 分数相差不远 。Meena 的完整版具有过滤机制和调整解码 , 会进一步将 SSA 分数提高到 79% 。未来的研究与挑战按照之前的描述 , 研究者将继续通过改进算法、架构、数据和计算量去降低神经会话模型的困惑度 。虽然研究者再这项工作中只专注于敏感性和独特性 , 而其他属性如个性和真实性等依旧值得在后续的工作中加以考虑 。此外 , 解决模型中的安全性和偏差也是一个关键的重点领域 , 鉴于当下面临的挑战是与此相关的 , 就目前而言团队不会发布研究演示 。但是 , 研究者正在评估将模型检查点具体化所带来的风险及益处 , 并且有可能会选择在未来几个月内使其可用 , 用来帮助推进该领域的研究工作 。参考链接:http://arxiv.org/abs/2001.09977http://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html