而基线隐式模型最自然的方式就是使用框架,将初始状态序列输入到编码器中,并期待解码器输出(,)对 。
文章插图
图3:(a):基线显式模型;(b,c)隐式注意力模型 。
除了基线模型,更强大的是隐式注意力模型,该模型能对隐式表征进行操作,并能更好地捕捉到编辑内容和编辑上下文之间的关系序列 。隐式注意力模型的编码器和解码器在上图3(b,c)中展示,其中编码器会将初始状态和所有已知编辑编码为隐藏向量,解码器会将其解码为每一个编辑的位置、以及给定位置的编辑内容 。该模型的细节见原论文的附录,它参考了的位置编码与Multi-(MHA) 。
实验
实验的目标是了解模型的能力和限制 。两个主要的因素是,模型能够多准确地识别编辑序列中的模式?它对大型数据的适应效果如何?
表1中报告了能够产生最佳开发性能的步骤和超参数设置的测试性能 。显式模型和改进的隐式模型几乎可以解决所有任务,甚至是那些涉及元字符和具有较长替换序列的任务 。
文章插图
表1:具有最佳开发性能的步骤和超参数设置在合成数据集上的测试准确率 。准确率在.5%以内的结果用粗体显示 。POMP:--;E:显式基线模型;IR:隐式基线模型;IA:改进的隐式模型 。
如图4所示,显式模型始终比隐式模型要昂贵,而且随着数据的增加,这个差距也在拉大 。长度为100的插入序列比真实数据集中的序列小十倍,但在运行时方面已经存在一个数量级的差异 。
文章插图
图4:(a)-(c):具有不同插入数量(10,50,100)的n元问题的训练过程中处理序列所需的时间 。注意,每个图的y轴刻度不同 。(d):把预测限制到模型置信度最高时,模型在真实数据集上的Token级别准确率 。
文章插图
文章插图
文章插图
文章插图
文章插图
您还可以在以下平台找到我们
文章插图
文章插图
文章插图
文章插图
【【研究生】像人一样编辑源代码,谷歌大脑提出神经网络也可以学「编程」】请点一下【在看】~
- 春雷喹啉铜能与苯甲吡唑酯混用吗?
- 有王台怎样人工分蜂?
- 细节描写作用 细节描写作文400字
- 斑鸠的功效与作用
- 光绪到多少年结束的
- 实验4 Python数据分析与GUI
- 关于央视纪录片超级工程的介绍 央视纪录片超级工程
- 预约打车APP开发
- 上海科技大学好吗?
- 学习笔记:MyBtaisPlus学习文档