下载PDF 文本嵌入的经典模型与最新进展 _自然语言处理

对通用嵌入的追求是一大趋势：在大型语料库上预训练好的嵌入，可以插入各种下游任务模型（情感分析、分类、翻译等），通过融合一些在更大的数据集中学习得到的常用词句表示，自动提高它们的性能。
这是一种迁移学习。最近，迁移学习被证明可以大幅度提高 NLP 模型在重要任务（如文本分类）上的性能。和Ruder () 的工作就是一个最好的例子。（）
虽然句子的无监督表示学习已经成为很长一段时间的规范，但最近几个月，随着 2017年末、 2018 年初提出了一些非常有趣的提议，无监督学习已经有转向有监督和多任务学习方案的趋势。
通用词/句子嵌入的最新趋势。在这篇文章中，我们描述了用上图中黑体字的模型。
因此，这篇文章简要介绍了通用词和句子嵌入的最新技术：
我们先从词嵌入开始。如果你想对 2017 年之前发生的事情有一些背景知识，我推荐你去看去年写过的关于词嵌入的一篇很好的文章（）和入门介绍帖（）。
词嵌入的最新发展
在过去的五年里，人们已经提出了大量可能的词嵌入方法。最常用的模型是和 GloVe ，它们都是基于分布假设的无监督学习方法（在相同上下文中的单词往往具有相似的含义）。
虽然有些人通过结合语义或句法知识的有监督来增强这些无监督的方法，但纯粹的无监督方法在 2017-2018 中发展非常有趣，最著名的是（的扩展）和 ELMo（最先进的上下文词向量）。
（）是 2013 年提出了框架的Tomas团队开发的，这引发了关于通用词嵌入研究的爆炸式增长。对原始向量的主要改进是包含了字符 n-gram ，它允许为没有出现在训练数据中的单词计算单词表示。
向量训练速度超快，可在 157 种语言的和 Crawl 训练中使用。这是一个很好的基线模型。
深度语境化的单词表示 (ELMo ， ) 最近大幅提高了词嵌入的顶级水平。它由 Allen 研究所开发，将于 6 月初在 NAACL 2018会议上发布。
ELMo对上下文语境了解很多
在ELMo 中，每个单词被赋予一个表示，它是它们所属的整个语料库句子的函数。所述的嵌入来自于计算一个两层双向语言模型（LM）的内部状态，因此得名「ELMo」： from。
ELMo的特点：
现在，让我们谈谈通用句子嵌入。
通用句子嵌入的兴起
目前有很多有竞争力的学习句子嵌入的方案。尽管像平均词嵌入这样的简单基线始终效果不错，但一些新颖的无监督和监督方法以及多任务学习方案已于 2017 年末至 2018 年初出现，并且引起了有趣的改进。
让我们快速浏览目前研究的四种方法：从简单的词向量平均基线到无监督/监督方法和多任务学习方案。
在这一领域有一个普遍的共识，即直接平均一个句子的词向量（即所谓的「词袋」方法）的简单方法为许多下游任务提供了一个强大的基线。
Arora 等人的工作详细介绍了计算这种基线的一个很好的算法。去年在 ICLR 上发表了一个简单但有效的句子嵌入基线：使用你选择的热门词嵌入，在线性加权组合中对一个句子进行编码，并执行一个通用组件移除（移除它们的第一主成分上的向量）。这种通用的方法具有更深入而强大的理论动机，它依赖于一个使用语篇向量上的生成模型的随机游走来生成文本。（在这里我们不讨论理论细节）