【论文阅读】Embracing Domain Differences in Fa( 二 )


基于LSH的实例选择
为了解决对训练集中没有出现过或者出现较少的领域中的新闻的检测性能较低的问题,本文提出一个无监督的技术来选择需要最需要打标签的少量数据,以实现覆盖尽可能多领域的目的 。这个技术的最终目标是学习一个模型,能够在这样得到的数据集上对于虚假新闻检测得到最好的效果 。
本文首先用新闻所属领域(r) 来表示每一个新闻,然后采用局部敏感的哈希(-,LSH)算法来选择 R中尽可能远的新闻(这个算法这里不详细介绍,感兴趣的同学可以去原文看看) 。最终得到满足条件 B 个数目的有标记的新闻集合 。
如下图a所示,分别是采用随机方式从数据集中选择样本(Rand-Fake/Real)和采用本文的LSH方式选择样本(LSH-Fake/Real)的结果 。可以看出随机的方式对于数据集中少有的领域新闻(和CoAID)也采样了很少 。而本文的方法对这类少见的领域新闻采样出了一个较为均衡的数目 。因此本文能够较好处理训练集中和 seen领域新闻的问题 。
(但是,博主有一个问题!本文所提出的这个LSH的采样方式,可以看作将原始训练集中和 seen的领域新闻多采样一点,从而使得采样后的训练集中各种领域的新闻数目均衡 。基于这样处理之后的数据训练集,各个领域的新闻数目已经是均衡的了,本文训练他们的模型,这样得到的模型怎么能说是可以处理数据的问题呢?因为作者从数据集设置上规避了问题,实际上训练集已经不存在问题了 。)
实验 实验设置
本文模型中每一个新闻的输入表示是通过它的文本内容和传播网络得到的 。作者使用-base来学习新闻的文本表示 ,然后用一个无监督的网络表征学习技术来学习新闻的传播表示 ,最后将这两者拼接得到新闻的输入表示 .
本文所有的编码和解码网络(, , , , , )都是2层的前馈神经网络,激活函数是函数 。
其他超参数设置见论文原文,这里不再赘述 。
数据集
本文将三个不同领域的数据集:(1) ; (2) ; and (3) CoAID,组合成一个跨领域的数据集 。然后随机选择75%的数据作为训练集,25%作为测试集 。
针对本文的LSH选择算法,从75%的训练集中依据限制 B 来选择有标注的新闻的数目来训练模型 。
结果及分析
如下表所示,本文对比了4个纯文本方法(T),两个基于社交信息的方法 (S),三个多模态方法(M) 。从中可以看出本文模型的虚假新闻检测能力最好 。EANN-取得了次好的结果,说明探索领域相关的特征是有效的 。EANN也本文的差距在于,前者只用了corss-的特征,没有用-的特征;同时EANN用一种hard的方式表示新闻的,而本文使用低维的概率向量表示的,因此本文模型更好 。
消融实验
结果如上表最后一行所示,可以看出领域特定的特征,以及跨领域的特征都对检测虚假新闻有帮助 。而且每一个模态的数据( 以及text )也都有用 。
下图a是新闻的-特征,可以看出该特征反应了新闻的信息 。而b图是corss-特征,就与无关了 。
总结及展望
本文提出一个新的虚假新闻检测框架,能够探索领域特定以及跨领域的新闻特征 。
针对未来的工作,作者后续想做实时在线的虚假新闻检测,针对新闻流处理 。这种数据会有更多的领域新闻,带来更多的问题,比如,新出现的未见过的,以及实时性问题 。另外,如何利用多模态的对齐来弱引导模型的训练过程,也值得探索,也许可以降低打标签的开销 。
个人理解及问题 关于实验部分,作者不是说将三个不同领域的数据集在一起成为一个corss-的新数据集了吗?为什么虚假新闻检测的实验结果Acc,F1等值,还是分别在三个数据集上显示的呢?使用LSH的样本选择算法,是将原始数据集中在训练集中或者 seen的领域新闻,多采样一些,得到一个新的各领域新闻数目均衡的训练集 。基于这种采样后的训练集训练出来的模型,博主认为不能说它解决了问题 。