【论文阅读】Embracing Domain Differences in Fa

是新闻 r 发布的时间;
是新闻的文本内容;
是新闻 r 在时间
内的传播网络( ) 。本文将
设置为一个较低的值,5个小时,以评估本文模型早期检测的性能 。
每一个传播网络
都是一个有向的属性图(garph),包含
,其中节点
代表新闻 r 的原始推文和转发推文,边
代表推文之间的转发关系,
是所有节点的属性集合 。
本文包含两个子任务,(1)从新闻集合 R 中选择一部分新闻实例
来打标签,用 B 来限制这部分实例的数目 。打标签的过程就是为每一个新闻 r 分配一个二元标签
(1表示假,0表示真) 。(2)基于上述有标签的数据
学习一个有效的模型,能够预测无标签的新闻集合

【论文阅读】Embracing Domain Differences in Fa

文章插图
中每一个新闻的标签 。这里的
不局限于某一个领域() 。
为了实现上述领域多样的数据集,本文将三个不同领域的数据集混合起来构成 R (详见实验部分) 。
无监督的领域发现
本文首先用无监督的方法学习新闻的所属领域(r),用一个低维的向量表示(这部分其实就是对每一个新闻做领域聚类,确定每一个新闻所属的领域 。但是不同于一般的用离散值表示不同聚类簇的方式,比如0,1,2分别代表三个不同的簇,本文用一个向量表示一个领域,这个向量就是 ) 。
具体步骤如下面的算法1中1-9行所示 。可表述为:
(1)首先对每一个新闻 r 构建一个集合
【【论文阅读】Embracing Domain Differences in Fa】,包含 r 的传播网络
中的所有用户,以及 r 的新闻内容
中的所有单词 。
(2)针对集合
中的每两个数据,构建一个有权重的边将它们连接起来;
(3)重复上述(1)(2)步,直到所有新闻都处理完成,就得到了最终网络 G 。
然后本文使用一个不需要参数的社区发现算法,算法检测网络 G中的社区 。然后就得到了G的社区划分C(可以理解为就是对G中所有节点进行聚类,得到若干簇,这个簇的集合是 C),本文认为每一个类别C中的所有节点是属于同一个的,而不同类别C下的节点属于不同的(这个C相当于一个聚类的伪标签,代表每一个新闻属于哪一个领域) 。
得到了每一个新闻的所属的伪标签之后,接下来就计算每一个新闻所属的低维向量表示了,就是(r) 。具体过程如下面公式1,2所示 。
以前的方法多用单个的离散值表示新闻所属领域,但是一个新闻可能属于多个不同领域,所以本文这种用概低维概率向量表示 (r) 的方式更好 。
领域无关的新闻分类
针对一个新闻 r 的输入表示 (r) (这个表示的获取方法见实验部分),本文的模型分别学习到新闻的领域特定表示和跨领域表示 ,然后从这两个表示中重构出新闻的真假标签和输入表示 (r),这两个重构loss(公式3和4)就作为本文模型总loss的一部分 。
具体而言,新闻的领域特定表示 通过下面的公式与上面获取的新闻所属领域(r)关联起来 。是一个解码器函数用于重构新闻的所属领域 。
【论文阅读】Embracing Domain Differences in Fa

文章插图
另一方面,新闻的跨领域表示 通过公式6获取 。是一个解码器函数用于预测新闻的所属领域,同时训练函数 来欺骗编码器使它无法准确预测出新闻的所属领域(就是GAN的思路,用最大最小对抗训练) 。通过这种方式来学习新闻的领域无关特征,也就是跨领域的特征 。
最终,本文的模型的损失函数由上面的4个loss构成: