2022年天马杯新闻文本扩充生成赛道冠军方案分享( 三 )


明显上大分 。

2022年天马杯新闻文本扩充生成赛道冠军方案分享

文章插图
随机替换示例
数据清洗与后处理
数据清洗:
后处理(主要还是弥补模型生成能力不够的问题,上了小分):
后处理示例:
指针式生成网络(- )
PGN是前BERT时代提出的一个经典方法了 。在这个方法中,模型一方面通过指针()从源文本中复制Token,增强模型忠于原文的程度,另一方面保留了生成模型(),可以生成源文本中没有的Token以保证输出的流畅性 。在原文中,部分利用的是生成过程中Cross 部分的权重 。另外,文中还提出了机制来追踪已复制的Token,减少重复复制的问题 。
-
考虑到本任务需要模型生成时也与输入的新闻素材保持一致,所以实现了基于BART的指针式生成网络 。参考之前为数不多的实现,我们使用了一个额外的网络来计算对原文进行复制的概率(而非模型中已有的层) 。对于机制,串行地计算向量实在是太慢了(10倍时间以上,只适合RNN时代的模型),所以我偷懒地实现了一个并行版本的,即训练过程中直接对所有Token的复制概率平方求和(相当于惩罚所有概率都集中到很少Token上的情况) 。
有可能是因为我写得比较垃圾,所以只有微小的提升(不能排除随机影响的那种提升) 。
05
没什么用的尝试
06
实验细节及测评结果
训练和推理中使用的超参数:
超参数
线上评测A榜、B榜、决赛答辩均为第一名,线上指标超过第二名0.3%+ 。
A榜
B榜
07
总结与思考
本次比赛中我们使用的核心技术点:
但其实最后实际生成的新闻,效果只能说勉强能看,流畅性问题不大,但逻辑性、连贯性、事实性等都存在不少问题,很大程度是由于模型参数量和数据量都不够导致的,但方法本身也还有一些改进空间 。
针对比赛本身,还可以考虑的改进方向:
【2022年天马杯新闻文本扩充生成赛道冠军方案分享】如果是针对实际的应用场景,改进的方向: