DL-Paper精读:LSTM + Transformer 架构模型( 二 )


【DL-Paper精读:LSTM + Transformer 架构模型】对于LSTM + 这样一个架构 , 实在是心存疑虑 。接下来会复现该工程 , 证明其可行性 , 同时尝试向其他工作中嵌入 。探索这样一个结构 , 将LSTM和同时在一个网络中相互嵌套 , 来实现更高的精度 , 感觉首先应该想清楚的 , 是它们两者所输出的结果分别蕴含着怎样的信息 , 它们是否能够简单的进行组合 , 或者是否有更合理地互补组合方法 。文中虽然通过实验证明了其可行性 , 并一定程度地提高了精度 , 但是一来这些提高是否真的有意义 , 或者说是否是两种模型的互补是否真的有机地起作用了(感觉如果两者真的能够很好地组合 , 从不同视角去解析信息 , 应该带来更高的精度提高才对) 。其次文中提出的 layer , 是否有探究 , 它到底是起到了怎样的作用 , 究竟是在训练之后找到了更好地组合权重 , 还是其实是偷偷将LSTM的输出进行了屏蔽 。。。整体的工作研究 , 尚需更多的验证 。