DL-Paper精读：LSTM + Transformer 架构模型( 二 ) _模型

【DL-Paper精读：LSTM + Transformer 架构模型】对于LSTM + 这样一个架构，实在是心存疑虑。接下来会复现该工程，证明其可行性，同时尝试向其他工作中嵌入。探索这样一个结构，将LSTM和同时在一个网络中相互嵌套，来实现更高的精度，感觉首先应该想清楚的，是它们两者所输出的结果分别蕴含着怎样的信息，它们是否能够简单的进行组合，或者是否有更合理地互补组合方法。文中虽然通过实验证明了其可行性，并一定程度地提高了精度，但是一来这些提高是否真的有意义，或者说是否是两种模型的互补是否真的有机地起作用了（感觉如果两者真的能够很好地组合，从不同视角去解析信息，应该带来更高的精度提高才对）。其次文中提出的 layer ，是否有探究，它到底是起到了怎样的作用，究竟是在训练之后找到了更好地组合权重，还是其实是偷偷将LSTM的输出进行了屏蔽。。。整体的工作研究，尚需更多的验证。