Incorporating copying mechanism in sequence-to-sequence learning
- Jiatao GU et al.
- ACL2016
- using LCSTS Dataset
Models
- 整体:
- Prediction: 相比上一个有个开关的方式,这篇论文则将概率相加再softmax得到输出。对于V中的每个词,计算generation模式的概率,对于X中的每个词,计算copy模式的概率,最后进行归一化,得到输出。
- Decoder State Update: s_t=f(s_t-1, y_t-1, c_t)这个和常规的是一样的,但是这里的y_t-1=[e(y_t-1), C(y_t-1)]T,e就是y_t-1的embedding,C是输入单词的权重,对跟y_t-1相同的词进行计算,不相同的词直接置0,然后归一化。
- Code: https://github.com/MultiPath/CopyNet
性能:
- LCSTS(Word Level): Rouge-1:35.0/Rouge-2:22.3/Rouge-L:32.0
Sequential Copying Networks
- Qingyu Zhouy, Nan Yang, Furu Wei, Ming Zhou; HIT & MSRA
- AAAI2018
- 原先的CopyNet每次copy一个词,这篇文章一次可以copy多个词(词组),通过给每个copy的词打标签来判断是否结束
性能
- Gigaword: Rouge-1:35.93/Rouge-2:17.51/Rouge-L:33.35