谷歌NLP新模型「大鸟」突破BERT限制，稀疏注意力机制更省内存-阿里云开发者社区

谷歌NLP新模型「大鸟」突破BERT限制，稀疏注意力机制更省内存

2022-01-09 675

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 最近Google又发了一个NLP模型，名字也很喜感Big Bird！这只大鸟在长文本任务中能胜过BERT，它有哪些独特之处呢？

微信图片_20220109141451.png

谷歌最近又推出了一个重磅的稀疏注意力模型：Big Bird。之前各种刷榜的BERT和它的各种衍生版本RoBERTa等，都是构建在Transformer基础上。这些模型的核心竞争力就是全注意力机制，但这种机制会产生序列长度的二次依赖，如果输入的token过长，会撑爆内存，而长文本摘要等任务中，BERT的512token，就显得有点捉襟见肘。

二次依赖限制了BERT

BERT中token的长度一般设置为512，这对普通的NLP任务来说足够了，但是想对一整篇文章或者一本书进行信息挖掘，也就是长文本任务，512的长度就有点短，把token长度变为1024的话，所需的计算量就会变成原来的4倍，对内存是很伤的。

微信图片_20220109141454.png

如果能把这个n^2的复杂度降下来，那么就能实现一个长距的上下文注意力机制，而不会把内存撑爆，这就是Big Bird要做的事。

微信图片_20220109141456.png

谷歌团队解决这个问题的方法，是引入一种全新的稀疏注意力机制：Big Bird。

谷歌「大鸟」：稀疏注意力机制更省内存

Big Bird相对于传统的全注意力机制来说变的更稀疏，作为更长序列上的Transformer，Big Bird不仅能注意到更长的上下文信息，还将计算的二次依赖降低到了线性。我们来看下Big Bird是如何构建的。

微信图片_20220109141457.png

图（a）表示r=2的随机注意力机制，图（b）表示w=3的局部注意力机制，图（c）表示g=2的全局注意力机制，图（d）是三者加起来的Big Bird模型。

图中空白的部分表示没有注意，有颜色的部分才能得到关注，有点像dropout的选择性丢弃。注意的部分减少了，性能会不会打折扣，我们来看下实验结果。

实验：三种注意力机制结合效果最好

只采用随机注意力机制、局部注意力机制，或者两者融合起来，都没有三者合体的效果好。 Global+R+W在MLM任务上超过了BERT-base，在SQuAD和MNLI任务上接近了BERT-base，但是考虑到内存上节省了很多资源，还是有其实用价值。

微信图片_20220109141459.png

使用基础的模型，在HotpotQA、Natural QA、 TriviaQA和WikiHop四个问答任务上进行了测试，结果表明Big Bird均超越了RoBERTa和Longformer。

微信图片_20220109141501.png

在长文本摘要中，Big Bird也是表现出了很好的潜力，在Arxiv，PubMed，BigPatent上均取得了最好成绩。

微信图片_20220109141503.png

使用这些数据集，因为它们都是长文档，输入不仅仅是512个token，更容易对比长文本的特征提取能力和模型的总体性能。 reddit上有网友对Big Bird提出了质疑认为Big Bird只是另一种Longformer，没有什么本质创新。

微信图片_20220109141505.png

有网友说，最近爆火的GPT-3也用了稀疏注意力机制，但是因为OpenAI的blocksparse太久没更新了，所以不知道二者有没有内在的相似性。

微信图片_20220109141507.png

谷歌发表的一些研究，之前也有人提出过类似的，但只有谷歌发出来，才能得到广泛的关注，进大厂发论文的概率还是高啊。

期待Big Bird给NLP任务带来新的惊喜！