谷歌NLP新模型「大鸟」突破BERT限制,稀疏注意力

2020-08-09 15:00:12 作者:指针直指俄心  阅读:130 次  点赞:5 次  鄙视:9 次  收藏:0 次  由 www.3ctuan.cn 收集整理
分享到:
关闭
听新闻 - 谷歌NLP新模型「大鸟」突破BERT限制,稀疏注意力
00:00 / 00:00

-

+

语速: 慢速 默认 快速
- 6 +
自动播放×

御姐音

大叔音

萝莉音

型男音

温馨提示:
是否自动播放到下一条内容?
立即播放当前内容?
确定
确定
取消

谷歌最近又推出了一个重磅的稀疏注意力模型:Big Bird。

之前各种刷榜的BERT和它的各种衍生版本RoBERTa等,都是构建在Transformer基础上。

这些模型的核心竞争力就是全注意力机制,但这种机制会产生序列长度的二次依赖,如果输入的token过长,会撑爆内存,而长文本摘要等任务中,BERT的512token,就显得有点捉襟见肘。

二次依赖限制了BERT

BERT中token的长度一般设置为512,这对普通的NLP任务来说足够了,但是想对一整篇文章或者一本书进行信息挖掘,也就是长文本任务,512的长度就有点短,把token长度变为1024的话,所需的计算量就会变成原来的4倍,对内存是很伤的。

如果能把这个n^2的复杂度降下来,那么就能实现一个长距的上下文注意力机制,而不会把内存撑爆,这就是Big Bird要做的事。

谷歌团队解决这个问题的方法,是引入一种全新的稀疏注意力机制:Big Bird。

谷歌「大鸟」:稀疏注意力机制更省内存

Big Bird相对于传统的全注意力机制来说变的更稀疏,作为更长序列上的Transformer,Big Bird不仅能注意到更长的上下文信息,还将计算的二次依赖降低到了线性。

我们来看下Big Bird是如何构建的。

图(a)表示r=2的随机注意力机制,图(b)表示w=3的局部注意力机制,图(c)表示g=2的全局注意力机制,图(d)是三者加起来的Big Bird模型。

图中空白的部分表示没有注意,有颜色的部分才能得到关注,有点像dropout的选择性丢弃。

注意的部分减少了,性能会不会打折扣,我们来看下实验结果。

实验:三种注意力机制结合效果最好

只采用随机注意力机制、局部注意力机制,或者两者融合起来,都没有三者合体的效果好。

Global+R+W在MLM任务上超过了BERT-base,在SQuAD和MNLI任务上接近了BERT-base,但是考虑到内存上节省了很多资源,还是有其实用价值。

使用基础的模型,在HotpotQA、Natural QA、 TriviaQA和WikiHop四个问答任务上进行了测试,结果表明Big Bird均超越了RoBERTa和Longformer。

在长文本摘要中,Big Bird也是表现出了很好的潜力,在Arxiv,PubMed,BigPatent上均取得了最好成绩。

使用这些数据集,因为它们都是长文档,输入不仅仅是512个token,更容易对比长文本的特征提取能力和模型的总体性能。

reddit上有网友对Big Bird提出了质疑认为Big Bird只是另一种Longformer,没有什么本质创新。

有网友说,最近爆火的GPT-3也用了稀疏注意力机制,但是因为OpenAI的blocksparse太久没更新了,所以不知道二者有没有内在的相似性。

谷歌发表的一些研究,之前也有人提出过类似的,但只有谷歌发出来,才能得到广泛的关注,进大厂发论文的概率还是高啊。

期待Big Bird给NLP任务带来新的惊喜!

(声明:本文仅代表作者观点,不代表新浪网立场。)

Tags标签
加入收藏夹(0 点赞一下(5 鄙视一下(9
发表评论
内容:
剩余字数:360/360


     :: 正在为您加载评论……


每页10条,共0

相关文章

play
next
close
X

3C团-上所有的内容均由网友收集整理,纯属个人爱好并供广大网友交流学习之用,作品版权均为原版权人所有。
如果版权所有人认为在本站放置您的作品会损害您的利益,请指出,本站在核实之后会立即删除。QQ:22359512
Copyright 2006-2021 3ctuan.cn Inc. all Rights Reserved

粤ICP备65461687号 XML地图 Tags标签

×

分享到微信朋友圈

扫描二维码在微信中分享