1.6万亿参数,秒杀GPT-3!谷歌推出超级语言模型Switch Transformer,比T5快4倍

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: 继GPT-3问世仅仅不到一年的时间,Google重磅推出Switch Transformer,直接将参数量从GPT-3的1750亿拉高到1.6万亿,并比之前最大的、由google开发的语言模型T5-XXL足足快了4倍。
微信图片_20220112101428.png


对于机器学习来说,参数可以算得上算法的关键:他们是历史的输入数据,经过模型训练得来的结果,是模型的一部分。

一般来说,在NLP领域,参数数量和复杂程度之间具有正相关性。

 

迄今为止,OpenAI 的 GPT-3是有史以来最大的语言模型之一,有1750亿个参数。

 

微信图片_20220112101430.png

 

现在,距离GPT-3问世不到一年的时间,更大更复杂的语言模型又来了——

 

在对这种相关性进行最全面测试的基础上,今日,谷歌的研究人员开发了一种能够训练包含超过一万亿参数的语言模型:Switch Transformer,并进行了基准测试。

 

微信图片_20220112101432.png

 

他们表示,1.6万亿参数模型是迄今为止最大的,并比之前最大的、由google开发的语言模型T5-XXL足足快了4倍。

 

微信图片_20220112101434.png


图:Switch 模型设计和预训练表现

 

研究人员在论文中表示,对于强大模型来说,进行大规模训练是一个非常有效的途径。

 

尽管在大数据集和参数支撑下的简单的架构可以超越一些复杂的算法,然而,高效且大规模的训练却属于极度的计算密集型。

 

微信图片_20220112101436.png

 

而这,也正是Google的研究者发明Switch Transformer的原因。

 

微信图片_20220112101441.png


图:Switch Transformer编码块

 

Switch Transformer使用了一种叫做稀疏激活(sparsely activated)的技术,这个技术只使用了模型权重的子集,或者是转换模型内输入数据的参数,即可达成相同的效果。

 

此外,Switch Transformer还主要建立在混合专家(Mix of Expert)的基础上。

 

微信图片_20220112101446.png


图:Token动态路由示例

 

什么是“混合专家”呢?

 

混合专家(Mix of Expert,MoE)是90年代初首次提出的人工智能模型范式。

 

在MoE中,对于不同的输入,会选择不同的参数。多个专家(或者专门从事不同任务的模型)被保留在一个更大的模型中,针对任何给定的数据,由一个“门控网络”来选择咨询哪些专家。

 

其结果是一个稀疏激活的模型——具有数量惊人的参数,但计算成本不变。然而,尽管MoE取得了一些显著的成功,但其广泛采用仍然受到复杂性、通信成本和训练不稳定性的阻碍。而Switch Transformer则解决了这些问题。

 

Switch Transformer的新颖之处,在于它有效地利用了为密集矩阵乘法(广泛应用于语言模型的数学运算)设计的硬件,如GPU和谷歌的TPU。

 

微信图片_20220112101448.png


图:数据和权重划分策略

 

在研究人员的分布式训练设置中,他们的模型将不同的权重分配到不同的设备上,因此,虽然权重会随着设备数量的增加而增加,但是每个设备却可以保持可管理的内存和计算足迹。

 

在一项实验中,研究人员使用了32个TPU核,在“Colossal Clean Crawled Corpus”,也就是 C4 数据集上,预先训练了几种不同的Switch Transformer模型。

 

C4是一个750gb大小的数据集,包含从Reddit、Wikipedia和其他web资源上获取的文本。

 

微信图片_20220112101449.png


图:C4数据集

 

研究人员让这些Switch Transformer模型去预测有15%的单词被掩盖的段落中遗漏的单词,除此之外,还为模型布置了许多其他挑战,如检索文本来回答一系列越来越难的问题等等。

 

研究人员声称,和包含3950亿个参数和64名专家的更小的模型(Switch-XXL)相比,他们发明的拥有2,048名专家的1.6万亿参数模型(Switch-C)则“完全没有训练不稳定性”。

 

然而,在SQuAD的基准测试上,Switch-C的得分却更低(87.7),而Switch-XXL的得分为89.6。

 

对此,研究人员将此归因于微调质量、计算要求和参数数量之间的不明确关系。

 

在这种情况下,Switch Transformer还是在许多下游任务上的效果有了提升。例如,根据研究人员的说法,在使用相同数量的计算资源的情况下,它可以使预训练的速度提高了7倍以上。


       微信图片_20220112101452.png


图:所有模型均在32个TPU上进行训练

 

同时研究人员证明,大型稀疏模型可以用来创建更小、更稠密的模型,这些模型可以对任务进行微调,其质量增益只有大型模型的30% 。

 

在一个测试中,一个 Switch Transformer 模型被训练在100多种不同的语言之间进行翻译,研究人员观察到其中101种语言都得到了“普遍的改善” ,91% 的语言受益于超过baseline模型4倍以上的速度。

 

微信图片_20220112101454.png


图:101种语言的多语言预训练

 

研究人员在论文中写道: “虽然这项工作主要集中在超大型模型上,但我们也发现,只有两个专家的模型能够提高性能,同时很容易适应常用 GPU 或 TPU 的内存约束。”

 

“我们不能完全保证模型的质量,但是通过将稀疏模型蒸馏成稠密模型,同时达到专家模型质量增益的30%的情况下 ,是可以达到10到100倍压缩率的。”

 

在未来的工作中,研究人员计划将Switch Transformer应用到新的和跨越不同的模态中去,包括图像和文本。他们认为,模型稀疏性可以赋予各种不同媒介以及多模态模型一些优势。

 

在论文的最后,Google的研究人员还表示:

 

总的来说,Switch Transformers是一个可扩展的,高效的自然语言学习模型。

 

通过简化MoE,得到了一个易于理解、易于训练的体系结构,该结构还比同等大小的密集模型具有更大的采样效率。

 

这些模型在一系列不同的自然语言任务和不同的训练机制中,包括预训练、微调和多任务训练,都表现出色。

 

这些进步使得使用数千亿到万亿参数训练模型成为可能,相对于密集的T5基准,这些模型可以实现显著的加速。

 

谷歌的研究人员表示,希望他们的工作能够激励稀疏模型成为一种有效的架构,并鼓励研究人员和实践者在自然语言任务中考虑这些灵活的模型。

 

 

参考链接:

https://arxiv.org/pdf/2101.03961.pdf

https://venturebeat.com/2021/01/12/google-trained-a-trillion-parameter-ai-language-model/

 

相关文章
|
6月前
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
92 1
|
3月前
|
人工智能 自然语言处理
公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4
【8月更文挑战第3天】新论文提出“公理训练”法,使仅有6700万参数的语言模型掌握因果推理,性能媲美万亿级GPT-4。研究通过大量合成数据示例教授模型因果公理,实现有效推理并泛化至复杂图结构。尽管面临合成数据需求大及复杂关系处理限制,此法仍为语言模型的因果理解开辟新途径。[链接: https://arxiv.org/pdf/2407.07612]
72 1
|
2月前
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
|
2月前
|
机器学习/深度学习 数据可视化 UED
黑匣子被打开了!能玩的Transformer可视化解释工具,本地运行GPT-2、还可实时推理
【9月更文挑战第4天】Transformer Explainer是一款基于网页的交互式可视化工具,专为帮助用户理解复杂的Transformer模型而设计。通过多层次抽象、实时推理及互动实验,以及无需安装即可使用的便捷性,此工具选取GPT-2作为教学模型,降低了学习门槛并提升了教育普及度。用户可以通过输入自定义文本观察预测过程,深入了解内部组件的工作原理。此外,它还减少了认知负荷,增强了互动学习体验。未来,该工具将在复杂性管理和性能优化方面继续改进,并通过用户研究进一步提升功能和可用性。[论文地址:https://arxiv.org/pdf/2408.04619]
46 1
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
算法金 | 秒懂 AI - 深度学习五大模型:RNN、CNN、Transformer、BERT、GPT 简介
**RNN**,1986年提出,用于序列数据,如语言模型和语音识别,但原始模型有梯度消失问题。**LSTM**和**GRU**通过门控解决了此问题。 **CNN**,1989年引入,擅长图像处理,卷积层和池化层提取特征,经典应用包括图像分类和物体检测,如LeNet-5。 **Transformer**,2017年由Google推出,自注意力机制实现并行计算,优化了NLP效率,如机器翻译。 **BERT**,2018年Google的双向预训练模型,通过掩码语言模型改进上下文理解,适用于问答和文本分类。
154 9
|
4月前
|
机器学习/深度学习 自然语言处理 计算机视觉
Transformer深度学习架构与GPT自然语言处理模型
Transformer和GPT(Generative Pre-trained Transformer)是深度学习和自然语言处理(NLP)领域的两个重要概念,它们之间存在密切的关系但也有明显的不同。
82 2
|
4月前
|
自然语言处理 PyTorch API
`transformers`库是Hugging Face提供的一个开源库,它包含了大量的预训练模型和方便的API,用于自然语言处理(NLP)任务。在文本生成任务中,`transformers`库提供了许多预训练的生成模型,如GPT系列、T5、BART等。这些模型可以通过`pipeline()`函数方便地加载和使用,而`generate()`函数则是用于生成文本的核心函数。
`transformers`库是Hugging Face提供的一个开源库,它包含了大量的预训练模型和方便的API,用于自然语言处理(NLP)任务。在文本生成任务中,`transformers`库提供了许多预训练的生成模型,如GPT系列、T5、BART等。这些模型可以通过`pipeline()`函数方便地加载和使用,而`generate()`函数则是用于生成文本的核心函数。
|
5月前
|
机器学习/深度学习 人工智能 算法
谷歌DeepMind:GPT-4高阶心智理论彻底击败人类!第6阶推理讽刺暗示全懂了
【6月更文挑战第10天】谷歌DeepMind团队的最新论文显示,GPT-4在高阶心智理论任务中超越了人类水平,这是AI在理解和推理人类心理状态上的重大突破。研究人员通过MoToMQA测试套件评估了大型语言模型,发现GPT-4在第6阶推理上超过成人表现。这一进展意味着AI能更好地理解用户意图,提升交互体验,但也引发了关于操纵与控制人类以及模型是否真正理解心理状态的担忧。论文链接:https://arxiv.org/pdf/2405.18870
74 3
|
6月前
|
自然语言处理
Meta首发变色龙挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA
【5月更文挑战第27天】Meta推出34B参数的多模态模型Chameleon,通过早期融合技术处理图像和文本,实现全面的多模态建模。在10万亿token的训练数据下,Chameleon在图像字幕生成和文本推理任务中刷新SOTA,展现出在混合模态生成和推理的潜力。然而,模型可能无法完全捕捉图像语义信息,且在某些特定任务上有优化空间。[论文链接](https://arxiv.org/pdf/2405.09818)
98 1
|
6月前
|
人工智能 测试技术 iOS开发
微软Phi-3,3.8亿参数能与Mixtral 8x7B和GPT-3.5相媲美,量化后还可直接在IPhone中运行
Phi-3系列是微软推出的一系列高效语言模型,旨在在移动设备上实现高性能。该系列包括 Phi-3-mini(38亿参数)、Phi-3-small 和 Phi-3-medium,它们在保持紧凑的同时,性能媲美GPT-3.5和Mixtral。模型通过精心筛选的数据集和优化训练策略,如数据最优化和阶段训练,实现高效能。 Phi-3-mini可在iPhone 14上运行,占用约1.8GB内存。这些模型在多个基准测试中展现出色性能,推动了AI在移动设备上的应用,增强了用户隐私和体验。虽然目前仅发布技术报告,但源代码和权重即将开放下载。
148 1

热门文章

最新文章