ERNIE 3.0 Titan:最强中文预训练模型

简介: 百度|ERNIE 3.0 Titan:探索更大规模的知识增强型语言理解和生成预训练论文标题:ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation论文链接:https://arxiv.org/abs/2112.12731论文作者:作者:Shuohuan Wang, Yu Sun, Yang Xiang, Haifeng Wang

论文简介


本文介绍了一个中文大语言模型。作者提出了名为ERNIE 3.0的统一框架,用于预训练大规模知识增强模型,并训练了一个具有 100 亿个参数的模型。 ERNIE 3.0 在各种 NLP 任务上的表现优于最先进的模型。为了探索扩展 ERNIE 3.0 的性能,作者在PaddlePaddle平台上训练了具有多达2600亿个参数的百亿参数模型 ERNIE 3.0 Titan。此外,作者设计了一个自监督的对抗损失和一个可控的语言建模损失,使ERNIE 3.0 Titan 生成可信且可控的文本。为了减少计算开销和碳排放,作者为 ERNIE 3.0 Titan 提出了一个在线蒸馏框架,其中教师模型将同时教授学生和自我训练。ERNIE 3.0 Titan是迄今为止最大的中文密集预训练模型。实证结果表明,ERNIE 3.0 Titan在 68 个NLP数据集上的表现优于最先进的模型。


论文核心技术:

(1) 支持同时蒸馏多个学生模型;

(2) 提出即时蒸馏方法(OFD,On the Fly Distillation),更加低耗

(3) 引入辅助层蒸馏 (ALD),这是一种通过在蒸馏阶段堆叠额外的学生层并在微调阶段将其丢弃来提高蒸馏性能的技术。


模型结构


71.png


为了探索知识增强大规模预训练模型的有效性,本文提出了一种名为ERNIE 3.0 Framework的Continual Multi-Paradigms Unified Pre-training Framework,在包括纯文本和文本的海量无监督语料和知识图谱上的预训练模型。具体来说,ERNIE 3.0 Framework 允许多任务范式之间的协同预训练,其中各种类型的预训练任务在相应的任务范式中增量部署,使模型能够学习不同层次的知识,即有价值的词汇、句法和语义信息,更有效。受益于ERNIE 3.0 Framework的优势,ERNIE 3.0在自然语言理解和自然语言生成的丰富下游任务上取得了惊人的改进。理所当然地,本文中的 ERNIE 3.0 Titan 是建立在 ERNIE 3.0 Framework 之上的。


预训练任务


Word-aware Pre-training Tasks


(1) Knowledge Masked Language Modeling:知识遮蔽语言建模任务。它引入了短语掩蔽和命名实体掩蔽,可以预测整个掩蔽短语和命名实体,以帮助模型学习局部上下文和全局上下文中的依赖信息。(Ernie 1.0)


(2) Document Language Modeling:文档语言建模任务是传统语言建模任务的一个特殊版本,它在长文本上训练模型(针对长文本)

Structure-aware Pre-training Tasks


(1) Sentence Reordering:句子重排序任务,旨在通过重组排列后的片段来训练模型来学习句子之间的关系。最后,在训练前,一个给定的段落被随机分割成1到m个片段,所有的组合都按一个随机排列的顺序被打乱。然后,要求预先训练的模型重新组织这些排列的片段。


(2) Sentence Distance:句子距离任务是传统的下一个句子预测(NSP)任务的扩展,被广泛应用于各种预训练模型中,以提高其对句子级信息的学习能力,可以建模为一个3类分类问题。这三类表示两个句子是相邻的,不相邻(在同一文档和来自两个不同的文档)


Knowledge-aware Pre-training Task

(1) Universal Knowledge-Text Prediction:通识文本预测

(2) Credible and Controllable Generations:可信文本生成


69.png


模型性能


实证结果表明,ERNIE 3.0 Titan在68个NLP数据集上的表现优于最先进的模型。其中包括文本分类任务,信息抽取以及主题模型和阅读理解等等。

70.png

相关文章
|
传感器 芯片
STM32--PWR电源控制
STM32--PWR电源控制
535 0
STM32--PWR电源控制
|
数据可视化 容器
Qt 之 QPushButton,信号与槽机制
Qt 之 QPushButton,信号与槽机制
322 0
|
存储 关系型数据库 数据库连接
flyway适配高斯数据库
flyway适配高斯数据库
642 0
|
编解码 定位技术
谷歌地图分辨率表
版权声明:欢迎评论和转载,转载请注明来源。 https://blog.csdn.net/zy332719794/article/details/73949818 ...
2680 0
|
消息中间件 Apache 数据安全/隐私保护
[ActiveMQ]修改默认密码
ActiveMQ使用的是jetty服务器, 在ActiveMQ目录下的conf/jetty.xml文件,vim打开 将property name为authenti...
2586 0
|
7月前
|
人工智能 缓存 Serverless
MCP Server 实践之旅第 3 站:MCP 协议亲和性的技术内幕
本文深入探讨了分布式架构中请求亲和性技术在Serverless范式下的实践。文章以MCP Server在函数计算平台的集成为例,剖析了基于SSE长连接通信模型的会话亲和、优雅升级等关键技术。通过双阶段协商机制与网关层协同设计,函数计算实现了MCP SSE会话亲和性保障,解决了无状态服务处理有状态请求的难题。同时,文章还展示了压测结果,验证了系统的稳定性和扩展能力,并总结了Serverless与有状态服务融合的技术创新点。
|
11月前
|
人工智能 算法 大数据
【天池大赛】历届比赛资料
【天池大赛】历届比赛资料
|
人工智能 自然语言处理 数据挖掘
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%
田渊栋团队提出Agent-as-a-Judge框架,利用智能体自身评估其他智能体的性能,不仅关注最终结果,还能提供中间反馈,更全面准确地反映智能体的真实能力。该框架在DevAI基准测试中表现出色,成本效益显著,为智能体的自我改进提供了有力支持。
355 7
|
机器学习/深度学习 人工智能 自然语言处理
|
机器学习/深度学习 人工智能 搜索推荐
Python进行AI声音克隆的端到端指南
人工智能语音克隆是一种捕捉声音的独特特征,然后准确性复制它的技术。这种技术不仅可以让我们复制现有的声音,还可以创造全新的声音。它是一种彻底改变内容创作的工具,从个性化歌曲到自定义画外音,开辟了一个超越语言和文化障碍的创意世界。
682 0