论文简介
本文介绍了一个中文大语言模型。作者提出了名为ERNIE 3.0的统一框架,用于预训练大规模知识增强模型,并训练了一个具有 100 亿个参数的模型。 ERNIE 3.0 在各种 NLP 任务上的表现优于最先进的模型。为了探索扩展 ERNIE 3.0 的性能,作者在PaddlePaddle平台上训练了具有多达2600亿个参数的百亿参数模型 ERNIE 3.0 Titan。此外,作者设计了一个自监督的对抗损失和一个可控的语言建模损失,使ERNIE 3.0 Titan 生成可信且可控的文本。为了减少计算开销和碳排放,作者为 ERNIE 3.0 Titan 提出了一个在线蒸馏框架,其中教师模型将同时教授学生和自我训练。ERNIE 3.0 Titan是迄今为止最大的中文密集预训练模型。实证结果表明,ERNIE 3.0 Titan在 68 个NLP数据集上的表现优于最先进的模型。
论文核心技术:
(1) 支持同时蒸馏多个学生模型;
(2) 提出即时蒸馏方法(OFD,On the Fly Distillation),更加低耗
(3) 引入辅助层蒸馏 (ALD),这是一种通过在蒸馏阶段堆叠额外的学生层并在微调阶段将其丢弃来提高蒸馏性能的技术。
模型结构
为了探索知识增强大规模预训练模型的有效性,本文提出了一种名为ERNIE 3.0 Framework的Continual Multi-Paradigms Unified Pre-training Framework,在包括纯文本和文本的海量无监督语料和知识图谱上的预训练模型。具体来说,ERNIE 3.0 Framework 允许多任务范式之间的协同预训练,其中各种类型的预训练任务在相应的任务范式中增量部署,使模型能够学习不同层次的知识,即有价值的词汇、句法和语义信息,更有效。受益于ERNIE 3.0 Framework的优势,ERNIE 3.0在自然语言理解和自然语言生成的丰富下游任务上取得了惊人的改进。理所当然地,本文中的 ERNIE 3.0 Titan 是建立在 ERNIE 3.0 Framework 之上的。
预训练任务
Word-aware Pre-training Tasks
(1) Knowledge Masked Language Modeling:知识遮蔽语言建模任务。它引入了短语掩蔽和命名实体掩蔽,可以预测整个掩蔽短语和命名实体,以帮助模型学习局部上下文和全局上下文中的依赖信息。(Ernie 1.0)
(2) Document Language Modeling:文档语言建模任务是传统语言建模任务的一个特殊版本,它在长文本上训练模型(针对长文本)
Structure-aware Pre-training Tasks
(1) Sentence Reordering:句子重排序任务,旨在通过重组排列后的片段来训练模型来学习句子之间的关系。最后,在训练前,一个给定的段落被随机分割成1到m个片段,所有的组合都按一个随机排列的顺序被打乱。然后,要求预先训练的模型重新组织这些排列的片段。
(2) Sentence Distance:句子距离任务是传统的下一个句子预测(NSP)任务的扩展,被广泛应用于各种预训练模型中,以提高其对句子级信息的学习能力,可以建模为一个3类分类问题。这三类表示两个句子是相邻的,不相邻(在同一文档和来自两个不同的文档)
Knowledge-aware Pre-training Task
(1) Universal Knowledge-Text Prediction:通识文本预测
(2) Credible and Controllable Generations:可信文本生成
模型性能
实证结果表明,ERNIE 3.0 Titan在68个NLP数据集上的表现优于最先进的模型。其中包括文本分类任务,信息抽取以及主题模型和阅读理解等等。