Meta发布首个「非参数化」掩码语言模型NPM:吊打500倍参数量的GPT-3

简介: Meta发布首个「非参数化」掩码语言模型NPM:吊打500倍参数量的GPT-3




 新智元报道  

编辑:LRS

【新智元导读】Meta发布首个非参数化掩码语言模型NPM:那年双手插兜,不知道什么叫做out of vocabulary


虽然大型语言模型在NLP领域展现出的强大性能十分惊人,但其带来的负面代价也严重,比如训练过于昂贵,难以更新等。,而且很难处理长尾知识。

并且语言模型通常采用在预测层采用一个包含有限词汇量的softmax层,基本上不会输出少见的单词或短语,极大限制了模型的表达能力。为了解决模型的长尾问题,最近来自华盛顿大学、Meta AI和艾伦人工智能研究所的学者联合提出了首个「非参数化掩码语言模型」(NonParametric Masked language model, NPM),通过参考语料库中每个短语的非参数化分布来代替softmax输出。

 

论文链接:https://arxiv.org/abs/2212.01349

代码链接:https://github.com/facebookresearch/NPM

 

NPM可以通过对比目标(contrastive objective)和批内近似于检索完整语料库的方式进行有效训练。

 

研究人员对9个封闭式任务和7个开放式任务进行了zero-shot评估,包括强调需要预测新事实或罕见短语的时空转换和词级翻译任务。

 

结果发现,无论是否采用检索和生成的方法,NPM都明显优于较大的参数模型,比如参数量高500倍的GPT-3和37倍的OPT 13B性能还强不少,并且NPM在处理罕见模式(词义或事实)和预测罕见或几乎未见过的词(如非拉丁文字)方面尤其出色。

 

首个非参数化语言模型

 

虽然结合现有的一些检索和生成(retrieve-and-generate)的相关工作可以缓解该问题,但这些模型的最终预测部分仍然需要一个softmax层来预测token,没有从根本上解决长尾问题。

 

NPM由一个编码器和一个参考语料库组成,编码器将文本映射成一个固定大小的向量,然后NPM从中检索出一个短语并填入[MASK]。

 

 

可以看到,NPM选择在短语上得到的非参数化分布,而没有使用一个固定的输出词汇softmax作为输出。

 

但训练非参数化模型也带来了两个关键的问题

 

1. 在训练过程中检索完整的语料库是非常耗时耗力的,研究人员通过使用完整语料库检索的批内近似值来解决;

 

2. 在没有解码器的情况下学习预测任意长度的短语是很困难的,研究人员通过扩展span masking和短语级别的对比目标来解决。

 

总之,NPM完全删除了输出词汇的softmax,通过预测任意数量的n-gram,实现了有效的无界输出空间。

 

由此产生的模型可以预测「极其罕见」甚至是「完全未见过」的单词(如韩语单词),并可以有效地支撑无限的词汇量,而现有的模型都无法做到这一点。

 

NPM方法

 

NPM的关键思想是使用编码器将语料库中的所有短语映射到一个密集的向量空间中。在推理时,当给定一个带有[MASK]的查询后,使用编码器从语料库中找到最近的短语并填入[MASK]。

 

纯编码器(Encoder-only)模型是一个很有竞争力的表示模型,但现有的纯编码模型无法进行token数量未知的预测,使得它们的使用情况在没有微调的情况下受到限制。

 

NPM通过检索一个短语来填补[MASK]中的任意数量的token,从而解决了这个问题。

 

推理

 

编码器将参考语料库C中的每个不同的短语都映射到一个密集的向量空间中。

 

在测试时,编码器将被masked的查询映射到相同的向量空间中,并从C中检索出短语来填充[MASK]。

 

在这里,C不一定要和训练语料库一样,在测试时可以被替换或扩展,而不需要重新训练编码器。

 

在实践中,语料库中存在大量的短语,对所有的短语进行索引是很昂贵的。

 

比如我们考虑最多有 l 个token的短语(l≈20),就需要索引 l×|C| 数量的向量,这可能会很耗时。

 

 

研究人员对C中每个不同的token进行索引,从而将索引的大小从l×|C|减少到 |C|,然后在测试时,通过对开头和结尾分别进行k近邻搜索,对所有短语的非参数分布进行近似。

 

比如由4个BPE token组成的短语Thessaloniki用c1和c4的连接来表示,分别对应于该短语的开始(The)和结束(iki)。

 

然后用同一向量空间中的两个向量q_start和q_end来表示一个查询,然后用每个向量来检索似是而非的短语的开始和结束,然后再进行聚合。

 

这样做的前提是开始和结尾的表示足够好,即q起点足够接近c1,q终点足够接近c4,而这一点在训练过程中已经得到确保了。

 

训练

 

NPM是在无标签的文本数据上训练的,以确保编码器将文本映射到一个良好的密集向量空间。

 

训练NPM主要有两个难题:1)完整的语料库检索会使训练非常耗时;2)用任意长度的短语而不非token来填充[MASK]。

 

1. 掩码Masking

 

片段掩码(span masking)就是对长度从几何分布中取样的连续token进行mask。

 

研究人员对此进行扩展:

 

1)如果某些片段在batch中的其他序列中共同出现,再对其进行屏蔽,以保证在训练期间该批次内的正例(in-batch positives)。

 

 

比如,屏蔽的片段2010、the Seattle Seahawks和to the都在另一个序列中共同出现。

 

但对于「game ,」这个bigram来说就无法一起被mask,虽然它们也都出现在两个序列中,但它们并没有在一起共现。

 

2)不是用[MASK]来替换片段中的每个token,而是用两个特殊的token [MASKs][MASKe]来替换整个片段。

 

比如上面的例子中,不论被mask的片段长度如何,都被替换成[MASKs][MASKe],从而可以获得每个片段的起点和终点向量,更方便推理。

 

2. 训练目标

 

 

假设被mask的片段是the Seattle Seahawks,在测试时,模型应该从参考语料库的其他序列中检索出the Seattle Seahawks这一短语。

 

而在推理阶段,模型从[MASKs]和[MASKe]中获得向量,并利用它们分别从语料库中检索出短语的开始和结束。

 

因此,训练的目标应该鼓励[MASKs]的向量更接近于the Seattle Seahawks中的the,而与其他token相距较远,并且不应该是任意一个短语中的the,比如become the first中。

 

通过将完整的语料库近似为batch中的其他序列来训练模型来做到这一点,具体来说,训练模型从同一batch的其他序列中检索出the Seattle Seahawks这一片段的起点和终点。

 

需要注意的是,该mask策略确保每个被遮蔽的跨度在一个batch中都有一个共同出现的片段。

 

实验部分

 

从结果上看,NPM在zero-shot设置下比其他基线模型的性能都要强。

 

 

在参数化模型中,RoBERTa取得了最好的性能,出人意料地超过了包括GPT-3等在内的模型,可能是因为纯编码器模型的双向性起到了至关重要的作用,这也表明,因果语言模型可能不是一个合适的分类选择。

 

kNN-LM方法在参数模型中加入了非参数成分,其性能优于其他所有基线。尽管如此,仅仅依靠检索(kNN)在GPT-2中的表现很差,这表明仅在推理时使用kNN是有限的。

 

NPM SINGLE和NPM的表现都明显优于所有基线,在所有数据集上都取得了一致的优越性能。这表明,即使对于不明确需要外部知识的任务,非参数模型也非常有竞争力。

 

定性分析时采用RoBERTa和NPM在情感分析任务时的预测结果。第一个例子用便宜表示不贵,第二个例子用便宜表示质量很差。

 

 

RoBERTa对这两个例子的预测都是正向的,而NPM通过检索在与输入相同的语境中使用cheap的语境,做出了正确的预测。

 

还可以发现,NPM输出的表征能带来更好的词义消歧。例如,RoBERTa在cheap(廉价)和cheap(质量很差)之间分配了一个很高的相似性分数。

 

另一方面,NPM成功地在cheap和cheap之间分配了一个低的相似性分数,也表明该非参数训练与对比性目标是有效的,可以更好地提高表征学习,而kNN推理这类没有训练的算法是完全做不到的。

参考资料:https://arxiv.org/abs/2212.01349

相关文章
|
8月前
|
机器学习/深度学习 人工智能 算法
GPT-4.5 竟成小丑!OpenAI 推出 GPT-4.1:百万级上下文多模态语言模型,性价比远超 GPT-4o mini
OpenAI最新发布的GPT-4.1系列语言模型通过混合专家架构与上下文优化,实现百万级token处理能力,在编码任务中准确率提升21.4%,推理成本降低83%,支持多模态内容理解与低延迟响应。
429 27
GPT-4.5 竟成小丑!OpenAI 推出 GPT-4.1:百万级上下文多模态语言模型,性价比远超 GPT-4o mini
|
8月前
|
机器学习/深度学习 人工智能 前端开发
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%
Meta最新开源的SWEET-RL框架通过优化多轮交互任务的信用分配机制,使Llama-3.1-8B模型在协作推理任务中的表现提升6%,性能达到顶尖大模型水平。
454 33
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%
|
自然语言处理 搜索推荐 API
GPT-4o mini:探索最具成本效益的语言模型及其在开发中的应用
【8月更文第5天】随着自然语言处理技术的快速发展,语言模型正变得越来越强大且易于访问。OpenAI 最新发布的 GPT-4o mini 模型以其卓越的性能和极具竞争力的价格,迅速成为了业界关注的焦点。作为开发者,您是否已经开始探索这个“迄今为止最具成本效益的小模型”?本文旨在鼓励开发者分享使用 GPT-4o mini 及其他大型语言模型的经验,并探讨如何有效地利用这些工具来提升开发效率和创新能力。
552 0
|
10月前
|
机器学习/深度学习 自然语言处理
预训练语言模型:从BERT到GPT,NLP的新纪元
自然语言处理(NLP)近年来因预训练语言模型(PLMs)的崛起而发生巨大变革。BERT和GPT等模型在学术与工业界取得突破性进展。本文探讨PLMs原理、发展历程及其实际应用,涵盖文本分类、命名实体识别、问答系统等场景,并通过实战案例展示如何使用这些强大的工具解决复杂的NLP任务。
|
数据采集 人工智能
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM分饰三角自评自进化
【8月更文挑战第20天】近期,Meta等机构提出了一项让大型语言模型(LLM)自我评估与改进的研究,通过“Meta-Rewarding”方法,使模型分饰生成、评估及改进三角色,实现了高效自我迭代。实验证明,经四轮强化训练后,Llama 7B模型性能大幅提升,在多项任务上超越GPT-4等先进模型,展示了LLM自我优化的巨大潜力。详情参阅论文:https://arxiv.org/abs/2407.19594。
195 7
|
自然语言处理
Meta首发变色龙挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA
【5月更文挑战第27天】Meta推出34B参数的多模态模型Chameleon,通过早期融合技术处理图像和文本,实现全面的多模态建模。在10万亿token的训练数据下,Chameleon在图像字幕生成和文本推理任务中刷新SOTA,展现出在混合模态生成和推理的潜力。然而,模型可能无法完全捕捉图像语义信息,且在某些特定任务上有优化空间。[论文链接](https://arxiv.org/pdf/2405.09818)
276 1
|
数据采集 人工智能 监控
【网安AIGC专题11.1】论文13:理解和解释代码,GPT-3大型语言模型&学生创建的代码解释比较+错误代码的解释(是否可以发现并改正)
【网安AIGC专题11.1】论文13:理解和解释代码,GPT-3大型语言模型&学生创建的代码解释比较+错误代码的解释(是否可以发现并改正)
287 0
|
人工智能 自然语言处理 语音技术
语音领域的GPT时刻:Meta 发布「突破性」生成式语音系统,一个通用模型解决多项任务
语音领域的GPT时刻:Meta 发布「突破性」生成式语音系统,一个通用模型解决多项任务
449 0
|
机器学习/深度学习 人工智能 自然语言处理
少儿编程领域-基于GPT-3 & 大语言模型的AI助教研究
在少儿编程领域,GPT-3 可以辅助教学,帮助学生更好地理解编程概念和实践技能。下面是一个可能的落地解决方案,结合本地知识库和大语言模型:
616 0
|
机器学习/深度学习 人工智能 安全
没有RLHF,一样媲美GPT-4、Bard,Meta发布650亿参数语言模型LIMA
没有RLHF,一样媲美GPT-4、Bard,Meta发布650亿参数语言模型LIMA
208 0