斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果(2)

简介: 斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果

预测:涌现能力应该主要出现在非线性 / 非连续度量上

为了测试第一个预测,研究者分析了在哪些指标上,不同的「任务 - 模型系列」配对是否会出现涌现能力。为了确定一个「任务 - 度量 - 模型系列」三元组是否可能展现出涌现能力,他们借用了论文《Beyond the imitation game: Quantifying and extrapolating the capabilities of language models》中引入的定义。令 y_i ∈ R 表示模型大小为 x_i ∈ R 时的模型性能,并使得 x_i < x_i+1,则涌现分数为:

结果研究者发现,BIG-Bench 使用的大多数度量中没有表现出涌现能力的「任务 - 模型系列」配对:在人们偏好的 39 个 BIG-Bench 度量中,至多 5 个展现出了涌现能力(图 5A)。这 5 个大都是非线性的 / 非连续的,如精确字符串匹配、多选择分级、ROUGE-L-Sum。值得注意的是,由于 BIG-Bench 通常使用多项度量来评估模型的任务表现,因此在其它度量下缺乏涌现能力这一现象说明:当使用其它度量来评价模型输出时,涌现能力并不会出现。

由于涌现分数仅表明有涌现能力,因此研究者还进一步分析了论文《137 emergent abilities of large language models》中人工标注的「任务 - 度量 - 模型系列」三元组。人工标注的数据表明 39 个度量中仅有 4 个表现出了涌现能力(图 5B),并且它们中的 2 个就占到了所宣称的涌现能力的 92% 以上(图 5C)。多选择分级和精确字符串匹配。多选择分级是非连续的,精确字符串匹配是非线性的(在目标长度度量上的变化是近乎几何式的)。总体而言,这些结果说明涌现能力仅出现在非常少量的非线性和 / 或非连续度量上。
图 5:仅有少数度量会出现涌现能力。(A) 在人们偏好的 39 个 BIG-Bench 度量中,至多只有 5 个度量上可能出现了涌现能力。(B) 所引论文中人工标注的数据表明仅有 4 个人们偏好的度量表现出了涌现能力。(C) 涌现能力中 > 92% 都出现在以下两个度量之一上:多选择分级和精确字符串匹配。

预测:如果替代非线性 / 非连续度量,涌现能力应该会被消除

对于第二个预测,研究者分析了前文所引论文中人工标注的涌现能力。他们关注的是 LaMDA 系列,因为其输出可通过 BIG-Bench 获取,而其它模型系列的输出无法这样获取。在已经发表的 LaMDA 模型中,最小的有 20 亿个参数,但 BIG-Bench 中的许多 LaMDA 模型都小很多,而且研究者表示由于无法确定这些更小模型的来源,因此没有在分析中考虑它们。在分析中,研究者认定了在多选择分级度量上 LaMDA 在哪些任务上展现出了涌现能力,然后他们提出了问题:当使用另一个 BIG-Bench 度量 Brier 分数时,LaMDA 能否在同样的任务上展现出涌现能力。Brier 分数是一套严格适当(strictly proper)的评分规则,其度量的是互斥结果的预测;对于一个二元结果的预测,Brier 分数简化成了结果及其预测概率质量之间的均方误差。

研究者发现,当非连续度量多选择分级变成连续度量 Brier 分数时(图 6),LaMDA 的涌现能力消失了。这进一步说明涌现能力的成因并非是随规模增长而导致的模型行为的本质变化,而是对非连续度量的使用
图 6:在任务和模型系列保持不变的前提下改变 BIG-Bench 度量会导致涌现能力消失。上一行:当使用的是一个非连续度量(多选择分级)时,LaMDA 模型系列展现出了涌现能力。下一行:当使用的是一个连续的 BIG-Bench 度量(Brier 分数)时,LaMDA 模型系列在同样任务上不再有涌现能力。


检验三:诱导 DNN 出现涌现能力

研究者的观点是可以通过度量的选择来诱导模型产生涌现能力;为了证明这一点,他们展示了如何让不同架构(全连接、卷积、自注意力)的深度神经网络产生涌现能力。这里研究者重点关注的是视觉任务,原因有二。第一,人们现在主要关注大型语言模型的涌现能力,因为对于视觉模型而言,目前还没有观察到模型能力从无突然转变到有的现象。第二,某些视觉任务用大小适中的网络就足以解决,因此研究者可以完整构建出跨多个数量级规模的模型系列。

卷积网络涌现出对 MNIST 手写数字的分类能力

研究者首先诱导实现 LeNet 卷积神经网络系列涌现出分类能力,训练数据集是 MNIST 手写数字数据集。这个系列展现出了随参数数量增长,测试准确度平滑提升的现象(图 7B)。为了模拟有关涌现的论文中使用的准确度度量,这里使用的是子集准确度(subset accuracy):如果该网络从 K 个(独立的)测试数据中正确分类出了 K 个数据,那么该网络的子集准确度为 1,否则为 0。基于这一准确度定义,在 K 从 1 增长到 5 的设定中,该模型系列展现出了「涌现」能力,从而能够正确分类 MNIST 数字集,尤其是结合了模型大小的稀疏采样时(图 7C)。这个卷积系列的涌现分类能力在定性分析上符合已发表论文中的涌现能力,比如在 BIG-Bench 的地形测绘任务上的结果(图 7A)。
图 7:在卷积网络中诱导出涌现的 MNIST 分类能力。(A) 一篇已发表论文中的基于 BIG-Bench 地形测绘任务的涌现能力。(B) 在 MNIST 上训练的 LeNet 表现出:随模型参数数量增长,测试准确度展现出预测的、普遍的、S 形的增长。(C) 当把准确度重新定义成从 K 个独立测试数据中正确分类出 K 个时,这个新定义的度量会诱导出一种似乎在预料之外的变化。


非线性自动编码器在 CIFAR100 自然图像集上涌现出重建能力

为了凸显出研究者所选度量的锐利度是涌现能力的原因,并且为了表明这种锐利度不仅限于准确度等度量,研究者又诱导在 CIFAR100 自然图像集上训练的浅度(即单隐藏层)非线性自动编码器涌现出重建图像输入的能力。为此,他们刻意定义了一个新的用于衡量模型能力的不连续度量,该度量为平方重建误差低于固定阈值 c 的测试数据的平均数量:

其中 I (・) 是一个随机指示变量,x^n 是自动编码器对 x_n 的重建。研究者检视了自动编码器瓶颈单元的数量,然后发现随模型规模增长,网络的均方重建误差会表现出平滑的下降趋势(图 8B),但如果使用新定义的重建度量,对于选定的 c,这个自动编码器系列在重建该数据集上展现出的能力是锐利的和几乎不可预测的(图 8C),这个结果在定性分析上符合已发表论文中的涌现能力,比如 BIG-Bench 中的 Periodic Elements(周期性元素)任务(图 8A)。
图 8:在浅度非线性自动编码器中诱导出涌现的重建能力。(A) 一篇已发表论文中的基于 BIG-Bench 周期性元素任务的涌现能力。(B) 在 CIFAR100 上训练的浅度非线性自动编码器展现出了平滑下降的均方重建误差。(C) 使用新定义的重建度量(公式 2)诱导出了不可预测的变化。

自回归 Transformer 在 Omniglot 字符集上涌现出了分类能力

接下来是 Transformer 的涌现能力,其使用的是自回归方法来分类 Omniglot 手写字符。研究者使用的实验设置是类似的:Omniglot 图像先由卷积层嵌入,然后以 [嵌入图像,图像类别标签] 配对组成序列的方式输入仅解码器的 Transformer,而该 Transformer 的训练目标是预测 Omniglot 类别标签。研究者是在长度为 L ∈ [1, 5] 的序列上测量图像分类性能,同样是通过子集准确度来度量:如果所有 L 图像都分类正确(图 9B)则子集准确度为 1,否则为 0。Causal Transformer 在正确分类 Omniglot 手写字符任务上似乎展现出了涌现能力(图 9C),该结果在定性分析上符合已发表论文中的涌现能力,比如大规模多任务语言理解(图 9A)。

图 9:在自回归 Transformer 中诱导出涌现的分类能力。(A) 一篇已发表论文中基于 MMLU 基准的涌现能力。(B) 随模型参数增多,使用自回归方法来分类 Omniglot 手写数字的 Transformer 的测试准确度也表现为增长。(C) 当将准确度重新定义为正确分类序列中的所有图像时,该指标更难被预测,这似乎说明诱导出了涌现能力。

相关文章
|
编解码 测试技术 计算机视觉
苹果研究人员公布最新多模态大模型研究成果MM1
【2月更文挑战第27天】苹果研究人员公布最新多模态大模型研究成果MM1
263 3
苹果研究人员公布最新多模态大模型研究成果MM1
|
3月前
|
算法 安全 定位技术
基于改进拥挤距离的多模态多目标优化差分进化(MMODE-ICD)求解无人机三维路径规划研究(Matlab代码实现)
基于改进拥挤距离的多模态多目标优化差分进化(MMODE-ICD)求解无人机三维路径规划研究(Matlab代码实现)
132 2
|
5月前
|
机器学习/深度学习 人工智能 自动驾驶
AI Agent多模态融合策略研究与实证应用
本文从多模态信息融合的理论基础出发,构建了一个结合图像与文本的AI Agent模型,并通过PyTorch代码实现了完整的图文问答流程。未来,多模态智能体将在医疗、自动驾驶、虚拟助手等领域展现巨大潜力。模型优化的核心是提升不同模态的协同理解与推理能力,从而打造真正“理解世界”的AI Agent。
AI Agent多模态融合策略研究与实证应用
|
5月前
|
机器学习/深度学习 人工智能 算法
深度强化学习在异构环境中AI Agent行为泛化能力研究
随着人工智能技术的迅猛发展,AI Agent 在游戏、智能制造、自动驾驶等场景中已逐步展现出强大的自适应能力。特别是深度强化学习(Deep Reinforcement Learning, DRL)的引入,使得智能体能够通过与环境的交互,自动学习最优的行为策略。本文将系统性地探讨基于深度强化学习的AI Agent行为决策机制,并结合代码实战加以说明。
深度强化学习在异构环境中AI Agent行为泛化能力研究
|
8月前
|
编解码 边缘计算 文字识别
SmolVLM:资源受限环境下的高效多模态模型研究
SmolVLM是一系列专为资源受限设备多模态模型,通过优化架构与训练策略,在图像和视频处理任务中表现出接近大型模型的性能。该系列包含三种变体:SmolVLM-256M、500M和2.2B,分别适用于极端边缘计算、中等资源设备及高端边缘系统。研究探索了视觉与语言组件间的参数分配、高效视觉信息传递机制、视频编码策略等关键技术,并在多个基准测试中展现出卓越性能。SmolVLM不仅在计算效率和内存占用上具有显著优势,还在设备端部署中表现出高吞吐量和广泛适用性,适用于智能手机、笔记本电脑以及专业领域如文档理解与生物医学视觉问答等场景。论文由Ritvik Rastogi发布,详细探讨了模型设计与实验结果。
394 3
SmolVLM:资源受限环境下的高效多模态模型研究
|
10月前
|
人工智能 自然语言处理 API
研究大模型门槛太高?不妨看看小模型SLM,知识点都在这
大型语言模型(LLM)在文本生成、问答等领域表现出色,但也面临资源受限环境应用难、领域知识不足及隐私问题等挑战。为此,小型语言模型(SLM)逐渐受到关注,其具备低延迟、成本效益高、易于定制等优点,适合资源受限环境和领域知识获取。SLM可通过预训练、微调和知识蒸馏等技术增强性能,在自然语言处理、计算机视觉等领域有广泛应用潜力。然而,SLM也存在复杂任务表现有限等问题,未来研究将进一步提升其性能与可靠性。 论文链接:https://arxiv.org/abs/2411.03350
414 5
|
自然语言处理 数据安全/隐私保护
整合 200 多项相关研究,大模型终生学习最新综述来了
【9月更文挑战第26天】近年来,大型语言模型(LLMs)在自然语言处理、智能问答及内容生成等领域广泛应用。面对不断变化的数据、任务和用户偏好,LLMs需具备适应能力。传统静态数据集训练方式难以满足需求,因此提出了“终身学习”方法,使模型持续学习新知识并避免遗忘旧知识。最新综述文章整合200多项研究,将终身学习分为内部知识(连续预训练和微调)与外部知识(基于检索和工具)两大类,涵盖12种应用场景,探讨了模型扩展和数据选择等新兴技术。然而,终身学习也面临计算资源、知识冲突及数据安全等挑战。
375 6
|
自然语言处理 测试技术 人工智能
Meta等最新研究:多token预测,提升大模型推理效率
【6月更文挑战第2天】Meta等机构的研究人员提出了一种新的大型语言模型训练方法——多token预测,以提高样本效率和推理速度。该方法要求模型同时预测多个接下来的token,而非传统的单一token预测,从而减少局部模式依赖,提高模型的宏观决策能力。实验表明,这种方法在提升模型性能和推理速度方面效果显著,尤其在编程任务中表现出色。然而,多token预测可能需要更多计算资源,并不适用于所有NLP任务,其在自然语言处理领域的应用仍有待深入研究。论文链接:https://arxiv.org/abs/2404.19737
612 7
|
机器学习/深度学习 数据处理
苹果新研究提升服务大模型效率
【2月更文挑战第29天】苹果公司研发的ReDrafter是一种新型推测解码方法,旨在提高大型语言模型的推理效率。该方法结合双模型和单模型优点,使用轻量级草稿头及递归依赖设计,优化内存和计算资源,降低推理延迟。实验显示,ReDrafter在性能上超越了现有方法,尤其适合需要快速响应的场景。这一突破为大型语言模型的效率提升提供了新思路,但也面临准确性和复杂性权衡以及集成挑战。论文链接:[https://arxiv.org/pdf/2403.09919.pdf](https://arxiv.org/pdf/2403.09919.pdf)
209 2
苹果新研究提升服务大模型效率
|
人工智能 UED
清华大学研究提出用大模型做心理测量
【2月更文挑战第24天】清华大学研究提出用大模型做心理测量
868 2
清华大学研究提出用大模型做心理测量

热门文章

最新文章