斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果(1)

简介: 斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果

斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果

机器之心 2023-05-03 12:48 发表于河北

机器之心报道

编辑:蛋酱、Panda W

大模型出现后,涌现这一术语开始流行起来,通常表述为在小规模模型中不存在,但在大规模模型中存在的能力。但斯坦福大学的研究者对 LLM 拥有涌现能力的说法提出了质疑,他们认为是人为选择度量方式的结果。

「别太迷信大模型的涌现,世界上哪儿有那么多奇迹?」斯坦福大学的研究者发现,大模型的涌现与任务的评价指标强相关,并非模型行为在特定任务和规模下的基本变化,换一些更连续、平滑的指标后,涌现现象就不那么明显了,更接近线性。

近期,由于研究者们观察到大型语言模型(LLMs),如 GPT、PaLM、LaMDA 可以在不同的任务中表现出所谓的「涌现能力」,这一术语在机器学习领域得到了极大关注:

事实上,复杂系统的新兴特性一直以来都是物理学、生物学、数学等学科在研究的重点。

值得注意的一个观点是,诺贝尔物理学奖获得者 P.W.Anderson 提出了「More Is Different」。这一观点认为,随着系统复杂性的增加,新的属性可能会具象化,即使从对系统微观细节的精确定量理解中并不能(容易或根本无法)预测到。

大模型领域的「涌现」如何定义?一种通俗的说法是「在小规模模型中不存在,但在大规模模型中存在的能力」,因此,它们不能通过简单地推断小规模模型的性能改进来预测。

这种涌现的能力可能首先在 GPT-3 家族中被发现。后续的一些工作强调了这一发现:「虽然模型性能在一般水平上是可以预测的,但在特定任务上,其性能有时会在规模上出现相当难以预测的涌现」。事实上,这些涌现能力非常令人惊讶,以至于「突然的、特定的能力扩展」已经被认为是 LLM 的两个最高定义特征之一。此外,「breakthrough capabilities」和「sharp left turns」等术语也被使用。

综上所述,我们可以确定 LLM 涌现能力的两个决定性属性:

1. 敏锐性,从「不存在」到「存在」似乎只是瞬间的过渡;2. 不可预测性,在看似不可预见的模型规模内过渡。

与此同时,还有一些问题悬而未决:是什么控制了哪些能力会涌现?什么控制着能力的涌现?我们怎样才能使理想的能力更快地涌现,并确保不理想的能力永不涌现?

这些问题与人工智能的安全和对齐息息相关,因为涌现的能力预示着更大的模型可能有一天会在没有警告的情况下获得对危险能力的掌握,这是人类不希望发生的。

在最新的一篇论文中,斯坦福大学的研究者对 LLM 拥有涌现能力的说法提出了质疑。

论文:https://arxiv.org/pdf/2304.15004.pdf

具体而言,此处的质疑针对的是在特定任务中模型输出作为模型规模的函数而发生的涌现和不可预测的变化。

他们的怀疑基于以下观察:似乎只有在非线性或不连续地扩展任何模型的 per-token 错误率的度量下,模型才会出现涌现能力。例如,在 BIG-Bench 任务中,>92% 的涌现能力是这两个度量下出现的:

这就为 LLMs 的涌现能力的起源提出了另一种解释的可能性:尽管模型族的 per-token 错误率会随着模型规模的增加进行平滑、持续且可预测地变化,但看似尖锐和不可预测的变化可能是由研究者选择的测量方法引起的

也就是说,涌现能力可能是一种海市蜃楼,主要是由于研究者选择了一种非线性或不连续地改变 per-token 错误率的度量,部分原因是由于拥有太少的测试数据,不足以准确估计较小模型的性能(从而导致较小的模型看起来完全不能执行任务),另一部分原因是由于评估了太少的大规模模型。

为了阐述这种解释方式,研究者将其作为一个简单的数学模型,并证明它是如何从数量上再现为支持 LLM 的涌现能力而提供的证据。然后,研究者以三种互补的方式检验了这种解释:

1. 使用 InstructGPT [24]/GPT-3 [3] 模型系列,根据替代假说做出、测试并确认三个预测。2. 对先前的一些结果进行了元分析,并表明在任务指标 - 模型家族三联体的空间中,出现的能力只出现在某些指标上,而不是任务上的模型家族(列)。该研究进一步表明,在固定的模型输出上,改变度量会导致涌现现象的消失。3. 故意在不同架构的深度神经网络中诱导出多个视觉任务的涌现能力(这在以前从未被证明过),以显示类似的度量选择如何诱导出看似涌现的能力。

检验一:InstructGPT/GPT-3 模型系列分析

研究者选择了 GPT 系列模型进行进一步分析,原因在于它是可公开查询的,这一点和其他模型系列不同(例如 PaLM、LaMDA、Gopher、Chinchilla)。在此前的研究中,GPT 系列模型被认为在整数算术任务中展示出涌现能力。此处,研究者也选择了整数算术这一任务。

图 2: 大型语言模型的涌现能力是研究者分析的创造物,而不是模型输出随规模变化的根本性变化。

正如第 2 节中用数学和图表解释的那样,研究者提出的替代解释可以预测出三个结果:

1. 随着模型规模提升,如果将度量从非线性 / 不连续的度量(图 2CD)换成线性 / 连续的度量(图 2EF),那么应该会有平滑的、连续的、可预测的性能提升。

2. 对于非线性的度量,如果通过增大测试数据集的大小而提升所测模型性能的分辨率,那么应该能让模型得到平滑的、连续的、可预测的提升,并且该提升的比例与所选度量的可预测的非线性效应是相对应的。

3. 无论使用什么度量指标,提升目标字符串长度都应该会对模型性能产生影响,该影响是长度为 1 的目标性能的一个函数:对于准确度是近乎几何的函数,对于 token 编辑距离是近乎准线性的函数。

为了测试这三个预测结论,研究者收集了 InstructGPT/GPT-3 系列模型在两个算术任务上的字符串输出结果:使用 OpenAI API 执行 2 个两位数整数之间的两样本乘法以及 2 个四位数整数之间的两样本加法。

图 3:随着模型规模提升,改变度量可以为性能带来平滑、连续、可预测的改变。


从左至右:数学模型,2 个两位数整数乘法任务, 2 个四位数整数加法任务。上方的图是使用一个非线性度量(如准确度)而测得的模型性能,可看到 InstructGPT/GPT-3 系列模型的性能在目标长度更长时显得锐利和不可预测。而下方的图是使用一个线性度量(如 token 编辑距离)而测得的模型性能,此系列模型表现出了平滑的、可预测的性能提升,这是研究者宣称的涌现产生的能力。

预测:涌现能力在线性度量下会消失

在这两个整数乘法和加法任务上,如果目标字符串的长度是 4 或 5 位数字并且性能的度量方式是准确度(图 3 上一行图),那么 GPT 系列模型会展现出涌现的算术能力。但是,如果将一个度量从非线性换成线性,同时保持模型的输出固定,那么该系列模型的性能会得到平滑、连续和可预测的提升。这就确认了研究者的预测,由此表明锐利和不确定性的来源是研究者所选择的度量,而非模型的输出的变化。还可以看到,在使用 token 编辑距离时,如果将目标字符串的长度从 1 增大至 5,那么可预见该系列模型的性能会下降,并且下降趋势是近乎准线性的,这符合第三个预测的前半部分。

预测:涌现能力随着更高的分辨率评估的出现而消失

接下来是第二个预测:即使是用准确度等非线性度量,更小模型的准确度也不会为零,而是高于偶然性的非零值,其比例是与选择使用准确度为度量相对应的。为了提升分辨率,以进一步能准确估计模型准确度,研究者还生成了其它一些测试数据,然后他们发现:不管是在整数乘法任务上还是在整数加法任务上,InstructGPT/GPT-3 系列的所有模型都得到了超过偶然性的正值准确度(图 4)。这验证了第二个预测。可以看到,随着目标字符串长度增大,准确度会随目标字符串的长度而呈现近乎几何式的下降,这符合第三个预测的后半部分。这些结果还表明研究者选择的准确度会产生一些我们应该能预料到的(近似)效果,即随目标长度而近乎几何式地衰减。


图 4:使用更多测试数据集得到了更好的准确度估计,这揭示出性能的变化是平滑的、连续的和可预测的。


从左至右:数学模型,2 个两位数整数乘法任务, 2 个四位数整数加法任务。通过生成更多测试数据来提升分辨率,揭示出即使是在准确度度量上,InstructGPT/GPT-3 系列模型的性能也是超出偶然结果的,并且其在两种涌现能力上的提升是平滑的、连续的和可预测的,这两种涌现能力的结果在定性上是与数学模型相符的。

检验二:模型涌现的元分析

由于 GPT 系列模型是可以公开查询使用的,因此可以对它们进行分析。但是,其它一些也有人声称具备涌现能力的模型(比如 PaLM、Chinchilla、Gopher)却并不是公开可用的,它们生成的输出也没有公开,这意味着研究者在分析已发表结果时是受限的。研究者基于自己提出的替代假设给出了两个预测:

  • 第一,在「任务 - 度量 - 模型系列」三元组的「群体层面(population level)」上,当选择使用非线性和 / 或非连续度量来评估模型性能时,模型应当会在任务上表现出涌现能力。
  • 第二,对于展现出了涌现能力的特定「任务 - 度量 - 模型系列」三元组,如果将度量改变成线性和 / 或连续度量,那么涌现能力应该会被消除。


为了测试这两个假设,研究者调查了声称在 BIG-Bench 评估套件上涌现出的能力,因为在该套件上的基准是公开可用的,并且也有很好的文档。


相关文章
|
编解码 测试技术 计算机视觉
苹果研究人员公布最新多模态大模型研究成果MM1
【2月更文挑战第27天】苹果研究人员公布最新多模态大模型研究成果MM1
263 3
苹果研究人员公布最新多模态大模型研究成果MM1
|
3月前
|
算法 安全 定位技术
基于改进拥挤距离的多模态多目标优化差分进化(MMODE-ICD)求解无人机三维路径规划研究(Matlab代码实现)
基于改进拥挤距离的多模态多目标优化差分进化(MMODE-ICD)求解无人机三维路径规划研究(Matlab代码实现)
132 2
|
5月前
|
机器学习/深度学习 人工智能 自动驾驶
AI Agent多模态融合策略研究与实证应用
本文从多模态信息融合的理论基础出发,构建了一个结合图像与文本的AI Agent模型,并通过PyTorch代码实现了完整的图文问答流程。未来,多模态智能体将在医疗、自动驾驶、虚拟助手等领域展现巨大潜力。模型优化的核心是提升不同模态的协同理解与推理能力,从而打造真正“理解世界”的AI Agent。
AI Agent多模态融合策略研究与实证应用
|
5月前
|
机器学习/深度学习 人工智能 算法
深度强化学习在异构环境中AI Agent行为泛化能力研究
随着人工智能技术的迅猛发展,AI Agent 在游戏、智能制造、自动驾驶等场景中已逐步展现出强大的自适应能力。特别是深度强化学习(Deep Reinforcement Learning, DRL)的引入,使得智能体能够通过与环境的交互,自动学习最优的行为策略。本文将系统性地探讨基于深度强化学习的AI Agent行为决策机制,并结合代码实战加以说明。
深度强化学习在异构环境中AI Agent行为泛化能力研究
|
8月前
|
编解码 边缘计算 文字识别
SmolVLM:资源受限环境下的高效多模态模型研究
SmolVLM是一系列专为资源受限设备多模态模型,通过优化架构与训练策略,在图像和视频处理任务中表现出接近大型模型的性能。该系列包含三种变体:SmolVLM-256M、500M和2.2B,分别适用于极端边缘计算、中等资源设备及高端边缘系统。研究探索了视觉与语言组件间的参数分配、高效视觉信息传递机制、视频编码策略等关键技术,并在多个基准测试中展现出卓越性能。SmolVLM不仅在计算效率和内存占用上具有显著优势,还在设备端部署中表现出高吞吐量和广泛适用性,适用于智能手机、笔记本电脑以及专业领域如文档理解与生物医学视觉问答等场景。论文由Ritvik Rastogi发布,详细探讨了模型设计与实验结果。
394 3
SmolVLM:资源受限环境下的高效多模态模型研究
|
10月前
|
人工智能 自然语言处理 API
研究大模型门槛太高?不妨看看小模型SLM,知识点都在这
大型语言模型(LLM)在文本生成、问答等领域表现出色,但也面临资源受限环境应用难、领域知识不足及隐私问题等挑战。为此,小型语言模型(SLM)逐渐受到关注,其具备低延迟、成本效益高、易于定制等优点,适合资源受限环境和领域知识获取。SLM可通过预训练、微调和知识蒸馏等技术增强性能,在自然语言处理、计算机视觉等领域有广泛应用潜力。然而,SLM也存在复杂任务表现有限等问题,未来研究将进一步提升其性能与可靠性。 论文链接:https://arxiv.org/abs/2411.03350
414 5
|
自然语言处理 数据安全/隐私保护
整合 200 多项相关研究,大模型终生学习最新综述来了
【9月更文挑战第26天】近年来,大型语言模型(LLMs)在自然语言处理、智能问答及内容生成等领域广泛应用。面对不断变化的数据、任务和用户偏好,LLMs需具备适应能力。传统静态数据集训练方式难以满足需求,因此提出了“终身学习”方法,使模型持续学习新知识并避免遗忘旧知识。最新综述文章整合200多项研究,将终身学习分为内部知识(连续预训练和微调)与外部知识(基于检索和工具)两大类,涵盖12种应用场景,探讨了模型扩展和数据选择等新兴技术。然而,终身学习也面临计算资源、知识冲突及数据安全等挑战。
375 6
|
自然语言处理 测试技术 人工智能
Meta等最新研究:多token预测,提升大模型推理效率
【6月更文挑战第2天】Meta等机构的研究人员提出了一种新的大型语言模型训练方法——多token预测,以提高样本效率和推理速度。该方法要求模型同时预测多个接下来的token,而非传统的单一token预测,从而减少局部模式依赖,提高模型的宏观决策能力。实验表明,这种方法在提升模型性能和推理速度方面效果显著,尤其在编程任务中表现出色。然而,多token预测可能需要更多计算资源,并不适用于所有NLP任务,其在自然语言处理领域的应用仍有待深入研究。论文链接:https://arxiv.org/abs/2404.19737
612 7
|
机器学习/深度学习 数据处理
苹果新研究提升服务大模型效率
【2月更文挑战第29天】苹果公司研发的ReDrafter是一种新型推测解码方法,旨在提高大型语言模型的推理效率。该方法结合双模型和单模型优点,使用轻量级草稿头及递归依赖设计,优化内存和计算资源,降低推理延迟。实验显示,ReDrafter在性能上超越了现有方法,尤其适合需要快速响应的场景。这一突破为大型语言模型的效率提升提供了新思路,但也面临准确性和复杂性权衡以及集成挑战。论文链接:[https://arxiv.org/pdf/2403.09919.pdf](https://arxiv.org/pdf/2403.09919.pdf)
209 2
苹果新研究提升服务大模型效率
|
人工智能 UED
清华大学研究提出用大模型做心理测量
【2月更文挑战第24天】清华大学研究提出用大模型做心理测量
868 2
清华大学研究提出用大模型做心理测量

热门文章

最新文章