Coconut:基于连续潜在空间推理,提升大语言模型推理能力的新方法

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: Coconut提出了一种新的大语言模型推理范式,通过在潜在空间中运算,利用隐藏层生成的连续思维状态取代传统文本推理。该方法采用广度优先搜索探索多条路径,避免单一路径局限,显著提升逻辑任务性能并减少token消耗。 Coconut结合“语言模式”和“潜在模式”动态切换,通过多阶段课程学习优化推理能力,在复杂规划任务中表现卓越,尤其在GSM8k和ProsQA等任务中优于传统模型。实验表明,Coconut能有效捕获中间变量,减少幻觉错误,具备更强的推理规划能力。

Coconut(连续思维链)提出了一种新的大语言模型推理范式,该范式在潜在空间中进行运算,利用模型隐藏层生成的连续思维状态取代传统的基于文本的推理方式。系统将这些状态以输入嵌入的形式反馈至模型,通过广度优先搜索方法同时探索多条推理路径,避免了单一路径推理的局限性。通过规避基于自然语言推理的固有效率瓶颈,Coconut在需要回溯的逻辑任务中展现出显著的性能优势,同时大幅降低了推理过程中的token消耗。

技术方法

Coconut的核心机制是在"语言模式"和"潜在模式"之间进行动态切换。语言模式下,模型采用标准语言模型的自回归方式生成token序列。潜在模式下,推理过程在无约束的潜在空间中展开,模型直接将最后一个隐藏状态作为下一步的输入嵌入,从而绕过文本层面的推理过程。系统使用特殊token

<bot>

<eot>

分别标记潜在模式的起始和终止。

训练过程采用多阶段课程学习策略。初始阶段,模型在标准思维链数据集上进行训练。随后的阶段中,系统逐步将语言推理步骤替换为潜在思维,通过超参数控制潜在推理与语言推理的比例。模型优化采用标准的负对数似然损失函数,但对问题和潜在思维部分应用损失掩码。这种设计促使模型专注于优化未来推理预测能力,而非简单压缩语言步骤,从而习得更高效的表征方式。

在推理阶段,Coconut的基本流程与标准大语言模型解码相似,但在潜在模式中直接将最后的隐藏状态作为输入。关于潜在模式的终止判断,系统可以采用二元分类器或固定填充长度两种方案(最终采用后者以简化实现)。

实验研究

研究采用预训练的GPT-2作为基础模型。

研究团队将Coconut与多个基线模型及其变体进行对比实验,以全面评估其推理性能:

基线模型:

  • CoT:采用完整推理链进行训练和推理的标准模型,在生成最终答案前需完成推理链的构建。
  • No-CoT:经过训练直接输出答案的模型,不构建显式推理链。
  • iCoT:在训练过程中逐步删减推理链起始部分的token,最终仅保留答案部分,推理阶段直接预测答案。
  • Pause token:通过在问题与答案之间插入 <pause> token模拟额外计算容量,使其与Coconut中的连续思维数量对应。

Coconut变体实验:

  • w/o curriculum:省略多阶段训练过程,直接在最终阶段数据(仅包含问题和答案)上训练Coconut,通过连续思维完成整体问题求解。
  • w/o thought:保留多阶段训练框架但移除连续思维元素,逐步减少语言推理步骤。这种设计类似于iCoT,但采用Coconut的调度机制以确保比较的严格性。
  • Pause as thought:用 <pause> token替代连续思维,同时保持Coconut的多阶段训练课程体系。

实验结果表明,Coconut在大语言模型推理能力方面取得显著突破,在需要复杂规划和上下文理解的任务中明显优于传统的CoT、No-CoT和iCoT方法。Coconut通过连续思维链接机制实现更深层次的推理,具备更强的复杂问题解决能力,尤其在GSM8k和ProsQA等要求高级规划能力的任务中表现卓越。

传统CoT在规划密集型任务(如ProsQA)中表现不佳,而Coconut通过采用渐进式引入潜在推理的多阶段训练课程达到了最优性能,这凸显了训练过程中系统引导的重要性。实验发现,未经课程训练的模型性能无法超越No-CoT基线,这进一步证实了结构化学习策略的必要性。

此外连续思维提供了高效的推理表征能力,能够在规划密集型任务中有效捕获中间变量和多重推理路径。

推理机制分析

相较于传统CoT方法,Coconut展现出更强的推理和规划能力。研究发现提高连续思维的使用比例能够同时提升答案准确性、推理过程正确性,并减少幻觉和目标偏离等错误。这一现象表明,将推理过程迁移至潜在空间能够显著增强模型的规划能力。

案例分析显示,传统CoT容易产生虚假连接的幻觉,而Coconut通过避免过早决策来逐步优化推理过程。例如,在具体实验中参数k=2的Coconut成功解决了CoT和k=1配置下无法处理的问题,这充分展示了潜在推理在逐步消除错误选项方面的优势。

即使在强制Coconut生成完整推理链(类似CoT)的情况下,其准确率和推理路径的质量仍然优于传统方法,且产生的幻觉更少。这种优势源于Coconut独特的训练机制,通过混合不同训练阶段并隐藏初始推理步骤,引导模型关注未来步骤并进行前瞻性规划。相比之下传统CoT训练过度关注即时下一步预测,导致在复杂规划任务中表现欠佳。

Coconut的潜在推理采用搜索树结构而非线性推理链,支持模型并行探索多个潜在路径。在每个推理步骤中,模型对有潜力的节点进行优先级排序,同时剪除相关性较低的分支。例如,在推理关于Alex子女的问题时,模型为每个可能的后续步骤分配概率值,这些概率反映了模型的内在价值评估函数。随着推理步骤的推进,模型不断细化这些概率分布,随着对最优路径信心的增强而逐步收窄关注范围。

在早期潜在思维阶段,模型表现出广泛的探索特性,通过顶级候选项概率间的显著差异维持推理路径的多样性。随着思维深入,模型逐渐从并行探索转向更加聚焦的推理,多样性程度相应降低。这种动态特性展示了Coconut在推理过程中有效平衡探索与利用的能力。

论文地址

https://avoid.overfit.cn/post/e170c8c7a54a4c65ab3c2be83c399014

作者:Andrew Lukyanenko

目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
ModernBERT:英伟达开源的新一代编码器模型,性能超越 SOTA,通过去除填充和序列打包减少计算浪费,提高训练和推理的效率
ModernBERT 是由英伟达和 HuggingFace 等机构联合开源的新一代编码器模型,支持长上下文处理,性能超越 SOTA,适合多种自然语言处理任务。
84 7
ModernBERT:英伟达开源的新一代编码器模型,性能超越 SOTA,通过去除填充和序列打包减少计算浪费,提高训练和推理的效率
|
2月前
|
人工智能 物联网 C语言
SVDQuant:MIT 推出的扩散模型后训练的量化技术,能够将模型的权重和激活值量化至4位,减少内存占用并加速推理过程
SVDQuant是由MIT研究团队推出的扩散模型后训练量化技术,通过将模型的权重和激活值量化至4位,显著减少了内存占用并加速了推理过程。该技术引入了高精度的低秩分支来吸收量化过程中的异常值,支持多种架构,并能无缝集成低秩适配器(LoRAs),为资源受限设备上的大型扩散模型部署提供了有效的解决方案。
73 5
SVDQuant:MIT 推出的扩散模型后训练的量化技术,能够将模型的权重和激活值量化至4位,减少内存占用并加速推理过程
|
2月前
|
人工智能 搜索推荐 决策智能
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
近期研究通过调整网络智能体的观察和动作空间,使其与大型语言模型(LLM)的能力对齐,显著提升了基于LLM的网络智能体性能。AgentOccam智能体在WebArena基准上超越了先前方法,成功率提升26.6个点(+161%)。该研究强调了与LLM训练目标一致的重要性,为网络任务自动化提供了新思路,但也指出其性能受限于LLM能力及任务复杂度。论文链接:https://arxiv.org/abs/2410.13825。
62 12
|
2月前
|
机器学习/深度学习 人工智能 计算机视觉
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
字节跳动豆包大模型团队提出“超连接”创新方法,突破残差连接局限,引入可学习的深度和宽度连接,动态调整网络层间连接强度。该方法在大型语言模型预训练中实现最快收敛速度,加速80%,并在图像生成、分类等任务中表现出色,显著提升准确率和稳定性。论文链接:https://arxiv.org/pdf/2409.19606
71 5
|
5月前
|
人工智能 开发者
谷歌通过数据增强、对比调优,减少多模态模型幻觉
【9月更文挑战第16天】谷歌研究人员针对多模态大语言模型(MLLMs)中的幻觉问题,提出了一种结合数据增强与对比调优的新方法,旨在减少模型生成错误信息的情况。该方法通过生成式数据增强制造幻觉标记并与真实标记对比,利用对比损失优化模型参数,从而提升模型对真实信息的辨识能力。实验结果显示,此方法能显著降低对象幻觉现象,但在模拟复杂现实场景及计算需求方面仍面临挑战。相关研究已发布在论文《通过数据增强的对比调优减轻对象幻觉》中。
64 3
|
7月前
LLM用于时序预测真的不行,连推理能力都没用到
【7月更文挑战第15天】LLM在时序预测上的应用遇挫:研究显示,大型语言模型在多个实验中未显优势,甚至被简单注意力层替代时效果不变或更好。预训练知识未能有效利用,处理时序依赖性不足,且在小样本学习中未见提升。[链接:](https://arxiv.org/pdf/2406.16964)**
113 2
|
9月前
|
算法 异构计算
推测解码:在不降低准确性的情况下将LLM推理速度提高2 - 3倍
在本篇文章我们将详细讨论推测解码,这是一种可以将LLM推理速度提高约2 - 3倍而不降低任何准确性的方法。我们还将会介绍推测解码代码实现,并看看它与原始transformer 实现相比到底能快多少。
311 10
|
9月前
|
存储 机器学习/深度学习 人工智能
论文介绍:InfLLM——揭示大型语言模型在无需训练的情况下处理极长序列的内在能力
【5月更文挑战第18天】InfLLM是一种新方法,无需额外训练即可增强大型语言模型处理极长序列的能力。通过使用记忆单元存储长序列的远距离上下文,InfLLM能更准确地捕捉长距离依赖,提高对长文本理解。实验表明,InfLLM使预训练在短序列上的模型在处理极长序列时表现媲美甚至超过专门训练的模型。尽管有挑战,如动态上下文分割和记忆单元效率,InfLLM为长序列处理提供了有效且未经训练的解决方案。论文链接:https://arxiv.org/abs/2402.04617
208 3
|
8月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
410 0
|
9月前
|
存储 机器学习/深度学习 算法
如何准确的估计llm推理和微调的内存消耗
最近发布的三个大型语言模型——Command-R+ (104B参数), Mixtral-8x22b (141B参数的MoE模型), 和 Llama 3 70b (70.6B参数)——需要巨大的内存资源。推理时,Command-R+需193.72GB GPU RAM,Mixtral-8x22B需262.63GB,Llama 370b需131.5GB。激活的内存消耗根据序列长度、批大小等因素变化。文章详细介绍了计算这些模型内存需求的方法,并探讨了如何通过量化、优化器优化和梯度检查点减少内存使用,以适应微调和推理。
1009 0