连GPT-4都考不及格,17个大模型悉数落败,因果推理太难了

简介: 连GPT-4都考不及格,17个大模型悉数落败,因果推理太难了


大模型的涌现能力经得起推敲吗?


自 ChatGPT 发布以来,大模型的涌现能力一直被人们称赞,包括强大的语言理解能力、生成能力、逻辑推理能力等。然而,最近一项研究表明,大模型在因果推理方面普遍性能很差,连 GPT-4 都不及格。


这项研究是由来自马克斯・普朗克研究所、苏黎世联邦理工学院(ETH)、密歇根大学、香港大学和 Meta AI 的研究者们共同完成的。研究目标就是探究大型语言模型(LLM)是否能根据相关性进行因果推理。


论文地址:https://arxiv.org/abs/2306.05836


因果推理是一项重要的推理任务,获得因果关系主要有两种基本方式:一种是通过经验知识,例如,我们根据常识知道为朋友准备生日礼物会让他们开心;另一种是通过一些程序和规则进行纯粹的因果推理(Spirtes et al., 2000; Pearl, 2009; Peters et al., 2017)。


如下图 1 所示:如果 A 与 B 相关,那并不意味着 A 导致 B;如果 A 和 B 本来是相互独立的,但在给定 C 的情况下变得相关,那么可以推断,在这个封闭系统中,C 是 A 和 B 的共同效应(common effect)。



该研究提出一项新的 NLP 任务 —— 相关因果推理 (CORR2CAUSE)。如果 LLM 的成功来源于捕捉项与项之间大量的统计相关性,那么在关键步骤缺失时,如何处理相关性并推理因果关系?因此,该研究认为 CORR2CAUSE 推理是大型语言模型 (LLM) 的一项必备技能。

构建数据集


首先,该研究收集整理了一个 CORR2CAUSE 数据集,用于测试大型语言模型纯粹的因果推理能力。该数据集中的所有问题都围绕 LLM 何时从相关性推断出因果关系的有无。为了系统地形成 CORR2CAUSE 数据集,该研究将泛化过程置于因果发现的正式框架中(Spirtes et al., 1993, 2000; Glymour et al., 2016; Spirtes and Zhang, 2016; Glymour et al., 2019),其中涵盖如何根据变量在观测数据中的统计相关性推断变量之间因果关系的规则。


CORR2CAUSE 数据集包含 400K 个样本,有效样本占 18.57%,当且仅当统计相关性和潜在因果关系之间存在双射映射时,才将相关性 - 因果关系陈述对标记为有效。


基于 CORR2CAUSE 数据集,该研究主要分析两个问题:


  • 现有的 LLM 在此任务上表现如何?
  • 现有的 LLM 是否可以针对此任务进行重新训练或重新定位并获得强大的因果推理技能?


该研究通过实验表明,现有 17 个 LLM 在这个纯因果推理任务上表现均不佳。并且,尽管 LLM 在对数据进行微调后可以表现出更好的性能,但其因果推理技能并不稳健。


实验结果


现有 LLM 的 CORR2CAUSE 能力


如下表 4 所示,对于实验中所有 LLM 来说,纯因果推理都是一项非常具有挑战性的任务。其中,BART MNLI 的 F1 值最高,为 33.38%,甚至高于 GPT-4(29.08%)。值得注意的是,许多模型的表现比随机猜测还要差,这意味着它们在纯因果推理任务中完全失败。


微调后的性能


接下来要解决的问题是:能否让 LLM 重新学习这项任务?


从下表 5 (a) 中的实验结果来看,在 CORR2CAUSE 上进行微调的 12 个模型表现得比较好,大多数模型都获得了显著的性能提升。其中,基于 BERT 的 NLI 模型微调之后表现最佳,RoBERTa-Large MNLI 在这个任务上达到了 94.74% 的 F1 分数,以及非常高的精确度、召回率和准确率得分。



同时,上图 5 (b) 展示了受到干扰时各模型的实验结果,所有模型的性能都在急剧下降,表现最好的模型 RoBERTa-Large MNLI 则是性能下降最多的模型;然而,RoBERTa-Large MNLI 对变量重构最稳健,保持了 67.87 的较高 F1 分数。总的来说,现有 LLM 的稳健性比较差。

除了上述整体结果,该研究还进行了细粒度分析,以探索最强模型 RoBERTa-Large MNLI 在六种因果关系类型上的表现。


如下表 6 (a) 所示,RoBERTa-Large MNLI 模型在判断关系方面表现非常好,例如「Is-Parent」、「Is-Descendant」和「Has-Confounder」,这些 F1 分数都超过了 96%。然而,在「Has-Collider」关系上,它的表现稍微弱一些。这可能是因为 collider 关系是最特殊的类型,需要基于仅有的两个变量的无条件独立性和在有共同后代的条件下的相关性来识别 V-structure。


感兴趣的读者可以阅读论文原文,了解更多研究细节。

相关文章
|
4月前
|
负载均衡 测试技术 调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
1101 4
|
4月前
|
机器学习/深度学习 缓存 监控
大模型推理优化技术:KV缓存机制详解
本文深入探讨了大语言模型推理过程中的关键技术——KV缓存(Key-Value Cache)机制。通过对Transformer自注意力机制的分析,阐述了KV缓存的工作原理、实现方式及其对推理性能的显著优化效果。文章包含具体的代码实现和性能对比数据,为开发者理解和应用这一关键技术提供实践指导。
1534 8
|
6月前
|
并行计算 PyTorch 调度
大模型推理显存优化系列(4):eLLM-大模型推理中的弹性显存管理和优化
本文简要介绍eLLM相关技术挑战、总体设计和初步性能评估
|
6月前
|
负载均衡 并行计算 异构计算
大模型训练推理优化(5): FlexLink —— NVLink 带宽无损提升27%
本期我们将介绍蚂蚁集团ASystem团队在大模型通信优化上的新工作FlexLink,旨在通过动态聚合多路通信(NVLink,PCIe,RDMA),在H800等典型硬件上将典型通信算子如(AllReduce, All Gather)吞吐提升最高达27%,尤其适合大模型长序列推理(Prefill阶段),及训练等通信密集的带宽bound场景。方案对精度无影响。
|
7月前
|
消息中间件 人工智能 资源调度
云上AI推理平台全掌握 (5):大模型异步推理服务
针对大模型推理服务中“高计算量、长时延”场景下同步推理的弊端,阿里云人工智能平台 PAI 推出了一套基于独立的队列服务异步推理框架,解决了异步推理的负载均衡、实例异常时任务重分配等问题,确保请求不丢失、实例不过载。
|
4月前
|
机器学习/深度学习 缓存 自然语言处理
【万字长文】大模型训练推理和性能优化算法总结和实践
我们是阿里云公共云 AI 汽车行业大模型技术团队,致力于通过专业的全栈 AI 技术推动 AI 的落地应用。
2331 39
【万字长文】大模型训练推理和性能优化算法总结和实践
|
7月前
|
人工智能 缓存 资源调度
云上AI推理平台全掌握 (4):大模型分发加速
为应对大模型服务突发流量场景,阿里云人工智能平台 PAI 推理服务 PAI-EAS 提供本地目录内存缓存(Memory Cache)的大模型分发加速功能,有效解决大量请求接入情况下的推理延迟。PAI-EAS 大模型分发加速功能,零代码即可轻松完成配置。
|
7月前
|
存储 机器学习/深度学习 缓存
阿里云AirCache技术实现多模态大模型高效推理加速,入选国际顶会ICCV2025
阿里云研发的AirCache技术被计算机视觉顶会ICCV2025收录,该技术通过激活跨模态关联、优化KV缓存压缩策略,显著提升视觉语言模型(VLMs)的推理效率与存储性能。实验表明,在保留仅10%视觉缓存的情况下,模型性能下降小于1%,解码延迟最高降低66%,吞吐量提升达192%。AirCache无需修改模型结构,兼容主流VLMs,已在教育、医疗、政务等多个行业落地应用,助力多模态大模型高效赋能产业智能化升级。
543 1
|
4月前
|
机器学习/深度学习 存储 并行计算
大模型推理加速技术:FlashAttention原理与实现
本文深入解析大语言模型推理加速的核心技术——FlashAttention。通过分析传统注意力机制的计算瓶颈,详细阐述FlashAttention的IO感知算法设计、前向反向传播实现,以及其在GPU内存层次结构中的优化策略。文章包含完整的CUDA实现示例、性能基准测试和实际部署指南,为开发者提供高效注意力计算的全套解决方案。
644 10

热门文章

最新文章