谷歌DeepMind全新ToT基准:全面评估LLM时间推理能力

简介: 【7月更文挑战第10天】DeepMind的ToT基准测试了大型语言模型的时间推理能力,分为ToT-Semantic(合成数据,评估时间逻辑理解)和ToT-Arithmetic(真实数据,检查时间计算)。研究使用Claude-3-Sonnet、GPT-4和Gemini 1.5 Pro进行评估,发现模型在时间逻辑理解上表现各异,而时间计算上均较强。 Gemini 1.5 Pro在复杂问题上表现出色,而GPT-4在数学相关问题上较弱。[[1](https://arxiv.org/pdf/2406.09170)]

谷歌DeepMind的研究人员最近提出了一个新的名为ToT(Test of Time)的基准,用于全面评估大型语言模型(LLMs)的时间推理能力。这项研究旨在填补当前研究的空白,即缺乏能够有效衡量LLMs在各种时间推理任务中表现的统一标准。

ToT基准由两个主要任务组成:ToT-Semantic和ToT-Arithmetic。ToT-Semantic是一个基于合成数据的任务,旨在评估LLMs在理解和应用时间逻辑和语义方面的能力。它包括各种问题类型,如事件的时间、事件之间的时间关系、时间间隔内的事件数量等。这些问题要求LLMs能够正确地推理和操作时间信息,而不仅仅是依赖它们在预训练期间可能已经学习到的知识。

ToT-Arithmetic是一个基于真实世界数据的任务,旨在评估LLMs在执行时间计算方面的能力。它包括各种问题类型,如日期和时间的加减、日期和时间的比较、时间间隔的计算等。这些问题要求LLMs能够正确地应用数学运算来解决与时间相关的问题。

为了评估LLMs在ToT基准上的表现,研究人员使用了三个当前最先进的模型:Claude-3-Sonnet、GPT-4和Gemini 1.5 Pro。他们发现,这些模型在ToT-Semantic任务上的表现存在显著差异,这表明不同的模型在理解和应用时间逻辑和语义方面存在不同的优势和劣势。

具体来说,Gemini 1.5 Pro在ToT-Semantic任务上表现出色,尤其是在处理需要多个事实的复杂问题时。这可能是因为Gemini 1.5 Pro在多模态推理方面进行了优化,使其能够更好地处理需要综合多个信息源的问题。

相比之下,GPT-4在ToT-Semantic任务上的表现相对较弱,尤其是在处理需要时间计算的问题时。这可能是因为GPT-4在数学推理方面进行了优化,而时间计算问题通常需要更具体的数学知识。

在ToT-Arithmetic任务上,所有三个模型都表现出色,尤其是在处理涉及不同时区的问题时。这可能是因为这些问题通常需要更少的推理,而更多地依赖于对不同时区规则的记忆。

论文地址:https://arxiv.org/pdf/2406.09170

目录
相关文章
|
11天前
|
人工智能
谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密
谷歌和苹果的研究揭示了大型语言模型(LLM)的惊人秘密:尽管LLM能自主识别错误,却在生成答案时装作不知情。这一“幻觉”现象背后,模型内部已编码了关于输出真实性的信息,但其外部表现与内部判断常有矛盾,暴露出LLM在实际应用中的局限性。研究为未来开发更有效的错误检测和缓解策略提供了新思路。论文地址:https://arxiv.org/pdf/2410.02707
56 30
|
2天前
|
存储 弹性计算 调度
基于Knative的LLM推理场景弹性伸缩方案
Knative的基于请求弹性配置与大语言模型(LLM)的推理场景高度契合。此外,它的资源降配特性可以显著帮助用户降低成本。本文详细介绍基于 Knative 的 LLM 推理场景弹性伸缩方案。
|
28天前
|
机器学习/深度学习 人工智能 算法
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
谷歌提出了一种名为Evolving Alignment via Asymmetric Self-Play(eva)的新RLHF框架,通过创造者和解决者交替优化,生成具有挑战性的提示,提高模型泛化能力、样本效率和对齐鲁棒性。实验结果显示,eva在多个基准上显著提升性能,展示了其创新性和有效性。然而,eva的实现较为复杂,且实际应用中的长期效果仍待验证。
44 5
|
12天前
|
人工智能 知识图谱 Docker
KAG:增强 LLM 的专业能力!蚂蚁集团推出专业领域知识增强框架,支持逻辑推理和多跳问答
KAG 是蚂蚁集团推出的专业领域知识服务框架,通过知识增强提升大型语言模型在特定领域的问答性能,支持逻辑推理和多跳事实问答,显著提升推理和问答的准确性和效率。
233 46
KAG:增强 LLM 的专业能力!蚂蚁集团推出专业领域知识增强框架,支持逻辑推理和多跳问答
|
3天前
|
并行计算 API 调度
加速大语言模型推理:NVIDIATensorRT-LLM更新
本次分享由NVIDIA亚太区资深总监李曦鹏主讲,聚焦于加速大语言模型推理的挑战与解决方案。内容涵盖大模型推理优化、性能提升策略及KVCash在用户请求处理中的应用。通过TensorRT-LLM的更新,NVIDIA提供了高性能推理引擎和多种优化技术,如KVCache优化、InflightBatching等,大幅提升了大模型的推理效率。此外,还介绍了与魔搭社区的合作,支持超过50个主流模型的一键部署,显著降低了使用门槛和成本。
|
26天前
|
JSON 人工智能 算法
探索大型语言模型LLM推理全阶段的JSON格式输出限制方法
本篇文章详细讨论了如何确保大型语言模型(LLMs)输出结构化的JSON格式,这对于提高数据处理的自动化程度和系统的互操作性至关重要。
|
1月前
|
机器学习/深度学习 存储 缓存
ORCA:基于持续批处理的LLM推理性能优化技术详解
大语言模型(LLMs)的批处理优化面临诸多挑战,尤其是由于推理过程的迭代性导致的资源利用不均问题。ORCA系统通过引入迭代级调度和选择性批处理技术,有效解决了这些问题,大幅提高了GPU资源利用率和系统吞吐量,相比FasterTransformer实现了最高37倍的性能提升。
168 26
|
4天前
|
机器学习/深度学习 人工智能 缓存
基于英特尔平台加速 AI 应用及 LLM 推理性能介绍|龙蜥大讲堂第115期
本文摘自龙蜥大讲堂英特尔 AI 软件工程师黄文欢的分享,主要包括以下三个方面的内容: 1. 第五代英特尔至强处理器 2. LLM 推理加速框架 xFast Transformer 及其优化策略 3. 性能数据及 Demo 展示
|
1月前
|
缓存 算法 关系型数据库
MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理
麻省理工学院韩松团队提出DuoAttention框架,旨在提高大型语言模型(LLM)处理长上下文的效率。该框架通过区分检索头和流式头,仅对检索头应用全键值缓存,减少内存消耗和计算时间,同时保持模型长上下文处理能力。实验结果显示,DuoAttention在多种模型架构上显著提升了推理效率,为LLM的实际应用提供了新可能。
75 14
|
1月前
|
缓存 自然语言处理 API
Ascend推理组件MindIE LLM
MindIE LLM是基于昇腾硬件的大语言模型推理组件,提供高性能的多并发请求调度与优化技术,如Continuous Batching、PageAttention等,支持Python和C++ API,适用于高效能推理需求。其架构包括深度定制优化的模型模块、文本生成器和任务调度管理器,支持多种模型框架和量化方式,旨在提升大规模语言模型的推理效率和性能。

热门文章

最新文章