谷歌DeepMind全新ToT基准：全面评估LLM时间推理能力-阿里云开发者社区

谷歌DeepMind全新ToT基准：全面评估LLM时间推理能力

2024-07-11 81

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【7月更文挑战第10天】DeepMind的ToT基准测试了大型语言模型的时间推理能力，分为ToT-Semantic（合成数据，评估时间逻辑理解）和ToT-Arithmetic（真实数据，检查时间计算）。研究使用Claude-3-Sonnet、GPT-4和Gemini 1.5 Pro进行评估，发现模型在时间逻辑理解上表现各异，而时间计算上均较强。 Gemini 1.5 Pro在复杂问题上表现出色，而GPT-4在数学相关问题上较弱。[[1](https://arxiv.org/pdf/2406.09170)]

谷歌DeepMind的研究人员最近提出了一个新的名为ToT（Test of Time）的基准，用于全面评估大型语言模型（LLMs）的时间推理能力。这项研究旨在填补当前研究的空白，即缺乏能够有效衡量LLMs在各种时间推理任务中表现的统一标准。

ToT基准由两个主要任务组成：ToT-Semantic和ToT-Arithmetic。ToT-Semantic是一个基于合成数据的任务，旨在评估LLMs在理解和应用时间逻辑和语义方面的能力。它包括各种问题类型，如事件的时间、事件之间的时间关系、时间间隔内的事件数量等。这些问题要求LLMs能够正确地推理和操作时间信息，而不仅仅是依赖它们在预训练期间可能已经学习到的知识。

ToT-Arithmetic是一个基于真实世界数据的任务，旨在评估LLMs在执行时间计算方面的能力。它包括各种问题类型，如日期和时间的加减、日期和时间的比较、时间间隔的计算等。这些问题要求LLMs能够正确地应用数学运算来解决与时间相关的问题。

为了评估LLMs在ToT基准上的表现，研究人员使用了三个当前最先进的模型：Claude-3-Sonnet、GPT-4和Gemini 1.5 Pro。他们发现，这些模型在ToT-Semantic任务上的表现存在显著差异，这表明不同的模型在理解和应用时间逻辑和语义方面存在不同的优势和劣势。

具体来说，Gemini 1.5 Pro在ToT-Semantic任务上表现出色，尤其是在处理需要多个事实的复杂问题时。这可能是因为Gemini 1.5 Pro在多模态推理方面进行了优化，使其能够更好地处理需要综合多个信息源的问题。

相比之下，GPT-4在ToT-Semantic任务上的表现相对较弱，尤其是在处理需要时间计算的问题时。这可能是因为GPT-4在数学推理方面进行了优化，而时间计算问题通常需要更具体的数学知识。

在ToT-Arithmetic任务上，所有三个模型都表现出色，尤其是在处理涉及不同时区的问题时。这可能是因为这些问题通常需要更少的推理，而更多地依赖于对不同时区规则的记忆。

论文地址：https://arxiv.org/pdf/2406.09170

谷歌DeepMind全新ToT基准：全面评估LLM时间推理能力

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

谷歌DeepMind全新ToT基准：全面评估LLM时间推理能力

热门文章

最新文章

相关课程

相关电子书

相关实验场景