结构化表格也成模态!浙大TableGPT2开源,最强表格AI问世

简介: 在AI快速发展中,大型语言模型(LLMs)如GPTs等展现了巨大潜力。然而,表格数据整合这一关键领域发展不足。浙江大学提出TableGPT2,使用593.8K张表格和2.36M查询-表格-输出三元组进行预训练和微调。该模型创新性地引入了表格编码器,增强了处理模糊查询、缺失列名和不规则表格的能力。TableGPT2在23个基准测试指标上表现出色,7B模型性能提升35.20%,72B模型提升49.32%。其开源代码和模型为社区提供了强大的研究工具。

在人工智能(AI)的迅猛发展中,大型语言模型(LLMs)如GPTs、Claude、LLaMA和Qwen等,已经在各个行业中展现出了巨大的潜力和应用价值。然而,尽管结构化表格数据在许多实际应用领域中具有基础性的作用,但表格数据的整合问题却一直没有得到充分的发展。

表格数据整合的重要性体现在以下几个方面:

  1. 高级应用需求:在许多高级应用中,数据库或数据仓库的数据整合是必不可少的。例如,在金融领域,实时市场数据的整合对于股票投资推荐等应用至关重要。

  2. 未开发的资源:表格数据是一种丰富且尚未被充分利用的资源。据估计,全球超过70%的数据以结构化表格形式存在,这为数据分析提供了巨大的潜力。

  3. 商业智能需求:商业智能(BI)领域对灵活、精确的解决方案有着特定的需求。然而,当前的LLMs在处理复杂查询和多步骤推理时可能面临挑战。

为了解决这些问题,浙江大学的研究人员提出了TableGPT2,一个经过严格预训练和微调的模型,使用了超过593.8K张表格和2.36M高质量的查询-表格-输出三元组。这一规模的表格相关数据在之前的研究工作中是前所未有的。

TableGPT2的关键创新之一是其新颖的表格编码器,该编码器专门设计用于捕捉模式级别和单元格级别的信息。这种编码器增强了模型处理模糊查询、缺失列名和不规则表格的能力,这些在实际应用中经常遇到。

TableGPT2在23个基准测试指标上表现出色,与之前的基准中立LLMs相比,7B模型的平均性能提高了35.20%,72B模型的平均性能提高了49.32%。同时,TableGPT2保持了强大的通用语言和编码能力。

TableGPT2的另一个重要特点是其对多模态的探索。它创新性地引入了一个单独的模态模块,用于读取和解释表格数据。类似于视觉语言模型(VLMs),TableGPT2将表格数据读取模块生成的特殊嵌入与文本输入的令牌嵌入进行连接,从而更好地捕捉表格数据的结构与语义。

研究人员已经开源了TableGPT2的代码和模型,并提供了一个全面的代理工作流。此外,他们还发布了RealTabBench数据集的一部分,以促进在实际数据驱动和BI生产环境中的进一步探索和应用。

TableGPT2的问世为表格数据的处理和分析带来了巨大的潜力和可能性。其在多个基准测试上的出色表现证明了其在表格相关任务上的强大能力。同时,TableGPT2的开源也为社区提供了一个强大的工具和平台,用于进一步的研究和开发。

然而,TableGPT2也面临一些挑战和限制。例如,其对表格数据的处理能力可能受到表格规模和复杂性的限制。此外,TableGPT2的训练数据主要来自特定的领域和来源,这可能限制了其在其他领域的泛化能力。

论文地址:https://arxiv.org/pdf/2411.02059

目录
相关文章
|
7天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
67 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
3天前
|
人工智能 自然语言处理 JavaScript
Univer:开源全栈 AI 办公工具,支持 Word、Excel、PPT 等文档处理和多人实时协作
Univer 是一款开源的 AI 办公工具,支持 Word、Excel 等文档处理的全栈解决方案。它具有强大的功能、高度的可扩展性和跨平台兼容性,适用于个人和企业用户,能够显著提高工作效率。
36 7
Univer:开源全栈 AI 办公工具,支持 Word、Excel、PPT 等文档处理和多人实时协作
|
5天前
|
人工智能 Linux API
PromptWizard:微软开源 AI 提示词自动化优化框架,能够迭代优化提示指令和上下文示例,提升 LLMs 特定任务的表现
PromptWizard 是微软开源的 AI 提示词自动化优化框架,通过自我演变和自我适应机制,迭代优化提示指令和上下文示例,提升大型语言模型(LLMs)在特定任务中的表现。本文详细介绍了 PromptWizard 的主要功能、技术原理以及如何运行该框架。
59 8
PromptWizard:微软开源 AI 提示词自动化优化框架,能够迭代优化提示指令和上下文示例,提升 LLMs 特定任务的表现
|
1天前
|
存储 人工智能 人机交互
PC Agent:开源 AI 电脑智能体,自动收集人机交互数据,模拟认知过程实现办公自动化
PC Agent 是上海交通大学与 GAIR 实验室联合推出的智能 AI 系统,能够模拟人类认知过程,自动化执行复杂的数字任务,如组织研究材料、起草报告等,展现了卓越的数据效率和实际应用潜力。
31 1
PC Agent:开源 AI 电脑智能体,自动收集人机交互数据,模拟认知过程实现办公自动化
|
10天前
|
机器学习/深度学习 人工智能
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
Leffa 是 Meta 开源的图像生成框架,通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本,适用于多种扩散模型,展现了良好的模型无关性和泛化能力。
53 11
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
|
15天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
108 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
8天前
|
机器学习/深度学习 人工智能 算法
X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景
X-AnyLabeling是一款集成了多种深度学习算法的图像标注工具,支持图像和视频的多样化标注样式,适用于多种AI训练场景。本文将详细介绍X-AnyLabeling的功能、技术原理以及如何运行该工具。
55 2
X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景
|
16天前
|
人工智能 安全 PyTorch
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
SPDL是Meta AI推出的开源高性能AI模型数据加载解决方案,基于多线程技术和异步事件循环,提供高吞吐量、低资源占用的数据加载功能,支持分布式系统和主流AI框架PyTorch。
47 10
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
|
16天前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
68 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
15天前
|
数据采集 人工智能 编解码
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
书生·万象InternVL 2.5是由上海AI实验室OpenGVLab团队推出的开源多模态大语言模型系列。该模型在多模态理解基准(MMMU)上表现优异,超越了许多商业模型,适用于图像和视频分析、视觉问答、文档理解和多语言处理等多个领域。
62 7
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型