结构化表格也成模态!浙大TableGPT2开源,最强表格AI问世

简介: 在AI快速发展中,大型语言模型(LLMs)如GPTs等展现了巨大潜力。然而,表格数据整合这一关键领域发展不足。浙江大学提出TableGPT2,使用593.8K张表格和2.36M查询-表格-输出三元组进行预训练和微调。该模型创新性地引入了表格编码器,增强了处理模糊查询、缺失列名和不规则表格的能力。TableGPT2在23个基准测试指标上表现出色,7B模型性能提升35.20%,72B模型提升49.32%。其开源代码和模型为社区提供了强大的研究工具。

在人工智能(AI)的迅猛发展中,大型语言模型(LLMs)如GPTs、Claude、LLaMA和Qwen等,已经在各个行业中展现出了巨大的潜力和应用价值。然而,尽管结构化表格数据在许多实际应用领域中具有基础性的作用,但表格数据的整合问题却一直没有得到充分的发展。

表格数据整合的重要性体现在以下几个方面:

  1. 高级应用需求:在许多高级应用中,数据库或数据仓库的数据整合是必不可少的。例如,在金融领域,实时市场数据的整合对于股票投资推荐等应用至关重要。

  2. 未开发的资源:表格数据是一种丰富且尚未被充分利用的资源。据估计,全球超过70%的数据以结构化表格形式存在,这为数据分析提供了巨大的潜力。

  3. 商业智能需求:商业智能(BI)领域对灵活、精确的解决方案有着特定的需求。然而,当前的LLMs在处理复杂查询和多步骤推理时可能面临挑战。

为了解决这些问题,浙江大学的研究人员提出了TableGPT2,一个经过严格预训练和微调的模型,使用了超过593.8K张表格和2.36M高质量的查询-表格-输出三元组。这一规模的表格相关数据在之前的研究工作中是前所未有的。

TableGPT2的关键创新之一是其新颖的表格编码器,该编码器专门设计用于捕捉模式级别和单元格级别的信息。这种编码器增强了模型处理模糊查询、缺失列名和不规则表格的能力,这些在实际应用中经常遇到。

TableGPT2在23个基准测试指标上表现出色,与之前的基准中立LLMs相比,7B模型的平均性能提高了35.20%,72B模型的平均性能提高了49.32%。同时,TableGPT2保持了强大的通用语言和编码能力。

TableGPT2的另一个重要特点是其对多模态的探索。它创新性地引入了一个单独的模态模块,用于读取和解释表格数据。类似于视觉语言模型(VLMs),TableGPT2将表格数据读取模块生成的特殊嵌入与文本输入的令牌嵌入进行连接,从而更好地捕捉表格数据的结构与语义。

研究人员已经开源了TableGPT2的代码和模型,并提供了一个全面的代理工作流。此外,他们还发布了RealTabBench数据集的一部分,以促进在实际数据驱动和BI生产环境中的进一步探索和应用。

TableGPT2的问世为表格数据的处理和分析带来了巨大的潜力和可能性。其在多个基准测试上的出色表现证明了其在表格相关任务上的强大能力。同时,TableGPT2的开源也为社区提供了一个强大的工具和平台,用于进一步的研究和开发。

然而,TableGPT2也面临一些挑战和限制。例如,其对表格数据的处理能力可能受到表格规模和复杂性的限制。此外,TableGPT2的训练数据主要来自特定的领域和来源,这可能限制了其在其他领域的泛化能力。

论文地址:https://arxiv.org/pdf/2411.02059

目录
相关文章
|
1天前
|
数据采集 人工智能 文字识别
OmniAlign-V:20万高质量多模态数据集开源,让AI模型真正对齐人类偏好
OmniAlign-V 是由上海交通大学、上海AI Lab等机构联合推出的高质量多模态数据集,旨在提升多模态大语言模型与人类偏好的对齐能力。该数据集包含约20万个多模态训练样本,涵盖自然图像和信息图表,结合开放式问答对,支持知识问答、推理任务和创造性任务。
37 10
OmniAlign-V:20万高质量多模态数据集开源,让AI模型真正对齐人类偏好
|
1天前
|
编解码 人工智能 测试技术
|
1天前
|
机器学习/深度学习 人工智能 物联网
MiniMind:2小时训练出你的专属AI!开源轻量级语言模型,个人GPU轻松搞定
MiniMind 是一个开源的超小型语言模型项目,帮助开发者以极低成本从零开始训练自己的语言模型,最小版本仅需25.8M参数,适合在普通个人GPU上快速训练。
66 10
MiniMind:2小时训练出你的专属AI!开源轻量级语言模型,个人GPU轻松搞定
|
1天前
|
存储 人工智能 搜索推荐
Shandu:开源AI研究黑科技!自动挖掘多层级信息,智能生成结构化报告
Shandu 是一款开源的 AI 研究自动化工具,结合 LangChain 和 LangGraph 技术,能够自动化地进行多层次信息挖掘和分析,生成结构化的研究报告,适用于学术研究、市场分析和技术探索等多种场景。
38 8
Shandu:开源AI研究黑科技!自动挖掘多层级信息,智能生成结构化报告
|
2天前
|
人工智能 API 语音技术
WhisperChain:开源 AI 实时语音转文字工具!自动消噪优化文本,效率翻倍
WhisperChain 是一款基于 Whisper.cpp 和 LangChain 的开源语音识别工具,能够实时将语音转换为文本,并自动清理和优化文本内容,适用于会议记录、写作辅助等多种场景。
160 2
WhisperChain:开源 AI 实时语音转文字工具!自动消噪优化文本,效率翻倍
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
VidSketch:手残党逆袭!浙大AI神器草图秒变4K动画,三连提示词玩转影视级特效
VidSketch 是浙江大学推出的创新视频生成框架,通过手绘草图和简单文本提示生成高质量视频动画,降低视频创作的技术门槛,满足多样化的艺术需求。
65 6
VidSketch:手残党逆袭!浙大AI神器草图秒变4K动画,三连提示词玩转影视级特效
|
3天前
|
存储 人工智能 监控
Mahilo:多智能体实时协作框架开源!人类与AI无缝交互,复杂任务一键协同
Mahilo 是一个灵活的多智能体框架,支持创建与人类互动的多智能体系统,适用于从客户服务到紧急响应等多种场景。
47 1
Mahilo:多智能体实时协作框架开源!人类与AI无缝交互,复杂任务一键协同
|
3天前
|
数据采集 机器学习/深度学习 人工智能
SongGen:三秒克隆音色!开源AI一键生成专业级歌曲,创作人必备神器
SongGen是由上海AI Lab、北京航空航天大学和香港中文大学联合推出的单阶段自回归Transformer模型,能够通过文本生成高质量歌曲,支持混合模式和双轨模式,显著提升生成歌曲的自然度和人声清晰度。
52 3
SongGen:三秒克隆音色!开源AI一键生成专业级歌曲,创作人必备神器
|
1天前
|
人工智能 数据可视化 前端开发
Probly:开源 AI Excel表格工具,交互式生成数据分析结果与可视化图表
Probly 是一款结合电子表格功能与 Python 数据分析能力的 AI 工具,支持在浏览器中运行 Python 代码,提供交互式电子表格、数据可视化和智能分析建议,适合需要强大数据分析功能又希望操作简便的用户。
57 2
|
3天前
|
人工智能 编解码 算法
VideoFusion:开源视频处理神器!一键去黑边水印,AI提升画质+批量剪辑全搞定
VideoFusion 是一款开源的AI视频剪辑工具,支持自动去除视频黑边、水印和字幕,提供批量处理、画质提升等功能,适合视频创作者和自媒体运营者使用。
52 3

热门文章

最新文章