当LLM遇到Database:阿里达摩院联合HKU推出Text-to-SQL新基准​(1)

简介: 当LLM遇到Database:阿里达摩院联合HKU推出Text-to-SQL新基准​


在新基准 BIRD 上,ChatGPT 仅能达到 40.08%,相比人类 92.96% 还有很大差距。


背景


大模型(LLM)为通用人工智能(AGI)的发展提供了新的方向,其通过海量的公开数据,如互联网、书籍等语料进行大规模自监督训练,获得了强大的语言理解、语言生成、推理等能力。然而,大模型对于私域数据的利用仍然面临一些挑战,私域数据是指由特定企业或个人所拥有的数据,通常包含了领域特定的知识,将大模型与私域知识进行结合,将会发挥巨大价值。


私域知识从数据形态上又可以分为非结构化与结构化数据。对于非结构化数据,例如文档,通常都通过检索的方式进行增强,可以利用 langchain 等工具可以快速实现问答系统。而结构化数据,如数据库(DB),则需要大模型与数据库进行交互,查询和分析来获取有用的信息。围绕大模型与数据库,近期也衍生出一系列的产品与应用,譬如利用 LLM 打造智能数据库、执行 BI 分析、完成自动表格构建等。其中,text-to-SQL 技术,即以自然语言的方式与数据库进行交互,一直以来都是一个备受期待的方向。


在学术界,过去的 text-to-SQL 基准仅关注小规模数据库,最先进的 LLM 已经可以达到 85.3% 的执行准确率,但这是否意味着 LLM 已经可以作为数据库的自然语言接口?


新一代数据集


最近,阿里巴巴联合香港大学等机构推出了面向大规模真实数据库的全新基准 BIRD (Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs), 包含 95 个大规模数据库及高质量的 Text-SQL pair,数据存储量高达 33.4 GB。之前最优的模型在 BIRD 上评估仅达到 40.08%,与人类 92.96% 的结果还有很大差距,这证明挑战仍然存在。除了评估 SQL 正确性外,作者还增加了 SQL 执行效率的评估,期待模型不仅可以写正确的 SQL,还能够写出高效的 SQL。



论文:https://arxiv.org/abs/2305.03111

主页:https://bird-bench.github.io

代码:https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/bird



目前,BIRD 的数据、代码、榜单都已经开源,在全球的下载量已超10000。BIRD在推出之始,就引发了 Twitter 上的广泛关注与讨论。




海外用户的评论也非常精彩:


不容错过的 LLM 项目


非常有用的检查点,提升的温床


AI 可以帮助你,但还不能取代你


我的工作暂时是安全的...



相关文章
|
SQL 数据采集 自然语言处理
NL2SQL之DB-GPT-Hub<详解篇>:text2sql任务的微调框架和基准对比
NL2SQL之DB-GPT-Hub<详解篇>:text2sql任务的微调框架和基准对比
|
SQL 关系型数据库 MySQL
怎么通过第三方库实现标准库`database/sql`的驱动注入?
在Go语言中,数据库驱动通过注入`database/sql`标准库实现,允许统一接口操作不同数据库。本文聚焦于`github.com/go-sql-driver/mysql`如何实现MySQL驱动。`database/sql`提供通用接口和驱动注册机制,全局变量管理驱动注册,`Register`函数负责添加驱动,而MySQL驱动在`init`函数中注册自身。通过这个机制,开发者能以一致的方式处理多种数据库。
193 3
|
SQL 存储 关系型数据库
SQL `CREATE DATABASE` 语法
【11月更文挑战第10天】
449 3
|
关系型数据库 MySQL Java
flywa报错java.sql.SQLSyntaxErrorException: Unknown database ‘flyway‘
flywa报错java.sql.SQLSyntaxErrorException: Unknown database ‘flyway‘
203 1
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
406 10
|
SQL 数据库
SQL CREATE DATABASE 语句
【7月更文挑战第18天】SQL CREATE DATABASE 语句。
304 1
|
SQL 监控 NoSQL
db.oplog.rs.find({"ns": "your_database_name.your_collection_name", "o": {$exists: true}}).sort({$natural: -1}).limit(1) 这个SQL什么意思
【6月更文挑战第29天】db.oplog.rs.find({"ns": "your_database_name.your_collection_name", "o": {$exists: true}}).sort({$natural: -1}).limit(1) 这个SQL什么意思
239 8
|
SQL 自然语言处理 算法
NL2SQL基础系列(1):业界顶尖排行榜、权威测评数据集及LLM大模型(Spider vs BIRD)全面对比优劣分析[Text2SQL、Text2DSL]
NL2SQL基础系列(1):业界顶尖排行榜、权威测评数据集及LLM大模型(Spider vs BIRD)全面对比优劣分析[Text2SQL、Text2DSL]
NL2SQL基础系列(1):业界顶尖排行榜、权威测评数据集及LLM大模型(Spider vs BIRD)全面对比优劣分析[Text2SQL、Text2DSL]
|
SQL 数据库
SQL CREATE DATABASE 语句
SQL CREATE DATABASE 语句
159 4

热门文章

最新文章