送给大模型的「高考」卷:442人联名论文给大模型提出204个任务,谷歌领衔

简介: 送给大模型的「高考」卷:442人联名论文给大模型提出204个任务,谷歌领衔

大规模预训练模型需要大型 benchmark 来进行验证。


在 Jeff Dean 等人 Pathways 架构的首个模型 PaLM 中,研究人员在一个名为 BIG-Bench 的大模型专用基准上与其他算法进行了多项任务测试。近日,谷歌终于将 BIG-Bench 的论文和 GitHub 公开出来。

研究人员表示,该工作历经两年努力完成,论文长达 100 页,作者有 442 人,目前 benchmark 包含的任务已经从 PaLM 论文时期的 150 个增加到超过 200 个。


BIG-bench 是一套用于各种规模语言模型评估的新基准测试,谷歌 AI 负责人 Jeff Dean 点赞了这一工作。

论文《Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models》


随着规模的不断扩大,语言模型展示了定量改进和新的定性能力。尽管它们具有潜在的变革性影响,但其表现出的新功能特征仍然很差。为了给未来的研究提供更多信息,为颠覆性的新模型能力做好准备,了解语言模型当前和近期的能力和局限性至关重要。为了应对这一挑战,谷歌提出了超越模仿游戏基准(Beyond the Imitation Game Benchmark,BIG-bench)。

BIG-bench 目前由 204 个任务组成,获得了来自 132 个研究机构的 442 位作者贡献。该基准的任务主题多种多样,涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等领域的问题。BIG-bench 专注于被认为超出当前语言模型能力的任务。谷歌在 BIG-bench 上评估了 OpenAI 的 GPT 系列模型、谷歌内部的密集 transformer 架构和 Switch 式稀疏 transformer 的行为,模型规模跨越数百万到数千亿个参数。

此外,还有一组人类专家执行过所有任务,以提供较准确的基线水平。目前对于各类模型的调查结果包括:模型性能和校准都随规模而提高,但绝对值(absolute term)较差(与评估者性能相比);不同类模型的性能非常相似,但稀疏性有性能增益;逐步和可预测地改进的任务通常涉及大量的知识或记忆部分,而在关键规模上表现出「突破性」行为的任务通常涉及多个步骤或脆弱的指标;在具有模糊背景的环境中,社会偏见通常会随着模型规模的扩大而增加,但可以通过 prompting 来改善。

图 1:在 BIG-bench 上,很多模型总体性能随着体量的增加而提高。但目前看来,所有模型在绝对值(absolute term)方面都表现一般。

图 2:现有基准测试的范围很窄,并且表现出快速饱和的性能。

图 3:BIG-bench 任务的多样性和规模。(a)任务关键词的词云。(b)以样本数量衡量的任务规模分布。


BIG-bench Lite (BBL) 是来自 BIG-bench 的 24 个不同 JSON 任务的一小部分,旨在提供模型性能的规范度量,同时比 BIG-bench 中的 200 多个编程和 JSON 任务的全套评估轻便得多。BBL 上当前模型性能的排行榜如上图所示。

图 4:每个 BIG-bench Lite 任务上的最佳(蓝色)和平均(灰色)人类得分,以及最佳模型配置(栗色)的 BIG-bench Lite 性能。多项选择任务的随机性能由影线标记表示。

谷歌鼓励社区参与者继续提交新的任务,并表示任务将被逐一审查并以滚动方式合并到 BIG-bench 存储库中。任务作者也将包含在未来出版物的作者列表中。

相关文章
|
5月前
|
人工智能 弹性计算 API
再不玩通义 VACE 模型你就过时了!一个模型搞定所有视频任务
介绍通义的开源模型在 ecs 或 acs 场景如何一键部署和使用,如何解决不同视频生成场景的问题。
|
5月前
|
人工智能 弹性计算 JSON
再不玩通义VACE模型你就过时了!一个模型搞定所有视频任务
阿里巴巴开源通义万相Wan2.1-VACE,业界功能最全的视频生成与编辑模型,支持文生视频、图像参考生成、视频重绘、局部编辑、背景延展等,统一模型实现多任务自由组合,轻量版本消费级显卡即可运行。
|
3月前
|
人工智能 自然语言处理 测试技术
有没有可能不微调也能让大模型准确完成指定任务?(少样本学习)
对于我这种正在从0到1构建AI产品的一人公司来说,Few Shots学习的最大价值在于:用最少的资源获得最大的效果。我不需要大量的标注数据,不需要复杂的模型训练,只需要精心设计几个示例,就能让大模型快速理解我的业务场景。
305 43
|
3月前
|
人工智能 安全 开发工具
不只是写代码:Qwen Code 如何规划、执行并验证软件工程任务
本文以阿里推出的 CLI 工具 Qwen Code 为例,深入剖析其如何通过精细化的 Prompt 设计(角色定义、核心规范、任务管理、工作流控制),赋予大模型自主规划、编码、测试与验证的能力。
|
5月前
|
人工智能 自然语言处理 并行计算
大模型面经:任务、clip、diffusion
本文简要介绍了文本生成的常见预训练任务(如MLM、CLM、NSP等),多模态模型中的SOTA模型及CLIP的优势,以及多模态大模型如Stable Diffusion的原理。重点解析了Stable Diffusion的扩散机制与图像生成流程,帮助理解其高效性和广泛应用的原因。
378 5
|
5月前
|
机器学习/深度学习 人工智能 算法
面向工业4.0的AI Agent多任务协作与调度系统设计
随着人工智能(AI)技术的飞速发展,智能制造成为现代工业的核心驱动力。传统制造系统在面对多任务、高频次和动态变化的调度需求时,往往效率低下。而基于AI Agent的多任务协作与调度机制为解决这一问题提供了全新思路。本文聚焦于面向智能制造场景中,如何通过AI Agent实现多任务协作调度,并引入强化学习方法进行算法优化。
|
JSON 文字识别 数据可视化
Qwen2-VL微调实战:LaTex公式OCR识别任务(完整代码)
《SwanLab机器学习实战教程》推出了一项基于Qwen2-VL大语言模型的LaTeX OCR任务,通过指令微调实现多模态LLM的应用。本教程详述了环境配置、数据集准备、模型加载、SwanLab集成及微调训练等步骤,旨在帮助开发者轻松上手视觉大模型的微调实践。
|
8月前
|
人工智能 程序员 开发者
「通义灵码+X」公开课开讲啦!和赛博同桌一起完成开发任务 有奖励
在AI技术重塑未来的今天,阿里云通义灵码团队携手高校开发者,推出「通义灵码+X系列公开课」暨赛博同桌计划,为编程学习注入全新活力!活动将于2025年3月12日至4月30日火热进行,无论你是技术小白还是代码达人,都能在这里找到与AI并肩学习的乐趣,赢取限定好礼!
260 38