7 Papers & Radios | DeepMind「通才」AI智能体Gato;计算机理论顶会STOC2022奖项公布(1)

简介: 7 Papers & Radios | DeepMind「通才」AI智能体Gato;计算机理论顶会STOC2022奖项公布

本周论文包括:受大规模语言建模的启发,Deepmind 应用类似的方法构建了一个单一的「通才」智能体 Gato,它具有多模态、多任务、多具身(embodiment)特点;计算机理论顶会 STOC2022 奖项公布。


目录

A Generalist Agent

Language Models Can See: Plugging Visual Controls in Text Generation

The Optimal Error Resilience of Interactive Communication Over Binary Channels

The Exact Complexity of Pseudorandom Functions and Tight Barriers to Lower Bound Proofs

Locally Testable Codes with constant rate, distance, and locality

GANimator: Neural Motion Synthesis from a Single Sequence

Translation between Molecules and Natural Language

ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:A Generalist Agent


摘要:假如使用单一序列模型就能解决所有任务,是再好不过的事情,因为这种模型减少了不必要的麻烦。不过这需要增加训练数据的数量和多样性,此外,这种通用模型随着数据的扩充和模型的扩展,性能还会提高。从历史上看,更擅长利用计算的通用模型最终也会超过特定于专门领域的模型。

近日,受大规模语言建模的启发,Deepmind 应用类似的方法构建了一个单一的「通才」智能体 Gato,它具有多模态、多任务、多具身(embodiment)特点。

Gato 可以玩雅达利游戏、给图片输出字幕、和别人聊天、用机械臂堆叠积木等等。此外,Gato 还能根据上下文决定是否输出文本、关节力矩、按钮按压或其他 token。

与大多数智能体玩游戏不同,Gato 使用相同的训练模型就能玩许多游戏,而不用为每个游戏单独训练。


Gato 的训练数据集应该尽量广泛,需要包括不同模态,如图像、文本、本体感觉(proprioception)、关节力矩、按钮按压以及其他离散和连续的观察和行动。为了能够处理这种多模态数据,Deepmind 将所有数据序列化为一个扁平的 token 序列。

在这种表示中,Gato 可以从类似于标准的大规模语言模型进行训练和采样。在部署期间,采样的 token 会根据上下文组合成对话响应、字幕、按钮按下或其他动作。

下图为 Gato 的训练流程。

推荐:DeepMind「通才」AI 智能体 Gato 来了,多模态、多任务,受大语言模型启发。

论文 2:Language Models Can See: Plugging Visual Controls in Text Generation


摘要:来自剑桥大学、腾讯 AI Lab 等机构的研究者提出了一个全新的 MAGIC 框架。MAGIC 通过直接插入可控的图文匹配模型分数的方式,使得语言模型在解码过程中选择更接近图片信息的生成结果。这样,语言模型可以在不经过任何跨模态训练的情况下,高质量地解决跨模态生成任务,得到明显优于弱监督模型的文本生成质量。同时,与 ZeroCap 相比,MAGIC 还拥有接近 27 倍的推理速度提升。

为了适应特定跨模态任务的文本领域,该研究预先使用了跨模态训练数据集中的文本数据,采取无监督的方式更新语言模型的参数(仅需在 1 块 NVIDIA 1080Ti 上运行不到两个小时),从而使得语言模型更加熟悉该领域的文本分布。具体而言,本文使用 MLE 损失函数训练语言模型的参数:

此外,SimCTG[2] 的最新工作证明了通过引入对比损失来校准模型的语义空间,能够获得质量更高的语言模型。因此,本文也同时优化如下的对比损失:

其中 p 是用来校准生成模型表示空间的 margin 参数,s 用来计算 token 表示之间的余弦相似度。最终,本文将两个损失函数合并,以此来优化文本模态的 GPT-2 语言模型:

推荐:即插即用、无需训练:剑桥大学、腾讯 AI Lab 等提出免训练跨模态文本生成框架。

论文 3:The Optimal Error Resilience of Interactive Communication Over Binary Channels


摘要:在交互式编码中,Alice 和 Bob 希望计算它们各自私有输入 x 和 y 的某个函数 f,并通过参与非自适应(固定顺序和固定长度)交互式协议进行联合计算 f(x, y) 。它们的目标是以一种容错方式做到,这样一来,即使对协议施加了部分对抗性破坏,双方仍可以学习 f(x, y)。

在这项工作中,研究者探究了这种协议在面对对抗性位翻转性或擦除时的最优抗误码能力。虽然这种协议在大型字母表上的最优抗误码能力是众所周知的,但在二进制字母表上的情况仍然未知。因此,研究者解决了在二进制信道上确定最优抗误码能力。

具体而言,研究者构建的协议能够在二进制位翻转信道上实现 1/6 抗误码和在二进制擦除信道上实现 1/2 抗误码,这两者的匹配上限都是已知的。他们还注意到,二进制位翻转协议的通信复杂度在输入大小上是多项式的,而二进制擦除协议的通信复杂度在最小无噪声协议计算 f 的大小上是线性的。
协议 1。

推荐:计算机理论顶会 STOC2022 最佳学生论文。

论文 4:The Exact Complexity of Pseudorandom Functions and Tight Barriers to Lower Bound Proofs


摘要:密码学需要多少计算资源?这是一个既有理论意义又有实际意义的重要问题。本文研究了电路复杂性背景下的伪随机函数(pseudorandom functions,PRFs)问题。令人惊讶的是,该研究在各种电路模型中证明了极其严格的上限和下限。

在一般的 B_2 电路中,假设存在 PRF,PRF 可以构建为 2n + o(n) 大小,这简化和改进了 Ishai 等人限制的 O(n)。该研究通过给出无条件的 2n - O(1) 下限来证明这种构造几乎是最优的;

在对数深度电路(logarithmic depth circuits)中,假设存在 NC^1 PRF,PRF 可以同时构建为 2n + o(n) 大小和 (1 + ε)log n 深度;

在恒定深度线性阈值电路中,假设存在 TC^0 PRF,PRF 可以用导线复杂度构建。该研究还给出了某个常数 c 的 线复杂度下限。


值得一提的是,这篇获奖论文的三位作者范致远(计科 91)、李嘉图(计科 92)、杨天祺(计科 92),他们都是清华姚班本科生。三个人均以保送方式进入清华大学, 杨天祺、李嘉图还曾荣获第 44 届 ICPC 国际大学生程序设计竞赛东亚大陆决赛金牌。

推荐:计算机理论顶会 STOC2022 最佳学生论文。


相关文章
|
4月前
|
人工智能 数据处理 API
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
Apache Flink Agents 是由阿里云、Ververica、Confluent 与 LinkedIn 联合推出的开源子项目,旨在基于 Flink 构建可扩展、事件驱动的生产级 AI 智能体框架,实现数据与智能的实时融合。
791 6
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
|
4月前
|
人工智能 测试技术 API
构建AI智能体:二、DeepSeek的Ollama部署FastAPI封装调用
本文介绍如何通过Ollama本地部署DeepSeek大模型,结合FastAPI实现API接口调用。涵盖Ollama安装、路径迁移、模型下载运行及REST API封装全过程,助力快速构建可扩展的AI应用服务。
1313 6
|
4月前
|
人工智能 运维 安全
加速智能体开发:从 Serverless 运行时到 Serverless AI 运行时
在云计算与人工智能深度融合的背景下,Serverless 技术作为云原生架构的集大成者,正加速向 AI 原生架构演进。阿里云函数计算(FC)率先提出并实践“Serverless AI 运行时”概念,通过技术创新与生态联动,为智能体(Agent)开发提供高效、安全、低成本的基础设施支持。本文从技术演进路径、核心能力及未来展望三方面解析 Serverless AI 的突破性价值。
|
4月前
|
SQL 人工智能 机器人
AI Agent新范式:FastGPT+MCP协议实现工具增强型智能体构建
FastGPT 与 MCP 协议结合,打造工具增强型智能体新范式。MCP 如同 AI 领域的“USB-C 接口”,实现数据与工具的标准化接入。FastGPT 可调用 MCP 工具集,动态执行复杂任务,亦可作为 MCP 服务器共享能力。二者融合推动 AI 应用向协作式、高复用、易集成的下一代智能体演进。
644 0
|
4月前
|
存储 人工智能 Java
AI 超级智能体全栈项目阶段四:学术分析 AI 项目 RAG 落地指南:基于 Spring AI 的本地与阿里云知识库实践
本文介绍RAG(检索增强生成)技术,结合Spring AI与本地及云知识库实现学术分析AI应用,利用阿里云Qwen-Plus模型提升回答准确性与可信度。
1584 90
AI 超级智能体全栈项目阶段四:学术分析 AI 项目 RAG 落地指南:基于 Spring AI 的本地与阿里云知识库实践
|
4月前
|
人工智能 搜索推荐 数据可视化
当AI学会“使用工具”:智能体(Agent)如何重塑人机交互
当AI学会“使用工具”:智能体(Agent)如何重塑人机交互
507 115
|
4月前
|
人工智能 定位技术 API
智能体(Agent):AI不再只是聊天,而是能替你干活
智能体(Agent):AI不再只是聊天,而是能替你干活
1092 99
|
4月前
|
人工智能 API 开发工具
构建AI智能体:一、初识AI大模型与API调用
本文介绍大模型基础知识及API调用方法,涵盖阿里云百炼平台密钥申请、DashScope SDK使用、Python调用示例(如文本情感分析、图像文字识别),助力开发者快速上手大模型应用开发。
1840 17
构建AI智能体:一、初识AI大模型与API调用
|
4月前
|
存储 机器学习/深度学习 人工智能
构建AI智能体:三、Prompt提示词工程:几句话让AI秒懂你心
本文深入浅出地讲解Prompt原理及其与大模型的关系,系统介绍Prompt的核心要素、编写原则与应用场景,帮助用户通过精准指令提升AI交互效率,释放大模型潜能。
834 5

热门文章

最新文章