7 Papers & Radios | DeepMind推出2800亿参数模型;剑桥团队首次检测到量子自旋液体

简介: 7 Papers & Radios | DeepMind推出2800亿参数模型;剑桥团队首次检测到量子自旋液体

机器之心 & ArXiv Weekly Radiostation参与:杜伟楚航、罗若天

本周论文包括 DeepMind 提出的 Gopher:2800 亿参数,接近人类阅读理解能力;强化学习大牛 Sergey Levine:将 RL 作为可扩展自监督学习的基础等研究。


目录:

  1. Scaling Language Models: Methods, Analysis & Insights from Training Gopher
  2. Improving language models by retrieving from trillions of tokens
  3. Probing topological spin liquids on a programmable quantum simulator
  4. Understanding the World Through Action
  5. Light Field Networks: Neural Scene Representations with Single-Evaluation Rendering
  6. PolyViT: Co-training Vision Transformers on Images, Videos and Audio
  7. Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Scaling Language Models: Methods, Analysis & Insights from Training Gopher


摘要:DeepMind 用一篇 118 页的论文介绍了全新的语言模型 Gopher 及其 Gopher 家族。在探索语言模型和开发新模型的过程中,DeepMind 探索了 6 个不同大小的 Transformer 语言模型,参数量从 4400 万到 2800 亿不等,架构细节如表 1 所示。其中参数量最大的模型被命名为 Gopher,具有 2800 亿参数,他们并将整个模型集称为 Gopher 家族。这些模型在 152 项不同的任务上进行了评估,在大多数情况下实现了 SOTA 性能。此外,DeepMind 还提供了对训练数据集和模型行为的整体分析,涵盖了模型规模与偏差等。最后,DeepMind 讨论了语言模型在 AI 安全和减轻下游危害方面的应用。


DeepMind 采用自回归 Transformer 架构为基础,并进行了两处修改:将 LayerNorm 替换为 RMSNorm ;使用相对位置编码而不是绝对位置编码。此外 DeepMind 使用拥有 32000 个词汇量的 SentencePiece 对文本进行 token 化,并使用字节级 backoff 来支持开放词汇模型。

DeepMind 使用 Adam 优化器,所有模型的训练共有 3000 亿个 token,采用 2048token 上下文窗口方法。在训练的前 1500 step 中,学习率从 10^−7 增加到最大,之后采用 cosine schedule 再将学习率衰减到 1/10。随着模型尺寸的增加,研究者会相应的降低最大学习率并增加每 batch 中的 token 数量,如表 1 所示。DeepMind 结合了 bfloat16 数字格式来减少内存并增加训练吞吐量。小于 7.1B 的模型使用混合精度 float32 参数和 bfloat16 激活进行训练,而 7.1B 和 280B 使用 bfloat16 激活和参数。

DeepMind 在 MassiveText 上训练 Gopher 模型家族,MassiveText 包括网页、书籍、新闻和代码等文本,包含约 23.5 亿个文档, 10.5 TB 的文本量。表 2 详细列出了该数据集。


推荐:Gopher:2800 亿参数,接近人类阅读理解能力。

论文 2:Improving language models by retrieving from trillions of tokens


摘要:DeepMind 在 Gopher 的基础上,提出了一种改进的语言模型架构。该架构降低了训练的资源成本,并使模型输出更容易追踪到训练语料库中的来源。

具体而言,该研究提出了一种检索增强的自回归语言模型 Retrieval-Enhanced Transformer (RETRO) ,使用互联网规模的检索机制进行预训练。受大脑在学习时依赖专用记忆机制的启发,RETRO 能够有效地查询文本段落以改进其预测。通过将生成的文本与 RETRO 生成所依赖的段落进行比较,可以解释模型做出某些预测的原因以及它们的来源。此外,研究者还发现该模型能够获得与常规 Transformer 相当的性能,参数少一个数量级,并在多个语言建模基准上获得 SOTA 性能。


该研究设计的检索增强架构能够从具有数万亿个 token 的数据库中检索。为此,该方法对连续 token 块(chunk)进行检索,而非单个 token,这样借助线性因子减少了存储和计算需求。该方法首先构建了一个键值对(key-value)数据库,其中值存储原始文本 token 块,键是 frozen Bert 嵌入(Devlin et al., 2019)。通过使用 frozen 模型来避免在训练期间定期重新计算整个数据库的嵌入。然后将每个训练序列分成多个块,这些块通过从数据库中检索到的 K 最近邻进行扩充。编码器 - 解码器架构将检索块集成到模型的预测中,RETRO 的架构如下图所示。


推荐:RETRO:带有互联网规模检索的高效训练。

论文 3:Probing topological spin liquids on a programmable quantum simulator


摘要:近日,剑桥研究小组公布了他们迄今为止最重要的发现,该小组包括来自哈佛大学 Lukin 领导的团队、Greiner 领导的实验室、MIT Vladan Vuletić领导的研究小组组成。他们使用量子模拟器检测到一种难以捉摸的物质状态:量子自旋液体,它存在于概述物质组织方式的百年范式之外。目前该研究登上《Science》。

量子自旋液体是具有拓扑顺序的奇异物质相,在过去的几十年里一直是物理学的主要焦点。这种相具有长程量子纠缠特性,有可能被用来实现稳健的量子计算。该研究使用具有 219 个原子的可编程量子模拟器来探测量子自旋液体。在此研究中,原子阵列被放置在 Kagome 晶格的链上,并且在里德堡 blockade 下的演变创造了没有局部秩序的受挫量子态。该研究为拓扑物质的可控实验探索和保护量子信息处理提供了可能。

该研究证实了一个有近 50 年历史、预测了这种奇异状态的理论,这也标志着朝着构建真正有用的通用量子计算机的梦想迈进了一步。

这项研究使用了一种基于中性原子的新型量子计算方法。尽管该方法落后于超导电路等更流行的量子计算技术,但中性原子具有的特殊性质长期以来一直吸引着量子工程师。

凝聚态物理学家使用自然界中发现的晶体及其在实验室中生长的物质来研究这些相。中性原子研究人员可以灵活地「编程」他们的物质,通过操纵里德堡态将原子精确地定位到任何形状的晶格中并设计原子相互作用。

里德堡原子阵列中的二聚体模型。


相关文章
|
测试技术 网络安全 开发工具
Git系列之分支与标签的使用及应用场景模拟
Git系列之分支与标签的使用及应用场景模拟
346 0
|
9月前
|
人工智能 自然语言处理 算法
生成式人工智能认证(GAI认证)与标准化进程协同发展及就业市场赋能研究
本文探讨生成式人工智能认证(GAI认证)在人工智能标准化进程中的重要性,分析其对就业市场的积极影响及未来发展趋势。GAI认证不仅是个人AI能力的权威认可,还推动行业标准化与技术创新。文章指出,随着技术融合加速和应用场景拓展,GAI认证标准需不断完善,以应对技术更新、数据安全等挑战,为AI健康发展贡献力量。
|
10月前
|
缓存
flutter3-wetrip跨平台自研仿携程app预约酒店系统模板
基于最新跨平台框架flutter3.x+dart3+getx+flutter_datepicker纯手写实战的一款仿去哪儿/携程旅游酒店预约客房app系统。
434 7
|
Linux 开发者 iOS开发
Python中使用Colorama库输出彩色文本
Python中使用Colorama库输出彩色文本
|
前端开发
HTML与CSS实现网页的超链接及美化
HTML与CSS实现网页的超链接及美化
367 0
HTML与CSS实现网页的超链接及美化
|
存储 缓存 负载均衡
高并发系统架构的设计挑战与应对策略
【8月更文挑战第18天】高并发系统架构设计是一项复杂而重要的任务。面对性能瓶颈、稳定性与可靠性、并发控制和可扩展性等挑战,开发人员需要采取一系列有效的策略和技术手段来应对。通过负载均衡、缓存技术、数据库优化、异步处理、并发控制、弹性设计及监控与调优等手段,可以设计出高性能、高可用和高可扩展性的高并发系统架构,为用户提供优质的服务体验。
|
监控 Linux
在Linux中,如何查看系统资源使用情况?
在Linux中,如何查看系统资源使用情况?
|
前端开发 容器
css中使用定位实现吸顶效果
css中使用定位实现吸顶效果
270 2
|
存储 缓存 负载均衡
Nacos注册中心
本节从Nacos安装、运行到具体规则配置,带领读者们深度参与了Nacos日常使用场景,Nacos作为注册中心可以优雅替换Eureka也离不开SpringCloud Alibaba的开源贡献
|
人工智能 机器人 物联网
「AI人工智能」关于AI的灵魂发问
**AI正重塑世界,区别"AI+"与"+AI":** "AI+"侧重互联网结合各行各业,如医疗、教育,引发行业重组,形成AI驱动的新经济。"+AI"则指传统行业利用AI提升自身,保持行业主导。AI的三维维度涉及与其他技术融合、应用场景结合以及不同产业的智能化进程。
522 3