7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉(2)

简介: 7 Papers & Radios | 新型Transformer架构解决多智能体强化学习问题;ICRA 2022最佳论文出炉

论文 5:A Ceramic-Electrolyte Glucose Fuel Cell for Implantable Electronics


摘要:近日,MIT 材料科学与工程系(DMSE)博士、Amgen 公司现运营经理 Philipp Simons 与其同事开发出了一种新型的葡萄糖燃料电池,可以直接将葡萄糖转换为电流。相关论文《A Ceramic-Electrolyte Glucose Fuel Cell for Implantable Electronics》在期刊 Advanced Materials 上发表。

该设备体积小于其他研究提出的葡萄糖燃料电池,仅 400 纳米厚,大约为人头发直径的 1/100。含糖(sugary)电源每平方厘米可以产生大约 43 微瓦特电流,实现了迄今为止环境条件下所有葡萄糖燃料电池所能产生的最高功率密度。

新的葡萄糖燃料电池具有很强的耐受力,能够承受最高 600 摄氏度的温度。如果集成到医学植入物中,该燃料电池可以在所有植入式设备所需的高温灭菌过程保持稳定。设备的核心由陶瓷制成,这种材料即使在高温和微型氧化皮下也能保持自身电化学属性。

如下从左到右分别为葡萄糖燃料电池、芯片和单个设备的示意图。其中,a 为基于多孔 Pt 阳极 / 二氧化铈电解质 / 密集 Pt 阴极的独立式膜的陶瓷葡萄糖燃料电池的构造;b 为包含 30 个葡萄糖燃料电池设备的燃料电池芯片示意图;c 为单个独立式铈膜的光学显微镜图像。

推荐:耐 600 度高温,MIT 用陶瓷制成葡萄糖燃料电池,为身体植入设备供电。

论文 6:An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems


摘要:在该论文中,Jeff Dean 等人提出了一种进化算法,可以生成大规模的多任务模型,同时也支持新任务的动态和连续添加,生成的多任务模型是稀疏激活的,并集成了基于任务的路由,该路由保证了有限的计算成本,并且随着模型的扩展,每个任务添加的参数更少。

作者表示,其提出的新方法依赖于知识划分技术,实现了对灾难性遗忘和其他常见缺陷(如梯度干扰和负迁移)的免疫。实验表明,新方法可以联合解决并在 69 个图像分类任务上取得有竞争力的结果,例如对仅在公共数据上训练的模型,在 CIFAR-10 上实现了新的业界最高识别准确度 99.43%。

作者提出的 µ2Net 模型可以预训练或随机初始化。一次搜索出的单个任务上的最佳模型称为活动任务。在任务的活跃阶段,在活跃任务上训练的模型群体会不断进化——随机突变然后测试评分,保留高分的,淘汰低分的。一个活跃阶段由多代组成,其中并行采样和训练多批子模型。在任务活动阶段结束时,仅保留其最佳评分模型作为多任务系统的一部分。一个任务可以被多次激活。

作者表示 µ2Net 可以在大型任务集上实现最先进的质量,并能够将新任务动态地引入正在运行的系统中。学习的任务越多,系统中嵌入的知识就越多。同时,随着系统的增长,参数激活的稀疏性使每个任务的计算量和内存使用量保持不变。通过实验,每个任务的平均增加参数量减少了 38%,由此产生的多任务系统仅激活了每个任务总参数的 2.3%。

推荐:Jeff Dean 新论文。

论文 7:Bridging Video-text Retrieval with Multiple Choice Questions


摘要:用于文本视频检索的多模态预训练工作主要采用两类方法:“双流” 法训练两个单独的编码器来约束视频级别和语句级别的特征,忽略了各自模态的局部特征和模态间的交互;“单流” 法把视频和文本联结作为联合编码器的输入来进行模态间的融合,导致下游检索非常低效。

本文提出一个全新的带有参数化模块的借口任务(pretext task),叫做 “多项选择题”(MCQ),通过训练 BridgeFormer 根据视频内容回答文本构成的选择题,来实现细粒度的视频和文本交互,并在下游时移除辅助的 BridgeFormer,以保证高效的检索效率。

如下图所示,该研究的方法包含一个视频编码器 VideoFormer,用来从原始的视频帧提取视频特征;一个文本编码器 TextFormer,用来从自然语言提取文本特征。该研究通过抹去文本描述里的名词短语或动词短语,来分别构造名词问题和动词问题。以对比学习的形式,训练 BridgeFormer 通过求助 VideoFormer 提取到的局部视频特征,从多个选项里挑选出正确的答案。这里,多个选项由一个训练批次里所有被抹去的短语构成。

这一辅助的预训练目标会促使 VideoFormer 提取视频里准确的空间内容,使得 BridgeFormer 能够回答出名词问题,并捕获到视频里物体的时序移动,使得 BridgeFormer 能够回答出动词问题。这样的训练机制使得 VideoFormer 更能感知视频里的局部物体和时序动态。视频和文本局部特征的关联也通过问题和回答这样的形式得到了有效的建立。由于 BridgeFormer 联结了视频和文本的每一层特征,对 BridgeFormer 的约束就会进而优化视频和文本的特征。因此辅助的 BridgeFormer 只用于预训练,在下游检索时可以被移除,从而保留高效的双编码器结构。

如下图所示,该研究预训练流程包含三个部分,来分别优化三个统一的对比学习(contrastive learning)形式的预训练目标:

该研究的模型包含一个视频编码器 VideoFormer,一个文本编码器 TextFormer,和一个辅助的编码器 BridgeFormer。每一个编码器由一系列 transformer 模块构成。TextFormer 输出的每一层问题文本特征被视为 query,VideoFormer 输出的每一层视频特征被视为 key 和 value,被送入 BridgeFormer 相应层来执行跨模态的注意力机制,以获得回答特征。

推荐:视频文本预训练新 SOTA!港大、腾讯 ARC Lab 推出基于多项选择题的借口任务。


ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:


本周 10 篇 NLP 精选论文是:


1. A Multi-level Supervised Contrastive Learning Framework for Low-Resource Natural Language Inference.  (from Philip S. Yu)

2. VD-PCR: Improving Visual Dialog with Pronoun Coreference Resolution.  (from Hongming Zhang, Changshui Zhang)

3. CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset for Conversational AI.  (from Minlie Huang)

4. Few-shot Subgoal Planning with Language Models.  (from Honglak Lee)

5. Differentially Private Decoding in Large Language Models.  (from Richard Zemel)

6. A Mixture-of-Expert Approach to RL-based Dialogue Management.  (from Craig Boutilier)

7. CEBaB: Estimating the Causal Effects of Real-World Concepts on NLP Model Behavior.  (from Christopher Potts)

8. Controllable Text Generation with Neurally-Decomposed Oracle.  (from Kai-Wei Chang)

9. Understanding How People Rate Their Conversations.  (from Dilek Hakkani-Tur)

10. An Informational Space Based Semantic Analysis for Scientific Texts.  (from Alexander N. Gorban)

本周 10 篇 CV 精选论文是:


1. Voxel Field Fusion for 3D Object Detection.  (from Jian Sun, Jiaya Jia)

2. Unifying Voxel-based Representation with Transformer for 3D Object Detection.  (from Jian Sun, Jiaya Jia)

3. A Closer Look at Self-supervised Lightweight Vision Transformers.  (from Jian Sun, Weiming Hu)

4. Unveiling The Mask of Position-Information Pattern Through the Mist of Image Features.  (from Ming-Hsuan Yang)

5. Cascaded Video Generation for Videos In-the-Wild.  (from Aaron Courville)

6. Modeling Image Composition for Complex Scene Generation.  (from Jie Yang, Dacheng Tao)

7. Visual Superordinate Abstraction for Robust Concept Learning.  (from Dacheng Tao)

8. Multi-Task Learning with Multi-query Transformer for Dense Prediction.  (from Dacheng Tao)

9. Glo-In-One: Holistic Glomerular Detection, Segmentation, and Lesion Characterization with Large-scale Web Image Mining.  (from Agnes B. Fogo)

10. Siamese Image Modeling for Self-Supervised Vision Representation Learning.  (from Yu Qiao, Xiaogang Wang)


10 ML Papers音频:00:0021:22

本周 10 篇 ML 精选论文是:


1. Provably Sample-Efficient RL with Side Information about Latent Dynamics.  (from Robert E. Schapire)

2. Learning to Control Linear Systems can be Hard.  (from Manfred Morari, George J. Pappas)

3. So3krates -- Self-attention for higher-order geometric interactions on arbitrary length-scales.  (from Klaus-Robert Müller)

4. Graph-level Neural Networks: Current Progress and Future Directions.  (from Jian Yang, Quan Z. Sheng, Charu Aggarwal)

5. Dataset Distillation using Neural Feature Regression.  (from Jimmy Ba)

6. You Can't Count on Luck: Why Decision Transformers Fail in Stochastic Environments.  (from Jimmy Ba)

7. Adaptive Random Forests for Energy-Efficient Inference on Microcontrollers.  (from Luca Benini)

8. Multi-Complexity-Loss DNAS for Energy-Efficient and Memory-Constrained Deep Neural Networks.  (from Luca Benini)

9. Open Environment Machine Learning.  (from Zhi-Hua Zhou)

10. Parameter-Efficient and Student-Friendly Knowledge Distillation.  (from Dacheng Tao)

相关文章
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
Transformer架构:重塑现代AI的核心引擎
Transformer架构:重塑现代AI的核心引擎
606 98
|
4月前
|
机器学习/深度学习 人工智能 缓存
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
本文提出面向边缘通用智能的多大语言模型(Multi-LLM)系统,通过协同架构、信任机制与动态编排,突破传统边缘AI的局限。融合合作、竞争与集成三种范式,结合模型压缩、分布式推理与上下文优化技术,实现高效、可靠、低延迟的边缘智能,推动复杂场景下的泛化与自主决策能力。
420 3
面向边缘通用智能的多大语言模型系统:架构、信任与编排——论文阅读
|
5月前
|
数据采集 机器学习/深度学习 搜索推荐
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
MIT与丰田研究院研究发现,扩散模型的“局部性”并非源于网络架构的精巧设计,而是自然图像统计规律的产物。通过线性模型仅学习像素相关性,即可复现U-Net般的局部敏感模式,揭示数据本身蕴含生成“魔法”。
256 3
MIT新论文:数据即上限,扩散模型的关键能力来自图像统计规律,而非复杂架构
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
编码器-解码器架构详解:Transformer如何在PyTorch中工作
本文深入解析Transformer架构,结合论文与PyTorch源码,详解编码器、解码器、位置编码及多头注意力机制的设计原理与实现细节,助你掌握大模型核心基础。建议点赞收藏,干货满满。
1356 3
|
4月前
|
机器学习/深度学习 存储 缓存
115_LLM基础模型架构设计:从Transformer到稀疏注意力
大型语言模型(LLM)的架构设计是其性能的核心决定因素。从2017年Transformer架构的提出,到如今的稀疏注意力和混合专家模型,LLM架构经历了快速的演进。本文将全面探讨LLM基础架构的设计原理,深入分析Transformer的核心机制,详细介绍稀疏注意力、MoE等创新架构,并展望未来架构发展方向。通过数学推导和实践案例,为构建高效、强大的LLM提供全面指导。
|
4月前
|
机器学习/深度学习 自然语言处理 监控
23_Transformer架构详解:从原理到PyTorch实现
Transformer架构自2017年Google发表的论文《Attention Is All You Need》中提出以来,彻底改变了深度学习特别是自然语言处理领域的格局。在短短几年内,Transformer已成为几乎所有现代大型语言模型(LLM)的基础架构,包括BERT、GPT系列、T5等革命性模型。与传统的RNN和LSTM相比,Transformer通过自注意力机制实现了并行化训练,极大提高了模型的训练效率和性能。
|
4月前
|
Cloud Native Serverless API
微服务架构实战指南:从单体应用到云原生的蜕变之路
🌟蒋星熠Jaxonic,代码为舟的星际旅人。深耕微服务架构,擅以DDD拆分服务、构建高可用通信与治理体系。分享从单体到云原生的实战经验,探索技术演进的无限可能。
微服务架构实战指南:从单体应用到云原生的蜕变之路
|
弹性计算 API 持续交付
后端服务架构的微服务化转型
本文旨在探讨后端服务从单体架构向微服务架构转型的过程,分析微服务架构的优势和面临的挑战。文章首先介绍单体架构的局限性,然后详细阐述微服务架构的核心概念及其在现代软件开发中的应用。通过对比两种架构,指出微服务化转型的必要性和实施策略。最后,讨论了微服务架构实施过程中可能遇到的问题及解决方案。
|
Cloud Native Devops 云计算
云计算的未来:云原生架构与微服务的革命####
【10月更文挑战第21天】 随着企业数字化转型的加速,云原生技术正迅速成为IT行业的新宠。本文深入探讨了云原生架构的核心理念、关键技术如容器化和微服务的优势,以及如何通过这些技术实现高效、灵活且可扩展的现代应用开发。我们将揭示云原生如何重塑软件开发流程,提升业务敏捷性,并探索其对企业IT架构的深远影响。 ####
417 3

热门文章

最新文章