AI教父Hinton胶囊模型又出新作——胶囊如何表示视觉层次结构

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
简介: AI教父Hinton胶囊模型又出新作——胶囊如何表示视觉层次结构

image.png

今天给大家介绍的是深度学习三巨头之一,谷歌大脑人工智能团队首席科学家且为图灵奖获得者的Geoffrey Hinton教授于2月26日在Twitter上分享了一篇关于表示的新作,且该文仅由Hinton一人署名。在文中,他提出了一种用神经网络表示部分-整体层次结构的设想,将几个不同的领域整合到一起组成一个名为GLOM的假想系统令神经网络以人类的方式理解图像,其中的模块包括transformer,神经场,对比表示学习,蒸馏学习和胶囊网络模型。Hinton表示如果GLOM最终可用,应该能大幅度提高像transformer这类模型产生的表示方法的可解释性。

image.png

想法


心理学研究表明人们将视觉场景解析为部分-整体层级结构,并将部分和整体之间视点不变的空间关系视作部分和整体之间坐标的转换。神经网络如果需要具备和人类理解图像的思维方式,则需要弄清楚神经网络如何表示部分整体层次结构。由于神经网络并不能动态地分配一组神经元,Sabour和Hinton等人提出了一系列使用“胶囊”的网络模型。胶囊模型假设一组神经元(胶囊)将成为图像特定区域中的特定类型的一部分,然后通过激活这些预先存在的、特定类型的胶囊的子集,以及它们之间的适当连接来创建解析树。作者用胶囊来表示神经网络中的部分-整体层次结构,GLOM可以简单地理解为用于处理一系列帧序列的流水线,由大量权重相同的列组成,这些列的层次和神经科学家提出的超列相似,每一列都是由空间局部自动编码器堆叠而成,而这些编码器学习小图像块上的多级表示。每个自动编码器利用多层自下而上的编码器和多层自上而下的解码器将一个级别的嵌入转换为相邻级别的嵌入。这些级别对应于部分-整体层次结构中的级别。例如,当显示一张脸部图像时,单列可能会收敛到代表鼻孔,鼻子,脸部和人的嵌入向量上。下图则显示了不同层次的嵌入如何在单列中进行自下而上,自上而下和相同级的交互。

image.png

图1 GLOM结构单列中3个相邻级间的交互


上图并没有显示不同列中同一级别的嵌入之间的交互,它们不需要实现部分整体坐标转换。而是像多头transformer中代表不同单词片段的列之间的注意力加权交互,这更简单了,因为查询、键和值向量都与嵌入向量相同。列间交互旨在通过使该级别的每个嵌入向量向附近位置的其他类似向量回归,从而在某个级别上产生具有相同嵌入的岛。这将创建多个局部“回音室”,在某个局部“回音室”中,同一层次的嵌入主要与其他想法相似的嵌入相呼应。


优缺点


(1) 与胶囊模型相比


GLOM的主要优势在于:(1)它无需在每个级别预先将神经元分配给一组可能的离散部分,这将带来更大的灵活性。(2)它不需要动态路由,可以为部分所占据的每个位置构建属于自己的整体向量表示。(3)其用于形成岛的聚类过程比胶囊模型中使用的聚类过程要好得多。与大多数胶囊模型相比,GLOM的主要缺点是关于特定类型物体形状的知识并不局限于一小群神经元(可能会在相当大的区域内复制)。


(2) 与Transformer模型相比


GLOM和Transformer相比,做出了几点改变。(1)每层的权重都相同,因为GLOM是一个循环神经网络,并且作者将时间片转换为层。(2)利用层次上的嵌入向量作为查询,键以及值,极大地简化了注意机制。(3)用于提供更多表现力的多头被重新设计成用于实现整个部分整体层次结构的多个级别,并且某个位置的多个头之间的交互是高度结构化的,因此一个级别仅与相邻级别进行交互。(4)计算相邻级别之间交互的自下而上和自上而下的神经网络在部分和整体分布式表示之间执行坐标转换。



image.png

图2 GLOM结构,突出与Transformer间关系


(3) 与CNN模型相比


早前Hinton即表示CNN会被胶囊网络替代,如果你很喜欢CNN 的话,GLOM可被视为一种特殊的CNN。它在以下方面不同于标准CNN:(1)它仅使用1x1卷积(前端除外)。(2)位置之间的交互是通过无参数平均化来实现的。(3)它不使用单个前馈遍历表示层,而是迭代以允许由神经场实现的自上而下的影响。(4)它包括对比自我监督学习,并作为识别的一部分而不是单独的任务执行层次分割。


生物可行性


作者以三个疑问性标题阐述GLOM是否具有生物可行性。


第一,尽管GLOM受生物学启发,但将其当作生物学模型仍有些生硬,其中三个功能解释了和生物学模型格格不入的原因。(1)自下而上或自上而下的模型在不同列中的权重分配。(2)需要处理否定的示例对以进行对比学习,而又不中断视频流水线。(3)使用反向传播来学习自顶向下和自底向上模型的隐藏层。


第二,GLOM建议使用上下文监督来解决生物学家经常反对的权重共享问题。在真实的大脑中,我们想要的是一种在某个位置训练自下而上和自上而下的网络的有效方法,以便它们计算与其他位置的相应网络相同的功能,作者提出可以使用知识蒸馏来实现这一目标。


第三,阐述了睡眠在对比学习中的作用,由于查找和处理不应该相似的图像对会增加复杂性,所以GLOM在生物学模型上似乎不太合理。通过在晚上使GLOM脱机进行消极学习,以防止表示崩溃,可以避免损害GLOM的实时性能。有证据表明,高速,自上而下的序列生成发生在睡眠的纺锤体阶段。


从哲学角度出发


Hinton本人认为科学与哲学之间的区别在于,实验可以证明极端合理的想法是错误的,而极端不可行的想法(例如,通过端到端的梯度下降学习一个复杂系统)是正确的。GLOM虽然目前未实现,但是Hinton教授正在一个项目上进行测试,目的是测试GLOM体系结构以全新角度理解形状识别的能力,另外作者呼吁科研工作者积极投入以实现这部分的想法。以下为作者从哲学角度对此想法进行的一些评价:


(1)解析树中的节点由相似向量的岛表示的想法统一了两种非常不同的理解感知方法。第一种方法是经典的格式塔心理学,它通过诉诸场(field)来建立感知模型,提出了整体不同于部分总和的观点。在GLOM中,感知器被视为一个场,并且整体的共享embedding向量是有别于部分的。第二种方法是典型的人工智能方法,它通过结构描述来建立感知。GLOM是具有结构描述的。


(2)部分不看好深度学习的学者认为,神经网络无法处理组合层次结构,需要有一个“神经系统符号”接口,该接口允许神经网络的前端和后端将高层推理移交给更具符号性的系统。而作者认为GLOM的主要推理模式是由于高维向量之间的相似性进而使用的类比方式。


(3)BERT取得的巨大成功,结合早期工作表明,通过构造BERT中multi-head之间的交互,并对应其表示级别,通过添加对比学习的正则化器来鼓励每个级别上多个单词片段的局部孤岛的一致性,这可能可以说明GLOMBERT确实能够解析句子。


目录
相关文章
|
3天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
35 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
3天前
|
人工智能 搜索推荐 开发者
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
Aurora是xAI为Grok AI助手推出的新图像生成模型,专注于生成高逼真度的图像,特别是在人物和风景图像方面。该模型支持文本到图像的生成,并能处理包括公共人物和版权形象在内的多种图像生成请求。Aurora的可用性因用户等级而异,免费用户每天能生成三张图像,而Premium用户则可享受无限制访问。
33 11
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
|
7天前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
65 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
4天前
|
存储 人工智能 PyTorch
【AI系统】模型转换流程
本文详细介绍了AI模型在不同框架间的转换方法,包括直接转换和规范式转换两种方式。直接转换涉及从源框架直接生成目标框架的模型文件,而规范式转换则通过一个中间标准格式(如ONNX)作为桥梁,实现模型的跨框架迁移。文中还提供了具体的转换流程和技术细节,以及模型转换工具的概览,帮助用户解决训练环境与部署环境不匹配的问题。
17 5
【AI系统】模型转换流程
|
1天前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
24 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
8天前
|
机器学习/深度学习 存储 人工智能
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
EfficientTAM是Meta AI推出的轻量级视频对象分割和跟踪模型,旨在解决SAM 2模型在移动设备上部署时的高计算复杂度问题。该模型采用非层次化Vision Transformer(ViT)作为图像编码器,并引入高效记忆模块,以降低计算复杂度,同时保持高质量的分割结果。EfficientTAM在多个视频分割基准测试中表现出与SAM 2相当的性能,具有更快的处理速度和更少的参数,特别适用于移动设备上的视频对象分割应用。
27 9
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
|
4天前
|
机器学习/深度学习 存储 人工智能
【AI系统】模型转换基本介绍
模型转换技术旨在解决深度学习模型在不同框架间的兼容性问题,通过格式转换和图优化,将训练框架生成的模型适配到推理框架中,实现高效部署。这一过程涉及模型格式转换、计算图优化、算子统一及输入输出支持等多个环节,确保模型能在特定硬件上快速、准确地运行。推理引擎作为核心组件,通过优化阶段和运行阶段,实现模型的加载、优化和高效执行。面对不同框架的模型文件格式和网络结构,推理引擎需具备高度的灵活性和兼容性,以支持多样化的应用场景。
18 4
【AI系统】模型转换基本介绍
|
4天前
|
机器学习/深度学习 人工智能 算法
【AI系统】模型压缩基本介绍
模型压缩旨在通过减少存储空间、降低计算量和提高计算效率,降低模型部署成本,同时保持模型性能。主要技术包括模型量化、参数剪枝、知识蒸馏和低秩分解,广泛应用于移动设备、物联网、在线服务系统、大模型及自动驾驶等领域。
27 4
【AI系统】模型压缩基本介绍
|
4天前
|
机器学习/深度学习 存储 人工智能
【AI系统】模型剪枝
本文概述了模型剪枝的概念、方法及流程,旨在通过移除神经网络中冗余或不重要的参数,实现模型规模的减小和效率的提升。剪枝不仅有助于降低模型的存储和计算需求,还能增强模型的泛化能力。文章详细介绍了剪枝的定义、分类、不同阶段的剪枝流程,以及多种剪枝算法,如基于参数重要性的方法、结构化剪枝、动态剪枝和基于优化算法的全局剪枝策略。通过这些方法,可以在保持模型性能的同时,显著提高模型的计算速度和部署灵活性。
16 2
【AI系统】模型剪枝
|
14天前
|
机器学习/深度学习 数据采集 人工智能
TÜLU 3:Ai2推出的系列开源指令遵循模型
TÜLU 3是由艾伦人工智能研究所(Ai2)推出的开源指令遵循模型系列,包括8B和70B两个版本,未来计划推出405B版本。该模型在性能上超越了Llama 3.1 Instruct版本,提供了详细的后训练技术报告,公开数据、评估代码和训练算法。TÜLU 3基于强化学习、直接偏好优化等先进技术,显著提升模型在数学、编程和指令遵循等核心技能上的表现。
65 4
TÜLU 3:Ai2推出的系列开源指令遵循模型