人工智能|大白话Meshed-Memory Transformer

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: M2Transformer是一种图像描述生成模型,由三部分构成:骨干编码器(Faster R-CNN)提取区域特征;记忆增强编码器(Transformer)对特征进行语义细化;网格解码器(Transformer)将增强特征转化为自然语言描述。结构清晰、层次分明,兼顾准确性与可解释性。(239字)

 整体结构

M2Transformer的整体框架,其实就分三部分,很好记:骨干编码器(Backbone Encoder)、记

忆增强编码器(Memory-Augmented Encoder)和网格解码器(Meshed Decoder)。

其中骨干编码器,用的是Faster R-CNN,它的核心活儿就是“看图片、抓重点”——提取图像里各

个区域的特征,咱们结合“小狗在草地上追蝴蝶”的实例,说清它的输入和输出:输入就是原始的图

像(也就是这张“小狗追蝴蝶”的原图,未经任何处理的像素画面,张量大小通常为[3, H, W],其中

3代表RGB三通道,H、W分别是图像的高度和宽度,比如常见的[3, 640, 640]);输出就是图像的

区域特征张量,简单说就是能识别出图里“小狗”“草地”“蝴蝶”这几个关键区域,还能提取出它们的

基础特征(比如小狗是毛茸茸的、蝴蝶是有翅膀的),把这些特征转换成模型能识别的数值形式,

供下一部分使用,输出张量大小通常为[N, C],N是提取到的区域数量(比如这里识别出3个区域,

N=3),C是特征维度(常用2048维,即C=2048,张量大小为[3, 2048])。

然后是记忆增强编码器和网格解码器,这俩用的都是Transformer结构,相当于模型的“大脑”部分,

咱们分别说它们的输入输出,还是用刚才的图片举例。先看记忆增强编码器:它可以理解成是骨干

编码器的“延伸助手”,输入就是上一步骨干编码器输出的区域特征张量(也就是小狗、草地、蝴蝶

的基础特征数值,张量大小和上一步输出一致,即[N, C] = [3, 2048]);输出就是经过语义增强后

的特征张量——它不会重新提取特征,而是在基础特征上细化,比如区分出“小狗是黄色的拉布拉

多”“草地是绿油油的短草”“蝴蝶是彩色的菜粉蝶”,让这些区域的特征更精准、更有辨识度,相当于

给基础特征“加细节、提精度”,输出张量大小保持不变,仍为[N, C] = [3, 2048],只是张量内的特

征数值更具针对性。

最后是网格解码器,它的核心任务就是“转文字”,输入就是记忆增强编码器输出的、经过语义增强

后的特征张量(也就是带有细节的小狗、草地、蝴蝶特征数值,张量大小为[N, C] = [3, 2048]);

输出就是咱们能看懂的自然文本描述,同时会输出对应的文本张量,文本张量大小通常为[L, V]L

是生成文本的长度(比如“一只黄色的拉布拉多小狗,在绿油油的草地上追逐着一只彩色的蝴蝶”这

句话,L≈20),V是词汇表大小(常用10000左右,即V=10000,张量大小为[20, 10000])——还

是那张小狗追蝴蝶的图,它会结合前面的细化特征,生成一句完整的话,比如“一只黄色的拉布拉

多小狗,在绿油油的草地上追逐着一只彩色的蝴蝶”,这就是它的核心作用,把模型能识别的特征

数值,转换成人类能理解的文字。

image.gif


细节模块

整体描述

骨干编码器提取图像特征


输入:一张普通的 RGB 图片 I(比如你拍的一张小狗照片)

操作:用 BackboneEncoder(比如 Faster R-CNN)处理图片

输出:一堆图像特征 X

  这一步就像给图片 “打标签”,把图片里的物体(小狗、草地、背景)都找出来,提取它们的基础

特征(比如小狗的轮廓、草地的颜色),转换成模型能看懂的数字形式。

记忆增强编码器给特征 “加 buff”


输入:上一步提取的图像特征X

操作:用记忆增强编码器处理,输出 N 层不同的增强特征

网格解码器把特征 “翻译成文字”

 


输入:上一步 N 层增强后的图像特征

操作:用网格解码器处理

输出:生成的文本描述

多头自注意力(MSA)是什么


多头自注意力(MSA)


给 Key 和 Value “加上知识库


输入:图像特征X,以及可学习的记忆槽

操作:把图像本身的特征和记忆槽拼接起来

带记忆槽的多头自注意力计算


输入:图像特征X(用来生成 Query),上一步得到的 Key 和 Value(带记忆槽)

操作:做多头自注意力(MSA),再加上残差连接,最后做层归一化

前馈网络层

  • 输入:上一步自注意力的输出(X')
  • 操作:经过前馈网络(FeedForward),再加上残差连接和层归一化

FeedForward 层的细节


image.gif

记忆增强编码器

记忆增强编码器由多个上述编码层结构按顺序堆叠组成,第 i 层的输出作为第 (i+1) 层的输入,相

当于创建了图像区域之间关系的多级编码,因此 N 个编码层的堆叠将产生 N 个输出作为图像的多

级区域特征。

image.gif

网格解码器

网格解码器的前向流程

网格解码器使用已生成的单词以及记忆增强编码器输出的多级区域特征作为输入,流程如下:


门控权重的计算与核心创新

image.gif

image.gif


目录
相关文章
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能|大白话GPT
GPT-1是首个基于Transformer解码器的生成式预训练模型,采用自回归方式逐词生成文本:以起始,依上下文预测下一词,循环直至。其核心为12层Decoder-only架构,通过掩码自注意力实现单向语言建模,并支持分类、蕴含等下游任务微调。(239字)
37 0
|
1天前
|
人工智能 数据可视化 测试技术
【教程】阿里云轻量云服务器一键配置OpenClaw
如果你还没有部署自己的 OpenClaw,还可以通过购买腾讯的轻量云服务器,一键秒级部署指南一键秒级部署指南,一键即可在几秒内完成部署。
41 2
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能 |手算CLIP模型
本文详解CLIP模型原理:突破传统CNN需重新训练的局限,通过4亿图文对联合训练文本与图像编码器,实现零样本迁移。利用对比学习对齐多模态特征,支持图文检索、零样本分类等应用,让AI像人一样理解未见过的概念。(239字)
35 3
|
1天前
|
机器学习/深度学习 人工智能 编解码
人工智能|大白话YOLOv3,YOLOv4
YOLOv3采用全卷积+残差连接+多尺度融合架构,含Darknet-53骨干网、FPN颈部与三尺度检测头,支持任意32倍数输入(如416×416),输出13×13、26×26、52×52特征图,兼顾大中小目标检测。
44 0
|
1天前
|
存储 人工智能 缓存
AI不稳定不是工程Bug,是一场系统性误读——意图共鸣科技行业洞察
过去三年AI狂卷参数与算力,却困于“Demo惊艳、上线翻车”。症结在于误读“AI稳定性”——它非传统软件不宕机,而是大模型在行为分寸、长期记忆、责任可溯、商业可持续四维的结构性缺失。意图共鸣科技正深耕此深水区。
46 2
|
1天前
|
人工智能 运维 安全
Claude Code模型替换升级指南 接入DeepSeek V4-Pro实操与问题排查全解
当下终端AI编程工具Claude Code凭借轻量化、全流程代码处理、跨文件项目分析等优势,成为众多开发者日常编码、项目重构、漏洞修复、脚本编写的主流选择。原生状态下Claude Code绑定专属模型运行,虽然基础能力稳定,但在代码理解、长逻辑推理、中文场景适配、调用成本等方面仍存在优化空间。
|
1天前
|
人工智能
从找工作到创造价值,AI时代的人才培养正在发生什么变化?
AI时代,人才培养正从“学知识找工作”转向“用AI创造价值”。OPD(一人部门)与OPC(一人公司)模式兴起,强调AI工具应用与端到端交付能力。OPC中国聚焦人才生态建设,联动“智能体来了”开展技能与场景协同培养,推动知识向解决问题能力转化。(238字)
|
1天前
|
存储 安全 网络安全
社会工程学融合物理入侵的勒索攻击演化与防御研究 —— 以 Silent Ransom Group 针对律所攻击为例
本文剖析Silent Ransom Group(SRG)针对律所的“远程钓鱼+电话诱导+物理冒充”三位一体社会工程攻击,揭示其以数据窃取替代加密勒索的新范式。基于FBI 2026年预警,构建覆盖邮件防护、远控管控、USB审计、物理准入与应急响应的三维防御体系,并提供可落地的检测规则、配置脚本及实战建议。(239字)
33 0
|
1天前
|
人工智能 数据挖掘 持续交付
为什么越来越多人开始关注OPC一人公司?
AI时代兴起OPC一人公司:单人+AI智能体+协作网络,实现轻量化闭环创业。它超越个体户与自由职业,强调系统化交付与能力升级。OPC中国聚焦人才生态建设,“智能体来了”专注能力培养,共推AI原生新范式。(239字)
|
1天前
|
人工智能 自然语言处理 Python
人工智能|BERT的简单介绍
BERT(2018年谷歌提出)是基于Transformer编码器的双向预训练语言模型,通过掩码语言建模(MLM)和下一句预测(NSP)任务学习深度上下文语义,在文本分类、问答、NER等理解型任务中表现卓越。
42 1