YOLOv11 改进 - 注意力机制 MCAttn 蒙特卡洛注意力:全局上下文与局部细节协同建模,破解微小目标特征表达难题

简介: 本文提出将蒙特卡洛注意力(MCAttn)模块融入YOLOv11,通过随机采样多尺度池化特征并加权融合,增强模型对小目标的敏感性。MCAttn兼顾局部细节与全局上下文,提升检测精度,尤其适用于医学图像中小面积病灶识别,显著改善特征丢失问题,且保持轻量化与高效推理。

前言

本文介绍了将蒙特卡洛注意力(MCAttn)模块与YOLOv11相结合的方法。MCAttn是尺度可变注意力网络(SvANet)的核心创新模块,模拟蒙特卡洛随机采样逻辑,从多尺度池化张量中随机选特征,按关联概率加权融合生成注意力图,兼顾局部细节与全局上下文。我们将MCAttn模块引入YOLOv11,对相关代码进行修改和注册,并配置了yolov11 - MoCAttention.yaml文件。实验脚本显示,该结合方式应用于目标检测任务。

文章目录: YOLOv11改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLOv11改进专栏

介绍

image-20251203203715237

摘要

摘要——早期检测与准确诊断能够预测恶性疾病转化风险,进而提高有效治疗的概率。具有微小感染区域的轻微症状是不祥预警,在疾病早期诊断中至关重要。卷积神经网络(CNNs)等深度学习算法已被用于自然目标或医疗目标分割,取得了良好效果。然而,由于CNNs中卷积和池化操作会导致信息丢失与压缩伪影,图像中小面积医疗目标的分析仍面临挑战。随着网络深度增加,这些丢失和缺陷愈发显著,对小医疗目标的影响尤为突出。为应对这些挑战,本文提出一种新型尺度可变注意力网络(SvANet),用于医学图像中小尺度目标的精准分割。该网络整合了蒙特卡洛注意力(Monte Carlo attention)、尺度可变注意力(scale-variant attention)与视觉Transformer(vision transformer),通过融合跨尺度特征、减轻压缩伪影,提升小医疗目标的辨识度。定量实验结果表明,SvANet性能优异:在KiTS23、ISIC 2018、ATLAS、PolypGen、TissueNet、FIVES和SpermHealth数据集上,对占图像面积不足1%的肾肿瘤、皮肤病变、肝肿瘤、息肉、手术切除细胞、视网膜血管和精子进行分割时,平均Dice系数分别达到96.12%、96.11%、89.79%、84.15%、80.25%、73.05%和72.58%。

文章链接

论文地址:论文地址

代码地址:代码地址

基本原理

MCAttn(Monte Carlo Attention)是SvANet的核心创新模块之一,专为解决小医疗目标分割中“跨尺度特征捕捉不足”和“细节信息丢失”问题设计,通过蒙特卡洛随机采样机制生成多尺度注意力图,同时兼顾局部细节与全局上下文,显著提升小/超小医疗目标的辨识度。

核心原理与数学表达

1. 核心思想

模拟蒙特卡洛随机采样逻辑,从多个尺度的池化张量中随机选择特征,通过概率加权融合,生成兼具泛化性和细节捕捉能力的注意力图,避免单一尺度的特征偏见。

2. 数学公式

给定输入张量 ( x ),MCAttn的输出注意力图 ( A_m(x) ) 计算如下:
[ Am(x) = \sum{i=1}^n P_1(x,i) \cdot f(x,i) ]

  • ( n=3 ):固定采用3种池化尺度(1×1、2×2、3×3),覆盖局部到全局特征;
  • ( f(x,i) ):第 ( i ) 种尺度的平均池化函数;
  • ( P1(x,i) ):关联概率,满足 ( \sum{i=1}^3 P1(x,i)=1 ) 和 ( \prod{i=1}^3 P_1(x,i)=0 ),确保随机采样的泛化性,避免单一尺度主导。

工作流程与结构细节

1. 模块定位

MCAttn集成于 MCBottleneck(蒙特卡洛注意力瓶颈模块) 中,每个编码器阶段均包含MCBottleneck,结构链为:
3×3卷积 → 1×1卷积 → MCAttn → 1×1卷积 → AssemFormer
MCBottleneck作为“信息压缩-扩展”节点,MCAttn负责在压缩阶段保留小目标关键特征。

2. 具体步骤

  1. 多尺度池化:对输入张量 ( x ) 分别进行1×1、2×2、3×3池化,得到3种尺度的特征张量;
  2. 概率采样:根据关联概率 ( P_1(x,i) ) 随机选择1种尺度的池化结果,生成初始注意力图;
  3. 特征校准:将注意力图与输入张量进行逐元素乘积(Hadamard product),强化小目标特征、抑制背景噪声;
  4. 跨尺度融合:通过随机采样的随机性,间接融合3种尺度的特征信息,兼顾局部细节(小尺度池化)和全局上下文(大尺度池化)。

关键优势

1. 跨尺度特征捕捉

相比SE(仅通道注意力)、CBAM(通道+空间单尺度)、CoorAttn(坐标感知单尺度),MCAttn通过3种尺度随机采样,天然具备跨尺度关联能力,对超小目标(如占比<1%的精子、视网膜血管)的稀疏区域识别更精准。

2. 泛化性强

关联概率 ( P_1(x,i) ) 的约束条件(求和为1、乘积为0)确保注意力图不依赖固定尺度,适配不同模态(CT、MRI、显微镜图像)和不同形态的小医疗目标(肿瘤、细胞、血管)。

3. 轻量化设计

参数数量仅2.77M(与SE相同),远低于复杂注意力机制,且不显著增加计算量,保证SvANet的实时推理能力(46.91 FPS)。

核心代码

 class MoCAttention(nn.Module):
    # Monte carlo attention
    def __init__(
        self,
        InChannels: int,
        HidChannels: int=None,
        SqueezeFactor: int=4,
        PoolRes: list=[1, 2, 3],
        Act: Callable[..., nn.Module]=nn.ReLU,
        ScaleAct: Callable[..., nn.Module]=nn.Sigmoid,
        MoCOrder: bool=True,
        **kwargs: Any,
    ) -> None:
        super().__init__()
        if HidChannels is None:
            HidChannels = max(makeDivisible(InChannels // SqueezeFactor, 8), 32)

        AllPoolRes = PoolRes + [1] if 1 not in PoolRes else PoolRes
        for k in AllPoolRes:
            Pooling = AdaptiveAvgPool2d(k)
            setMethod(self, 'Pool%d' % k, Pooling)

        self.SELayer = nn.Sequential(
            BaseConv2d(InChannels, HidChannels, 1, ActLayer=Act),
            BaseConv2d(HidChannels, InChannels, 1, ActLayer=ScaleAct),
        )

        self.PoolRes = PoolRes
        self.MoCOrder = MoCOrder

    def monteCarloSample(self, x: Tensor) -> Tensor:
        if self.training:
            PoolKeep = np.random.choice(self.PoolRes)
            x1 = shuffleTensor(x)[0] if self.MoCOrder else x
            AttnMap: Tensor = callMethod(self, 'Pool%d' % PoolKeep)(x1)
            if AttnMap.shape[-1] > 1:
                AttnMap = AttnMap.flatten(2)
                AttnMap = AttnMap[:, :, torch.randperm(AttnMap.shape[-1])[0]]
                AttnMap = AttnMap[:, :, None, None] # squeeze twice
        else:
            AttnMap: Tensor = callMethod(self, 'Pool%d' % 1)(x)

        return AttnMap

    def forward(self, x: Tensor) -> Tensor:
        AttnMap = self.monteCarloSample(x)
        return x * self.SELayer(AttnMap)
相关文章
|
4天前
|
机器学习/深度学习 传感器 自动驾驶
具身智能核心突破:物理模拟器与世界模型协同技术拆解
本文系统综述了物理模拟器与世界模型在具身智能发展中的协同作用,提出五级智能机器人分类体系(IR-L0至IR-L4),分析其在运动、操作与交互中的进展,并对比主流仿真平台与世界模型架构,探讨其在自动驾驶与关节机器人中的应用及未来挑战。
186 113
|
3天前
|
存储 人工智能 安全
什么是OSS?简要介绍阿里云对象存储OSS的使用场景
阿里云对象存储OSS是海量、安全、低成本的云存储服务,支持无限扩展,适用于音视频、教育、AI、物联网、影视、基因等行业。数据持久性达12个9,提供多种存储类型与灵活计费模式,助力企业高效降本。
|
3天前
|
人工智能 安全 数据可视化
构建AI智能体:五十、ModelScope MCP广场 · MCP协议 · Cherry Studio:AI应用生产线
本文介绍了AI开发生态中的三个关键组件:CherryStudio可视化开发平台、ModelScope MCP广场和MCP协议标准。CherryStudio作为低代码AI应用开发环境,通过拖拽式界面简化了基于大语言模型的智能体构建;ModelScope MCP广场作为官方MCPServer分发中心,提供各类工具服务的发现与管理;MCP协议则定义了LLM与外部工具的安全连接标准。三者构建了从资源发现、能力连接到应用落地的完整AI开发链条,推动AI开发从手工作坊迈向工业化时代。文章还演示了如何在CherryStu
117 9
|
21天前
|
算法 大数据 数据挖掘
数据嗅探社会热点:我们靠“感觉”,机器靠“证据”
数据嗅探社会热点:我们靠“感觉”,机器靠“证据”
171 6
|
25天前
|
自然语言处理 JavaScript 前端开发
理解JavaScript闭包:从入门到实战
理解JavaScript闭包:从入门到实战
220 118
|
16天前
|
人工智能 测试技术
NeurlPS 2025!多伦多大学TIRE助力3D/4D 生成精准保留主体身份
TIRE提出“追踪-补全-重投影”三阶段方法,实现主体驱动的3D/4D生成。通过视频跟踪识别缺失区域,定制2D模型补全纹理,并重投影至3D空间,提升生成一致性与质量,推动动态场景生成新进展。
NeurlPS 2025!多伦多大学TIRE助力3D/4D 生成精准保留主体身份
|
16天前
|
数据采集 人工智能 自然语言处理
让跨境电商“懂文化”:AI内容生成在全球民族特色品类中的实践
本文提出并落地了一套基于大模型与民族文化知识库的民族品类智能识别与匹配方案,旨在解决跨境电商平台在服务穆斯林、印度裔等特定民族群体时面临的“供需错配”难题。
400 25
|
15天前
|
人工智能 JSON 机器人
从零开始:用Python和Gemini 3四步搭建你自己的AI Agent
AI Agent并非玄学,核心仅为“循环 + 大模型 + 工具函数”。本文教你用Gemini 3从零搭建能读写文件、执行指令的命令行助手,拆解其“观察-思考-行动”循环机制,揭示智能体背后的简洁本质。
255 17
从零开始:用Python和Gemini 3四步搭建你自己的AI Agent
|
16天前
|
存储 SQL 分布式计算
手把手教你搞定大数据上云:数据迁移的全流程解析
本文深入探讨了企业数据迁移的核心价值与复杂挑战,重点分析了离线大数据平台在物理传输、系统耦合与数据校验三方面的难题。文章系统阐述了存储格式、表格式、计算引擎等关键技术原理,并结合LHM等工具介绍了自动化迁移的实践演进,展望了未来智能化、闭环化的数据流动方向。
338 11
手把手教你搞定大数据上云:数据迁移的全流程解析