RT-DETR改进策略【Backbone/主干网络】| ICLR-2023 替换骨干网络为:RevCol 一种新型神经网络设计范式

简介: RT-DETR改进策略【Backbone/主干网络】| ICLR-2023 替换骨干网络为:RevCol 一种新型神经网络设计范式

一、本文介绍

本文记录的是基于RevCol的RT-DETR目标检测改进方法研究RevCol是一种新型神经网络设计范式,它由多个子网(列)及多级可逆连接构成,正向传播时特征逐渐解缠结且保持信息。可逆变换借鉴可逆神经网络思想,设计多级可逆单元用于解决模型对特征图形状的限制以及与信息瓶颈原则的冲突。本文将其应用到RT-DETR中,并配置了原论文中的revcol_tinyrevcol_smallrevcol_baserevcol_largerevcol_xlarge五种不同大小的模型,以适应不同的需求。


专栏目录:RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:RT-DETR改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!

二、RevCol模型设计

2.1出发点

  • 信息瓶颈原则的局限:传统监督学习网络遵循信息瓶颈原则(IB),如图所示,靠近输入的层包含更多低级信息靠近输出的层富含语义信息,即与目标无关的信息在逐层传播中逐渐被压缩。但这种方式可能导致下游任务性能不佳,尤其当学习到的特征过度压缩或语义信息与目标任务无关,且源任务和目标任务存在领域差距时。

在这里插入图片描述

  • 解缠结特征学习的需求:提出构建网络学习解缠结表示,不同于IB学习,解缠结特征学习旨在将任务相关概念或语义分别嵌入到几个解耦维度,同时保持整个特征向量大致与输入有相同信息量,类似于生物细胞机制。

在计算机视觉任务中,学习解缠结特征是合理的,例如在ImageNet预训练时,高级语义表示被调整,同时低级信息(如边缘位置)也应在其他特征维度中保留,以满足下游任务(如对象检测)的需求。

2.2 原理

2.2.1 可逆变换的核心作用

  • 基于可逆神经网络:可逆变换在特征解缠结中起关键作用,灵感源于可逆神经网络。以RevNet为例,如图(a)所示,它将输入分区,通过可逆映射进行计算,但存在对特征维度约束过强及网络不完全可逆的问题。

在这里插入图片描述

  • 提出广义可逆公式:将RevNet的公式推广为更通用的形式,如图(b)所示,通过增加递归阶数m,放松了对特征图尺寸的约束,使其能更好地与现有网络架构合作,且网络仍保持可逆性
  • 多级可逆单元:将公式重构成多列形式,如图(c)所示,每列由一组m个特征图及其母网络组成,称为多级可逆单元,作为RevCol的基本组件。

    2.2.2 中间监督机制

  • 解决信息丢失问题:尽管多级可逆单元能在列迭代中保持信息,但下采样块仍可能在列内丢弃信息。为缓解此问题,提出中间监督方法
  • 监督方式:在前面列的最后一级特征(Level 4)添加两个辅助头,一个是解码器用于重建输入图像,另一个是线性分类器。通过最小化二进制交叉熵(BCE)重建损失和以交叉熵(CE)损失训练线性分类器,对不同列设置不同权重的复合损失,以最大化特征与预测之间的互信息下限。

2.3 结构

2.3.1 宏观设计

  • 多子网与可逆连接:如图所示,RevCol网络由N个结构相同(权重不一定相同)的子网(列)组成,每个子网接收输入副本并生成预测。列之间采用可逆变换传播多级特征(从低级到高级语义表示),最后一列预测输入的最终解缠结表示。

在这里插入图片描述

  • 特征提取与传播:输入图像先由补丁嵌入模块分割成非重叠补丁,再输入各子网。从每个列提取四级特征图用于列间信息传播。对于分类任务,使用最后一列的Level 4特征图;对于下游任务,使用最后一列的所有四级特征图。列间可逆连接采用简化的多级可逆单元实现,即取当前列一个低级特征和前一列一个高级特征作为输入,保持可逆性同时减少GPU资源消耗。

    2.3.2 微观设计

  • 基于ConvNeXt的修改:默认采用ConvNeXt块实现各列,并进行修改以适配宏观架构。
    • 融合模块:在原始ConvNeXt的各级中,修改补丁合并块,将LayerNorm放在补丁合并卷积之后,通道数在补丁合并卷积中翻倍,并引入上采样块。上采样块由线性通道映射层、LayerNorm和特征图插值层组成,线性通道映射层通道数减半,两个块的输出相加后传入后续的残差块。
    • 卷积核大小:将原始ConvNeXt中的7×7卷积默认修改为3×3,以加快训练速度,虽增大卷积核可提高精度,但RevCol的多列设计已扩大有效感受野,限制了大卷积核带来的精度提升。
    • 可逆操作γ:采用可学习的可逆通道缩放作为可逆操作γ,每次特征求和时,为抑制特征幅度使训练稳定,同时在训练时截断γ的绝对值,避免反向计算时数值误差过大

2.4 优势

  • 特征解缠结优势:在RevCol中,各列最低级保持低级特征,最后一列最高级具有高度语义,信息在列间无损传播时逐渐解缠结,一些特征图语义性增强,一些保持低级。这使模型对依赖高低级特征的下游任务更灵活,可逆连接对解缠结机制起关键作用,对比无可逆连接的HRNet等模型,在实验中有性能优势。
  • 内存节省优势:传统网络训练需大量内存存储前向传播的激活以用于梯度计算,而RevCol由于列间连接可逆,在反向传播时可从最后一列到第一列重建激活,训练时只需在内存中维护一列的激活。实验表明,随着列数增加,RevCol大致保持O(1)的额外内存消耗,而非可逆架构的内存消耗随列数线性增加。
  • 新的缩放因子优势RevCol架构中,列数成为除深度(块数)和宽度(每个块的通道数)之外的新维度。在一定范围内,增加列数与同时增加宽度和深度有相似效果,有利于模型扩展到大模型和大数据集上。

论文:https://arxiv.org/pdf/2212.11696.pdf
源码:https://github.com/megvii-research/RevCol

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址:

https://blog.csdn.net/qq_42591591/article/details/144213674

目录
相关文章
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型
DeepSeek 系列模型以其卓越性能在全球范围内备受瞩目,多次评测中表现优异,性能接近甚至超越国际顶尖闭源模型(如OpenAI的GPT-4、Claude-3.5-Sonnet等)。企业用户和开发者可使用 PAI 平台一键部署 DeepSeek 系列模型,实现 DeepSeek 系列模型与现有业务的高效融合。
|
3天前
|
人工智能 搜索推荐 Docker
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
DeepSeek R1 + LobeChat + Ollama:快速本地部署模型,创建个性化 AI 助手
1965 101
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
|
1月前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
阿里云与企业共筑容器供应链安全
171370 17
|
10天前
|
Linux iOS开发 MacOS
deepseek部署的详细步骤和方法,基于Ollama获取顶级推理能力!
DeepSeek基于Ollama部署教程,助你免费获取顶级推理能力。首先访问ollama.com下载并安装适用于macOS、Linux或Windows的Ollama版本。运行Ollama后,在官网搜索“deepseek”,选择适合你电脑配置的模型大小(如1.5b、7b等)。通过终端命令(如ollama run deepseek-r1:1.5b)启动模型,等待下载完成即可开始使用。退出模型时输入/bye。详细步骤如下图所示,轻松打造你的最强大脑。
8540 86
|
1月前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
随着云计算和DevOps的兴起,容器技术和自动化在软件开发中扮演着愈发重要的角色,但也带来了新的安全挑战。阿里云针对这些挑战,组织了一场关于云上安全的深度访谈,邀请了内部专家穆寰、匡大虎和黄竹刚,深入探讨了容器安全与软件供应链安全的关系,分析了当前的安全隐患及应对策略,并介绍了阿里云提供的安全解决方案,包括容器镜像服务ACR、容器服务ACK、网格服务ASM等,旨在帮助企业构建涵盖整个软件开发生命周期的安全防护体系。通过加强基础设施安全性、技术创新以及倡导协同安全理念,阿里云致力于与客户共同建设更加安全可靠的软件供应链环境。
150307 32
|
1天前
|
人工智能 自然语言处理 JavaScript
宜搭上新,DeepSeek 插件来了!
钉钉宜搭近日上线了DeepSeek插件,无需编写复杂代码,普通用户也能轻松调用强大的AI大模型能力。安装后,平台新增「AI生成」组件,支持创意内容生成、JS代码编译、工作汇报等场景,大幅提升工作效率。快来体验这一高效智能的办公方式吧!
883 5
|
2天前
|
API 开发工具 Python
阿里云PAI部署DeepSeek及调用
本文介绍如何在阿里云PAI EAS上部署DeepSeek模型,涵盖7B模型的部署、SDK和API调用。7B模型只需一张A10显卡,部署时间约10分钟。文章详细展示了模型信息查看、在线调试及通过OpenAI SDK和Python Requests进行调用的步骤,并附有测试结果和参考文档链接。
660 5
阿里云PAI部署DeepSeek及调用
|
11天前
|
人工智能 自然语言处理 Java
Spring AI,搭建个人AI助手
本期主要是实操性内容,聊聊AI大模型,并使用Spring AI搭建属于自己的AI助手、知识库。本期所需的演示源码笔者托管在Gitee上(https://gitee.com/catoncloud/spring-ai-demo),读者朋友可自行查阅。
938 41
Spring AI,搭建个人AI助手
|
3天前
|
机器学习/深度学习 人工智能 并行计算
一文了解火爆的DeepSeek R1 | AIGC
DeepSeek R1是由DeepSeek公司推出的一款基于强化学习的开源推理模型,无需依赖监督微调或人工标注数据。它在数学、代码和自然语言推理任务上表现出色,具备低成本、高效率和多语言支持等优势,广泛应用于教育辅导、金融分析等领域。DeepSeek R1通过长链推理、多语言支持和高效部署等功能,显著提升了复杂任务的推理准确性,并且其创新的群体相对策略优化(GRPO)算法进一步提高了训练效率和稳定性。此外,DeepSeek R1的成本低至OpenAI同类产品的3%左右,为用户提供了更高的性价比。
785 10
|
2月前
|
弹性计算 人工智能 安全
对话 | ECS如何构筑企业上云的第一道安全防线
随着中小企业加速上云,数据泄露、网络攻击等安全威胁日益严重。阿里云推出深度访谈栏目,汇聚产品技术专家,探讨云上安全问题及应对策略。首期节目聚焦ECS安全性,提出三道防线:数据安全、网络安全和身份认证与权限管理,确保用户在云端的数据主权和业务稳定。此外,阿里云还推出了“ECS 99套餐”,以高性价比提供全面的安全保障,帮助中小企业安全上云。
201994 15
对话 | ECS如何构筑企业上云的第一道安全防线

热门文章

最新文章