DAMO-YOLO项目原作解读:兼顾速度与精度的高效目标检测框架

简介: DAMO-YOLO项目原作解读:兼顾速度与精度的高效目标检测框架

目标检测是计算机视觉中的一个重要领域,它主要研究的是如何从输入的图像或者点云中定位出感兴趣物体的位置,在视觉 AI 的应用落地中发挥着基石的作用。现在市面上已经涌现了许多优秀易用的目标检测框架,但是在目标检测应用领域,仍然有以下几个重点问题没有解决:一是模型尺度单一,难以充分发挥用户的芯片算力。二是模型的多尺度检测能力弱,难以覆盖复杂多变的检测场景。三是模型的速度-精度曲线不够理想,在针对速度限制取舍模型时,会发现精度损失难以接受。

针对上述几个问题,结合阿里达摩院的技术积累,DAMO-YOLO 提出了自己的解法。DAMO-YOLO 中引入了 TinyNAS 技术,使得用户可以根据硬件算力进行低成本的检测模型定制,提高硬件使用效率并获得更高的精度。DAMO-YOLO 中还对检测模型的 neck、head 结构进行重新设计,创新性提出了 Heavy-Neck 模型设计范式,显著提升了模型的多尺度检测能力。最后,DAMO-YOLO 还提供了一套支持全尺度模型、异构鲁棒的蒸馏方案,实现无痛涨点,充分发挥模型潜力。此外,为了方便用户使用 DAMO-YOLO 解决自己的问题,还开源了多个工业应用模型。

机器之心最新一期线上分享邀请到了阿里巴巴达摩院算法工程师许贤哲,为大家解读他们近期的工作 DAMO-YOLO。


分享主题:DAMO-YOLO:兼顾速度与精度的高效目标检测框架

分享嘉宾:许贤哲,阿里巴巴达摩院算法工程师,天津大学通信与信息系统硕士,先后研究行人重识别、无监督学习、目标检测等方向,多次夺得 ICCV、CVPR 竞赛冠军,并担任 ECCV、CVPR 等会议审稿人。

分享摘要:DAMO-YOLO 是一个面向工业落地的目标检测框架,兼顾模型速度与精度,其训练的模型效果超越了目前的一众 YOLO 系列方法,并且仍然保持极高的推理速度。DAMO-YOLO 引入 TinyNAS 技术,使得用户可以根据硬件算力进行低成本的检测模型定制,提高硬件利用效率并且获得更高精度。DAMO-YOLO 还对检测模型中的 neck、head 结构设计,以及训练时的标签分配、数据增广等关键因素进行了优化,取得了精度和速度的全面提升。最后,DAMO-YOLO 提出了一套全尺度蒸馏方案,进一步实现全尺度模型的无痛涨点。具体细节可以参考我们的开源代码和技术报告。另外,为了方便用户使用 DAMO-YOLO 解决自己的问题,还开源了多个工业应用模型。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/damo-yolo

2)论文链接:

https://arxiv.org/pdf/2211.15444v2.pdf

3)代码仓库:

https://github.com/tinyvision/damo-yolo

相关文章
|
编译器 C++
c++关键字与三字符组
c++关键字与三字符组
191 0
|
人工智能
用AI人模拟社会学实验,居然成功了?斯坦福、NYU用GPT-4模仿人类,准确度惊人!
斯坦福大学和纽约大学的研究团队利用GPT-4模型成功模拟了人类在社交互动中的行为模式,实验结果显示AI能以惊人准确度模仿人类对话,甚至在在线论坛和社交媒体上与真人难以区分。这一突破不仅展示了AI在社会学研究中的巨大潜力,还引发了对AI伦理和透明度的深入探讨。尽管存在一些局限性和挑战,这项研究为未来社会学实验提供了新工具和方法。[论文地址:https://docsend.com/view/qeeccuggec56k9hd]
723 2
|
JavaScript 前端开发 网络协议
Vue.js 与 WebSocket 的惊世联姻!实时数据通信的震撼变革,你敢错过?
【8月更文挑战第30天】在现代Web开发中,实时数据通信至关重要。Vue.js作为流行前端框架,结合WebSocket技术,实现了高效实时的数据交互。本文简要介绍了WebSocket原理及其在Vue.js项目中的应用方法,包括建立连接、监听事件及数据处理等步骤,展示了如何利用二者结合轻松应对实时聊天、股票更新等多种场景,为开发者提供了实用指南。希望本文能帮助您更高效地实现Web应用的实时通信功能。
602 0
|
数据可视化 数据挖掘 数据处理
可视化的力量 | 电商运营决策?桑基图来助力
可视化的力量 | 电商运营决策?桑基图来助力
378 2
|
机器学习/深度学习 算法 计算机视觉
超越YOLOv10/11、RT-DETRv2/3!中科大D-FINE重新定义边界框回归任务
中科大研究团队提出了一种新型目标检测器D-FINE,通过重新定义边界框回归任务,实现超越YOLOv10/11和RT-DETRv2/3的性能。D-FINE采用细粒度分布细化(FDR)和全局最优定位自蒸馏(GO-LSD)技术,显著提高了定位精度和检测速度。在COCO数据集上,D-FINE-L/X分别达到54.0%/55.8%的AP,并在NVIDIA T4 GPU上以124/78 FPS运行。
668 13
|
运维 网络架构
CIDR 与 VLSM:了解它们的工作原理
CIDR 与 VLSM:了解它们的工作原理
799 4
|
缓存 JavaScript API
Vue3— computed的实现原理
【9月更文挑战第5天】Vue3— computed的实现原理
523 10
|
数据处理 索引 Python
深入了解pandas中的loc和iloc
深入了解pandas中的loc和iloc
590 0
|
Unix Linux 测试技术
C++封装详解——从原理到实践
C++封装详解——从原理到实践
921 0
|
机器学习/深度学习 监控 算法
ICCV2023 | 基于动作敏感性学习的时序动作定位
ICCV2023 | 基于动作敏感性学习的时序动作定位
1019 0

热门文章

最新文章