Ultralytics YOLO26来啦!5种尺寸全家桶,速度与精度兼顾

简介: Ultralytics发布YOLO26,系列迄今最先进、易部署的模型,支持分类、检测、分割、姿态估计等多任务。五种尺寸灵活适配边缘设备,CPU推理提速43%,首创无NMS端到端推理,移除DFL提升兼容性,已上架魔搭社区。(239字)

Ultralytics 近期推出了最新的 YOLO26 模型,作为该系列迄今为止最先进、同时也是最易于部署的迭代版本,重新定义了跨行业计算机视觉应用的新范式,为边缘计算、低功耗设备场景提供了尖端解决方案。


与此前的 Ultralytics YOLO 系列一样,YOLO26 依然采用统一的模型家族设计,能够支持多种计算机视觉任务。模型提供五种尺寸选择:Nano(n)、Small(s)、Medium(m)、Large(l)和 Extra Large(x),团队可以根据部署环境,在速度、精度和模型体量之间进行灵活取舍。


在性能层面,YOLO26 进一步提升了性能上限。与 YOLO11 相比,YOLO26 的 Nano 版本在 CPU 推理场景下最高可实现 43% 的性能提升,成为目前边缘端和基于 CPU 部署场景中速度与精度兼顾的领先目标检测模型之一。


Ultralytics YOLO 系列模型,已正式上架「魔搭社区(ModelScope)」

快速上手体验:https://modelscope.cn/studios/Ultralytics/yolo26

官网:

https://platform.ultralytics.com/ultralytics/yolo26


官方文档:

https://docs.ultralytics.com/models/yolo26/


YOLO26 支持的计算机视觉任务包括:

  • 图像分类:对整张图像进行分析,并归类到指定类别,帮助系统理解场景整体语义。
  • 目标检测:在图像或视频中定位并识别多个目标。
  • 实例分割:能以像素级精度勾勒单个物体轮廓。
  • 姿态估计:识别关键点并估计人体或其他对象的姿态。
  • 旋转框(OBB)检测:支持不同角度目标检测,适用于航拍和卫星影像。
  • 目标跟踪:结合 Ultralytics Python 包,可在视频流中持续跟踪目标。


所有任务在同一框架下支持训练、验证、推理与模型导出。


Ultralytics YOLO26 的关键创新

Ultralytics YOLO26 引入了多项核心创新,全面提升了推理速度、训练稳定性和部署便捷性,主要包括:

  • 移除分布焦点损失(DFL):删除了 DFL 模块,简化了边界框预测过程,提升了硬件兼容性,让模型更易于导出并在边缘设备和低功耗硬件上运行。
  • 端到端无 NMS 推理:YOLO26 原生支持端到端推理,可直接输出最终预测结果,无需依赖非极大值抑制(NMS),减少了推理延迟和部署复杂度。
  • 渐进式损失平衡(ProgLoss)+ 小目标感知标签分配(STAL):这些优化的损失策略稳定了训练过程,提升了检测精度,尤其针对难以检测的小目标。
  • MuSGD 优化器:采用全新混合优化器,融合了 SGD 与 Muon 的优化方法,模型训练更加稳定。
  • CPU 推理速度提升高达 43% :专为边缘计算优化,YOLO26 的 CPU 推理速度提升高达 43%,可在边缘设备上实现实时性能。

移除分布焦点损失(DFL),简化预测流程

早期 YOLO 模型在训练过程中使用分布焦点损失(DFL)来提升边界框精度。尽管这一方法有效,但 DFL 增加了模型复杂度,且对回归范围设置了固定限制,给模型导出和部署带来挑战,尤其在边缘设备和低功耗硬件上表现更为明显。

YOLO26 完全移除了 DFL 模块。这一改动消除了早期模型中固定的边界框回归限制,提升了检测超大物体时的可靠性和准确性。

通过简化边界框预测流程,YOLO26 更易于导出,且能在各类边缘设备和低功耗硬件上稳定运行。

端到端无 NMS 推理

传统目标检测流程依赖非极大值抑制(NMS)作为后处理步骤,用于过滤重叠预测结果。尽管 NMS 效果显著,但它会增加延迟和复杂度,且在多运行时环境和不同硬件目标上部署时容易出现不稳定问题。

YOLO26 引入原生端到端推理模式,模型可直接输出最终预测结果,无需将 NMS 作为独立的后处理步骤。重复预测的过滤的操作在网络内部完成。

移除 NMS 不仅降低了延迟,简化了部署流程,还减少了集成错误的风险,使 YOLO26 特别适合实时部署和边缘部署场景。

渐进式损失平衡(ProgLoss)+ 小目标感知标签分配(STAL),提升识别能力

训练相关的关键特性是引入了渐进式损失平衡(ProgLoss)和小目标感知标签分配(STAL)。这些优化的损失函数有助于稳定训练过程,提升检测精度。

ProgLoss 让模型在训练过程中学习更稳定,减少了训练波动,使模型收敛更平稳。同时,STAL 则针对小目标进行了优化,改善模型在视觉信息有限情况下的学习效果。

ProgLoss 和 STAL 的结合实现了更可靠的检测效果,尤其在小目标识别方面有显著提升。这一点对于物联网(IoT)、机器人技术和航空影像等边缘应用至关重要,因为在这些场景中,物体往往体积小、距离远或部分可见。

MuSGD 优化器,实现更稳定的训练

YOLO26 采用了一种新的优化器 MuSGD,用于提升训练的稳定性和效率。MuSGD 将传统随机梯度下降(SGD)的优势,与源自大语言模型训练的 Muon 类优化思想相结合。

SGD 在计算机视觉领域长期被证明具有良好的泛化能力,而近年的大模型训练经验也表明,适当引入新的优化策略可以进一步提升稳定性和效率。MuSGD 将这些理念引入了计算机视觉领域。

受 Moonshot AI 的 Kimi K2 训练经验启发,MuSGD 融入了有助于模型更平稳收敛的优化策略。这使得 YOLO26 能够更快地达到出色性能,同时减少训练不稳定性,尤其在更大规模或更复杂的训练场景中效果显著。

MuSGD 让 YOLO26 在不同模型尺寸下的训练都更具可预测性,既提升了性能,又增强了训练稳定性。

CPU 推理速度提升高达 43%

随着 Vision AI 不断向数据产生端靠近,边缘性能的重要性持续提升。YOLO26 针对边缘计算场景进行了深度优化,在无 GPU 的条件下,CPU 推理速度最高提升可达 43%。

这一能力使实时视觉系统能够直接运行在摄像头、机器人和嵌入式硬件上,满足低延迟、高可靠性和成本受限的实际需求。

对视觉任务进一步优化

除了提升目标检测精度的架构改进外,YOLO26 还包含针对特定任务的优化,旨在全面提升各类计算机视觉任务的性能。

  • 实例分割:YOLO26 使用语义分割损失改进模型的训练学习过程,从而生成更准确、更一致的实例掩码。升级后的原型模块支持利用多尺度信息,使模型在复杂场景中也能有效处理不同尺寸的物体。
  • 姿态估计:集成 Residual Log-Likelihood Estimation(RLE),更好地建模关键点预测的不确定性,同时优化解码流程,实现更高精度与实时性。
  • 旋转边界框检测:新增角度损失函数,帮助模型更准确地学习物体旋转角度,尤其适用于方向模糊的方形物体。优化后的 OBB 解码过程减少了旋转边界附近角度预测的突变,实现了更稳定、一致的方向估计。


点击即可跳转模型合集:https://www.modelscope.cn/organization/Ultralytics


目录
相关文章
|
2月前
|
缓存 自然语言处理 API
美团开源 LongCat-Flash-Lite:实现轻量化 MoE 高效推理
美团LongCat团队开源68.5B MoE大模型LongCat-Flash-Lite,创新采用N-gram Embedding架构,推理仅激活2.9B–4.5B参数,却在Agent工具调用、代码生成等任务上大幅领先;支持256K长上下文,API生成速度达500–700 token/s,MIT协议开源。
545 6
|
2月前
|
人工智能 测试技术 API
让大模型真正为你工作:一文读懂RAG与微调的选择逻辑
本文深入解析RAG(开卷考试)与微调(封闭特训)两大私有知识注入技术:RAG实时更新、可追溯但依赖检索质量;微调风格统一、响应快但成本高、难迭代。结合实践案例与评估方法,重点推荐2024主流“混合架构”——RAG管“说什么”,微调管“怎么说”,兼顾准确性与规范性。
401 8
|
2月前
|
存储 数据采集 人工智能
大模型微调常见术语解析:新手也能看懂的入门指南
本文通俗解析大模型微调核心术语:涵盖预训练模型、LoRA/QLoRA等轻量方法、学习率/批次大小等训练参数,以及过拟合、数据投毒等效果与安全要点,助新手快速入门并安全实践。(239字)
|
2月前
|
机器学习/深度学习 人工智能 编解码
四款国产VLM OCR模型横评
春节前,DeepSeek、智谱、百度、腾讯四大团队密集开源新一代OCR小模型,全面采用视觉语言模型(VLM)架构,摒弃传统流水线,迈向“语义结构化”新纪元。DeepSeek-OCR2首创“视觉因果流”,GLM-OCR以0.9B参数登顶OmniDocBench榜首,PaddleOCR-VL-1.5攻克真实退化场景,Youtu-Parsing实现22倍推理加速——国产OCR正以架构创新实现垂直领域“换道超车”。
522 4
|
2月前
|
JSON 文字识别 API
百度文心开源0.9B参数 PaddleOCR-VL-1.5,全球首个支持异形框定位的文档解析模型!
百度文心开源新一代文档解析模型PaddleOCR-VL-1.5:仅0.9B参数,在OmniDocBench v1.5达94.5%精度,全球首个支持异形框定位,精准识别倾斜、弯折、反光等“歪文档”,集成印章识别、多语种(含藏语/孟加拉语)及古籍解析能力,推理速度超MinerU2.5达43%。(239字)
625 2
|
2月前
|
数据采集 人工智能 达摩院
达摩院开源RynnBrain:首个支持移动操作的具身大脑基础模型
达摩院发布首个可移动操作的具身基础模型RynnBrain,首创时空记忆与物理空间推理能力,支持视频/图像/文本多模态输入及区域、轨迹等具身输出。开源MOE架构RynnBrain-30B-A3B(仅3B激活参数),在16项基准全面SOTA,并推出全新评测集RynnBrain-Bench。
418 8
|
2月前
|
存储 API 数据库
投稿 | Zvec: 开箱即用、高性能的嵌入式向量数据库
Zvec 是一款开源(Apache 2.0)轻量级嵌入式向量数据库,专为终端侧设计,具备开箱即用、资源可控、极致性能与完整向量能力四大优势,支持标量-向量混合查询、CRUD、崩溃恢复等生产级特性,让端侧RAG如SQLite般简单可靠。(239字)
452 7
|
2月前
|
机器学习/深度学习 自然语言处理 API
Qwen3-Coder-Next开源!推动小型混合模型在智能体编程上的边界
Qwen团队开源Qwen3-Coder-Next:基于Qwen3-Next-80B的轻量级编程智能体模型,采用混合注意力+MoE架构,通过可执行任务合成与强化学习训练,在SWE-Bench Verified达70%+,以仅3B激活参数媲美10–20倍大模型,兼顾高性能与低成本部署。(239字)
1533 4
|
2月前
|
机器学习/深度学习 自然语言处理 搜索推荐
蚂蚁百灵全模态 Ming-flash-omni-2.0 开源!视觉百科+可控语音生成+全能型图像编辑,打破全模态“博而不精”
2月11日,蚂蚁百灵团队开源全模态大模型Ming-flash-omni-2.0(基于Ling-2.0 MoE架构),在视觉理解、语音交互与图像编辑三大领域实现代际跃迁,达开源领先水平。支持多模态统一生成与深度编辑,模型权重与代码已开放。
629 4
 蚂蚁百灵全模态 Ming-flash-omni-2.0 开源!视觉百科+可控语音生成+全能型图像编辑,打破全模态“博而不精”
|
25天前
|
人工智能 边缘计算 开发框架
2026年入局AI晚不晚?答案是:现在就是最好的时机
2026年AI已迈入“技术爆发+应用红利”黄金期:巨头筑基降低门槛,算力成本下降、工具成熟;超级个体10天可开发爆款AI应用;CAIE认证等路径让零基础者快速入局。AI不是短跑,而是马拉松——现在,正是普通人抓住红利的最佳时机。(239字)
632 10

热门文章

最新文章