21秒看尽ImageNet屠榜模型,60+模型架构同台献艺

简介: 60+模型架构,历年十几个 SOTA 模型,这 21 秒带你纵览图像识别的演进历史。

ImageNet 是计算机视觉领域常用的数据集之一。在图像分类、目标分割和目标检测中有着无法撼动的地位。ImageNet 最初是由李飞飞等人在 CVPR 2009 年发表的论文——「ImageNet: A Large-Scale Hierarchical Image Database」中发布的。多年来,ImageNet 的相关论文对业内有极大的影响。截至到当前,Google Scholar 上展示该论文有 12224 的引用量。这篇论文在 ImageNet 发布十周年之际,于 CVPR 2019 大会上获得了经典论文奖。ImageNet 本身则是一个海量的带标注图像数据集。通过众包等方式进行标注,从 2007 年开始直到 2009 年完成。


ImageNet 有超过 1500 万张图片,仅汽车图像的数量达到了 70 万张,类别数量为 2567 个。如此巨量、 标注错误极低且免费的数据集,已经成为图像处理领域研究者首先接触的数据集之一。毫不夸张的说,ImageNet 是图像处理算法的试金石。


从 2010 年起,每年 ImageNet 官方会举办挑战赛。2017 年后的比赛由 Kaggle 社区主持。自 2012 年 Hinton 等的团队提出 AlexNet 开始,每年都有层出不穷的模型希望在 ImageNet 排行榜上取得一席之地。近日,PaperWithCode 网站发布了一段 21 秒的视频,在 ImageNet 发布十年的时刻,总结了历年来排行榜上取得一定效果的模型。00:21

微信图片_20211201195848.jpg

如上展示了 13 到 19 年的分类任务 SOTA 效果演进,真正有大幅度提升的方法很多都在 13 到 15 年提出,例如 Inception 结构、残差模块等等。Leaderboard 地址:https://www.paperswithcode.com/sota/image-classification-on-imagenet机器之心根据视频和网站内容进行了整理。以下为一些著名的模型、发布时间、Top-1 准确率、参数量,以及相关的论文链接。发布时取得 SOTA 的模型名以红色字体标出。


这是一堆耳熟能详的模型


微信图片_20211201195844.jpg

AlexNet 的架构示意图。

微信图片_20211201195840.jpg

Inception V3。

微信图片_20211201195838.jpg

ResNet 的基本模块。

微信图片_20211201195835.jpg

增长率为 4 的 DenseNet 架构。

微信图片_20211201195831.jpg

利用神经架构搜索(NAS)方法获得的模型(右图),相比左边的模型减少了参数量,效果得到了提升。

微信图片_20211201195828.jpg

EfficientNet 论文中的架构对比。a)基线模型;b)- d)分别为对图像宽度、深度和分辨率的扫描架构;e)论文提出的可以将所有扫描架构融合在一起的网络结构。


你发现了某些规律?


从屠榜模型来看,取得 SOTA 的模型参数量在逐年增加。从有 60M 参数量的 AlexNet 到有着 829M 的 FixResNeXt-101 32×48d,模型一年比一年更大了。但是也有很意外的情况,比如 DenseNet 获得了 CVPR 2017 的最佳论文,但是 DenseNet 并没有达到 SOTA 的效果。此外,名声在外的 ResNet 也仅仅是接近 2015 年的 SOTA 模型 Inception V3。但是,没有取得 SOTA 并不代表这些模型不好。它们给了后续工作很大的启发。值得注意的是,从 2018 年开始,缩小模型参数量的研究逐渐增多。可以看到有 MobileNet、ShuffleNet 等,可惜在性能上牺牲了很多。今年最著名的小型化模型是谷歌提出的 EfficientNet,仅有 66M 的参数量,但已经接近目前的 SOTA 分数了。


了解模型架构可以看这里


机器之心也曾经介绍过很多博客与论文,它们是理解这些模型架构的好资源。以下都是一些综述性文章,它们非常适合全面了解架构的演变:


图像领域研究的未来


从近年来图像研究领域的论文主题来看,现在有几大研究方向值得关注。首先,在算法领域,生成对抗网络(GAN)的研究呈现井喷的趋势。越来越多的研究者尝试使用 GAN 进行图像方面的研究,如图像识别、对抗样本攻击和防御,以及生成高清晰度图像、图像风格转换、直接生成新图像等方面的研究。也有部分学者尝试用 GAN 进行目标检测。其次,在任务领域,有更多由静态图像转变为动态的视频图像、由 2D 图像研究转向 3D 图像和三维数据方面的研究。近年来,有更多的尝试研究视频领域中的图像分类、目标分割和检测方面的算法出现,实现了诸如行人检测、人体姿态追踪等方面的应用。同时研究人员尝试使用深度学习模型探究 3D 建模方面的表现。最后,在模型方面,出现了模型参数缩减和模型压缩方面的多种研究。很多学者研究在不影响模型性能的前提下进行模型剪枝和压缩方面的技术,希望能够将性能优异模型部署在移动端或物联网设备上,实现本地化的模型推断。


在机器之心承办的世界人工智能大会黑客马拉松上,软银机器人、微众银行、第四范式发布三大赛题,点击阅读原文了解详情并参与报名。


微信图片_20211201195824.jpg

相关文章
|
1月前
|
存储 分布式计算 API
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
75 0
|
3天前
|
机器学习/深度学习 自然语言处理 C++
TSMamba:基于Mamba架构的高效时间序列预测基础模型
TSMamba通过其创新的架构设计和训练策略,成功解决了传统时间序列预测模型面临的多个关键问题。
17 4
TSMamba:基于Mamba架构的高效时间序列预测基础模型
|
28天前
|
机器学习/深度学习 网络架构 计算机视觉
目标检测笔记(一):不同模型的网络架构介绍和代码
这篇文章介绍了ShuffleNetV2网络架构及其代码实现,包括模型结构、代码细节和不同版本的模型。ShuffleNetV2是一个高效的卷积神经网络,适用于深度学习中的目标检测任务。
63 1
目标检测笔记(一):不同模型的网络架构介绍和代码
|
2月前
|
机器学习/深度学习
ACM MM24:复旦提出首个基于扩散模型的视频非限制性对抗攻击框架,主流CNN和ViT架构都防不住它
【9月更文挑战第23天】复旦大学研究团队提出了ReToMe-VA,一种基于扩散模型的视频非限制性对抗攻击框架,通过时间步长对抗性潜在优化(TALO)与递归令牌合并(ReToMe)策略,实现了高转移性且难以察觉的对抗性视频生成。TALO优化去噪步骤扰动,提升空间难以察觉性及计算效率;ReToMe则确保时间一致性,增强帧间交互。实验表明,ReToMe-VA在攻击转移性上超越现有方法,但面临计算成本高、实时应用受限及隐私安全等挑战。[论文链接](http://arxiv.org/abs/2408.05479)
70 3
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】BERT模型:揭秘LLM主要类别架构(上)
【AI大模型】BERT模型:揭秘LLM主要类别架构(上)
|
2月前
|
机器学习/深度学习 测试技术 数据处理
KAN专家混合模型在高性能时间序列预测中的应用:RMoK模型架构探析与Python代码实验
Kolmogorov-Arnold网络(KAN)作为一种多层感知器(MLP)的替代方案,为深度学习领域带来新可能。尽管初期测试显示KAN在时间序列预测中的表现不佳,近期提出的可逆KAN混合模型(RMoK)显著提升了其性能。RMoK结合了Wav-KAN、JacobiKAN和TaylorKAN等多种专家层,通过门控网络动态选择最适合的专家层,从而灵活应对各种时间序列模式。实验结果显示,RMoK在多个数据集上表现出色,尤其是在长期预测任务中。未来研究将进一步探索RMoK在不同领域的应用潜力及其与其他先进技术的结合。
86 4
|
2月前
|
分布式计算 负载均衡 监控
p2p网络架构模型
P2P(Peer-to-Peer)模式是一种网络架构模型,在这种模型中,每个节点(peer)既是服务的提供者也是服务的消费者。这意味着每个参与的节点都可以直接与其他节点通信,并且可以相互提供资源和服务,例如文件共享、流媒体传输等。
80 6
|
2月前
|
机器学习/深度学习 数据采集
详解Diffusion扩散模型:理论、架构与实现
【9月更文挑战第23天】扩散模型(Diffusion Models)是一类基于随机过程的深度学习模型,通过逐步加噪和去噪实现图像生成,在此领域表现优异。模型分正向扩散和反向生成两阶段:前者从真实数据加入噪声至完全噪音,后者则学习从噪声中恢复数据,经由反向过程逐步还原生成清晰图像。其主要架构采用U-net神经网络,实现过程中需数据预处理及高斯噪声添加等步骤,最终通过模型逆向扩散生成新数据,具有广泛应用前景。
|
3月前
|
机器学习/深度学习 自然语言处理 数据处理
|
3月前
|
网络协议 安全 网络性能优化
OSI 模型详解:网络通信的七层架构
【8月更文挑战第31天】
602 0
下一篇
无影云桌面