满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA(2)

简介: 满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA

C). 粗粒度的 group 特征学习
为了避免了上述相似的 local-group 分散的过于随机或较远,Mugs 中的 group discrimination supervision 将类似的样本聚集在一起,从而拉近类似的 local-group。这样一来,Mugs 可以在更高语义级别上捕获粗粒度特征。

具体来说,如图一所示,给定, 老师和学生 backbone 分别输出接着 Mugs 把里面的 class token分别送进对应的投影网络然后,Mugs 构建了一系列的可学习聚类中心来在线计算伪聚类标签:


其中,函数是对它的输入进行 sharpening 操作。接下来,类似于监督分类任务,Mugs 使用交叉熵损失,但使用软标签作为训练损失:


D). 整体训练损失函数
最后,该方法将上述三种互补的监督损失函数融合从而形成一个整体的训练损失函数:


其中,超参数分别代表三种监督权重。在实验中,为了方便,三个超参数都设置为 1/3。

现在讨论这三个监督对特征学习的共同影响。这也将它与现有的粒度特征学习方法,例如 MoCo 和 DINO ,区分开来。如前所述,instance discrimination supervision 就是拉近同一图像的不同增广的样本,从而将不同图像的特征近似地分散 在球面上(如图一第二个球面所示)。它帮助 Mugs 学习 instance-level 的细粒度特征。其次,local-group discrimination supervision 为 instance discrimination supervision 提供补充性监督。它考虑一张图片的 local-group,并鼓励同一张图片的不同增广样本拥有高度相似的邻居。这样一来,local-group supervision 则会将 instance discrimination supervision 中过于分散的实例特征进行高阶语义的重新聚集,也就让相似的样本享有相似的特征。最后,为了避免了上述相似的 local-group 分散的过于随机或较远,Mugs 中的 group discrimination supervision 将类似的样本聚集在一起,从而拉近类似的 local-group。这样一来,Mugs 可以在更高语义级别上捕获粗粒度特征。通过这样互补的多粒度监督学习,Mugs 能够学到更贴合实际应用的特征,从而更加满足于不同下游任务对不同粒度特征的需求。

三:实验结果
Mugs 使用和其他自监督方法同样的数据集和评测方法来验证它的效果。因为 transformer 展现出比 CNN 更强大的潜能(相同规模,transformer 效果会更优,并且它也拥有一统 CV 和 NLP 的潜能),Mugs 同样主要用 transformer 架构来验证。Mugs 仅在 ImageNet 1K 的训练集上预训练,然后在 ImageNet 1K 的训练集上进行 Linear Probing 和 KNN 训练。在这两种最常见的设置下,Mugs 大幅超越已有方法。在没有额外数据训练情况下,Mugs 超过了同样设置下的最好方法 iBoT,从而取得了最新的 SOTA linear probing 精度 82.1%。另外,在 KNN 设置下,Mugs 甚至超越了 ImageNet 1K 和 ImageNet22K 训练的最好方法 iBOT,从而刷新了 KNN 下的 SoTA。具体实验结果可以参看图二和图三。

图二:在 ImageNet-1K 预训练设置下,各种自监督方法的 Linear Probing 精度对比。通过在 ImageNet-1K 上进行预训练,在不同的模型尺寸 (见(a)) 和预训练时间 (见(b)) 下,Mugs 大幅的提高了之前的 SoTA (iBOT)。

图三:在 ImageNet-1K 上 Linear Probing 和 KNN 的精度对比。

另外,在其他的设置下,包括微调网络,半监督学习,迁移学习,物体检测,实例分割,语义分割,视频语义分割等 7 项任务上,Mugs 也超越了同样设置下的 SoTA 方法。具体可参看原文。

最后 Mugs 还展示了一些注意力可视化效果图。从图四可以看出,在没有标签的情况下,Mugs 仍然学到了语义信息。譬如 Mugs 能够很好地检测到物体的形状以及位置。

图四:Mugs 预训练的 ViT-Base/16 上的自注意力可视化

Mugs 还使用 T-SNE 揭示 MoCo-v3、DINO、iBOT 和 Mugs 所学习到的特征之间的差异。在图五中,每种颜色代表一个独特的类。通过对比,针对一个类,Mugs 经常在特征空间中将其划分为几个小簇,例如棕色的 6 个簇,紫色的 4 个簇,红色的 6 个簇,蓝色的 5 个簇,然后将这些小簇分散在一个大的类中。这些结果揭示了该特征中的多粒度结构: 分散的大类(即不同的颜色)对应于粗粒度特征,一个类中几个分散的小簇显示了更小的粗粒度(稍微高级的细粒度); 每一个小簇中的一些单独实例显示了实例级的细粒度。相比之下,MoCo-v3、DINO 和 iBOT 通常不显示这种多粒度特征结构。正如前文所述,不同下游任务通常需要不同粒度特征甚至多粒度特征。因此,这些可视化也能帮助解释为什么 Mugs 能够超越单粒度特征学习方法。

图五:各种自监督学习预训练的 ViT-Base/16 上的 T-SNE 可视化 T-SNE。

参考文献
[1] Zhou, P., and Zhou, Y., and Si, C., and Yu, W., and Ng, T.,  and Yan, S., : Mugs: A Multi-Granular Self-Supervised Learning Framework. arXiv preprint arXiv: 2203.14415 (2022)[2] Chen, X., Xie, S., He, K.: An empirical study of training self-supervised vision transformers. arXiv preprint arXiv:2104.02057 (2021)[3] Caron, M., Touvron, H., Misra, I., J ́egou, H., Mairal, J., Bojanowski, P., Joulin, A.: Emerging properties in self-supervised vision transformers. arXiv preprint arXiv:2104.14294 (2021)[4] Caron, M., Bojanowski, P., Joulin, A., Douze, M.: Deep clustering for unsupervised learning of visual features. In: Proceedings of the European Conference on Computer Vision (ECCV). pp. 132–149 (2018)[5] Zhou, J., Wei, C., Wang, H., Shen, W., Xie, C., Yuille, A., Kong, T.: iBOT: Image bert pre-training with online tokenizer. arXiv preprint arXiv:2111.07832 (2021)

相关文章
|
2月前
|
人工智能 监控 算法
人群计数、行人检测数据集(9000张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含9000张已标注、已划分的行人图像,适用于人群计数与目标检测任务。支持YOLO等主流框架,涵盖街道、商场等多种场景,标注精准,结构清晰,助力AI开发者快速训练高精度模型,应用于智慧安防、人流统计等场景。
人群计数、行人检测数据集(9000张图片已划分、已标注) | AI训练适用于目标检测任务
|
2月前
|
机器学习/深度学习 人工智能 算法
用于实验室智能识别的目标检测数据集(2500张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含2500张已标注实验室设备图片,涵盖空调、灭火器、显示器等10类常见设备,适用于YOLO等目标检测模型训练。数据多样、标注规范,支持智能巡检、设备管理与科研教学,助力AI赋能智慧实验室建设。
用于实验室智能识别的目标检测数据集(2500张图片已划分、已标注) | AI训练适用于目标检测任务
|
2月前
|
机器学习/深度学习 人工智能 监控
面向智慧牧场的牛行为识别数据集(5000张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含5000张已标注牛行为图片,涵盖卧、站立、行走三类,适用于YOLO等目标检测模型训练。数据划分清晰,标注规范,场景多样,助力智慧牧场、健康监测与AI科研。
面向智慧牧场的牛行为识别数据集(5000张图片已划分、已标注) | AI训练适用于目标检测任务
|
4月前
|
人工智能 分布式计算 自然语言处理
多智能体系统设计:5种编排模式解决复杂AI任务
本文探讨了多AI智能体协作中的关键问题——编排。文章指出,随着系统从单体模型向多智能体架构演进,如何设计智能体之间的通信协议、工作流程和决策机制,成为实现高效协作的核心。文章详细分析了五种主流的智能体编排模式:顺序编排、MapReduce、共识模式、分层编排和制作者-检查者模式,并分别介绍了它们的应用场景、优势与挑战。最后指出,尽管大模型如GPT-5提升了单体能力,但在复杂任务中,合理的智能体编排仍不可或缺。选择适合的编排方式,有助于在系统复杂度与实际效果之间取得平衡。
803 10
多智能体系统设计:5种编排模式解决复杂AI任务
|
4月前
|
机器学习/深度学习 人工智能 自动驾驶
交通标识与信号灯数据集(1000张图片已划分、已标注)| AI训练适用于目标检测任务
在智能驾驶与智慧交通的研究中,交通标识与信号灯识别 是最基础且最关键的任务之一。为了方便研究人员和开发者快速上手目标检测模型训练,本数据集提供了 1000张交通场景图片,并且已经按照目标检测任务的需求完成了 数据标注与划分。该数据集可直接应用于 YOLO、Faster R-CNN、SSD 等深度学习模型的训练与测试。
交通标识与信号灯数据集(1000张图片已划分、已标注)| AI训练适用于目标检测任务
|
5月前
|
机器学习/深度学习 人工智能 算法
面向工业4.0的AI Agent多任务协作与调度系统设计
随着人工智能(AI)技术的飞速发展,智能制造成为现代工业的核心驱动力。传统制造系统在面对多任务、高频次和动态变化的调度需求时,往往效率低下。而基于AI Agent的多任务协作与调度机制为解决这一问题提供了全新思路。本文聚焦于面向智能制造场景中,如何通过AI Agent实现多任务协作调度,并引入强化学习方法进行算法优化。
|
5月前
|
存储 人工智能 API
传统AI单点能力突出,为何面对复杂任务却远不及智能体?揭晓智能体的本质与核心优势
AI产品专家三桥君认为智能体作为新一代AI形态,正在重塑企业数字化运营模式。相比传统AI的单任务处理局限,智能体具备自主规划、工具调用、记忆存储和行动执行等核心能力,可完成从客户服务到订单处理的全流程业务自动化。作为企业IT技术演进的革命性突破,智能体通过智能编排微服务实现复杂流程调度,成为数字化转型的关键驱动力。未来,随着技术成熟,智能体将在更多领域释放降本增效价值,推动AI技术从单点突破走向系统化落地。
942 0
|
机器学习/深度学习 人工智能 编解码
AI虫子种类识别数据集(近3000张图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
本数据集包含近3000张已划分、标注的虫子图像,适用于YOLO系列模型的目标检测与分类任务。涵盖7类常见虫子,标注采用YOLO格式,结构清晰,适合农业智能化、小样本学习及边缘部署研究。数据来源多样,标注精准,助力AI虫害识别落地应用。
|
7月前
|
机器学习/深度学习 人工智能 大数据
特征越多模型越好?这个AI领域的常识可能是错的
特征选择是机器学习中的"减肥秘方",它能帮助模型去除冗余特征,提高性能并降低计算成本。本文深入浅出地介绍特征选择的概念、方法与实践技巧,带你掌握这门让AI模型更高效的"瘦身术"。