AAAI 2025| S5VH: 基于选择性状态空间的高效自监督视频哈希

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: AAAI 2025 论文 S5VH 提出基于选择性状态空间模型的高效自监督视频哈希方法,通过双向 Mamba 层和 Self-Local-Global 学习范式,显著提升视频检索性能与推理效率。

论文标题:

Efficient Self-Supervised Video Hashing with Selective State Spaces (S5VH)

作者:

Jinpeng Wang, Niu Lian, Jun Li, Yuting Wang, Yan Feng, Bin Chen, Yongbing Zhang, Shu-Tao Xia

机构:

清华大学、哈尔滨工业大学(深圳)、美团、鹏城实验室

代码链接:

https://github.com/gimpong/AAAI25-S5VH

https://modelscope.cn/models/JUN2005/AAAI2025-S5VH

论文链接:

https://arxiv.org/abs/2412.14518

会议:

AAAI 2025 (Association for the Advancement of Artificial Intelligence)

01.研究背景

随着短视频、流媒体平台的爆发式增长,如何高效地索引和检索视频数据成为计算机视觉和多媒体领域的重要研究问题。视频哈希(Video Hashing) 是一种通过学习紧凑的二进制编码来高效索引和检索视频的技术,其核心目标是使哈希码的汉明距离(Hamming Distance)能够准确地反映视频之间的语义相似性。

近年来,自监督视频哈希(SSVH, Self-Supervised Video Hashing)受到广泛关注,因为:

  1. 无需人工标注,可以利用海量无标签视频数据进行训练,利用视频内在的时序和语义信息进行学习,具有较高的实用价值。
  2. 计算效率高,相比深度特征匹配方法,哈希方法的查询速度更快,存储成本更低。

现有主流 SSVH 方法大多采用 Transformer 进行时序建模,然而:

  • Transformer 计算复杂度随帧数呈二次增长,难以扩展到长视频。
  • 训练和推理过程占用大量显存,限制了大规模部署的可行性。

大多数方法通常遵循内部样本学习(self/intra-sample)样本间学习(inter-sample)相结合的范式。其中,内部信号(self)主要指通过各种数据增强下的重建任务来实现视频理解;而样本间信号则依赖于视频之间的对比学习,以获得具有辨识性的哈希码。但由于样本间信号受到单个样本局部(local)信息的影响,缺乏全局语义指导,容易受到负样本采样等问题影响,训练效率和稳定性较低。

02.研究目标

为了解决上述问题,我们受到Mamba(一种先进的状态空间模型(SSM))的启发,结合创新的自监督学习策略,提出了一种全新的 SSVH 方法——S5VH,能够在高效计算与检索效果之间取得更优的平衡。

03.论文贡献

我们的研究主要做出了以下三大贡献:

  1. 创新的视频哈希网络:
  • 首次Mamba 引入 SSVH,提出 双向 Mamba 层 进行高效时序建模。
  • Mamba 采用数据选择性扫描机制,计算复杂度为线性 O(N),相比 Transformer 大幅降低计算量
  • 全新的自监督学习策略:

提出了Self-Local-Global(SLG)学习范式,结合 哈希中心生成中心对齐损失(),大幅提高训练效率。

  • 传统 SSVH 主要依赖对比学习,我们引入全局语义监督,使得哈希码学习更加高效且稳定。
  • 高效的哈希学习机制:
  • 设计了一种哈希中心生成算法,将特征空间的全局语义结构映射到哈希空间,提升哈希码的语义一致性。
  • 通过中心对齐损失,显著加速训练收敛速度

04.方法介绍

Pipeline 介绍

(a) 我们设计了一种基于 双向 Mamba 层 的编码器和解码器,以实现高效且精准的时序建模。

(b) 我们提出了一种优化算法,将特征空间中的全局语义结构转换为分离性良好且语义一致的哈希中心,以增强哈希学习的全局监督。

(c) 在哈希学习过程中,我们首先对视频帧进行编码,并基于最近的特征聚类生成伪标签。随后,对视频的两个视图进行采样,并采用共享的编码器和哈希层进行特征处理,从而获得帧级软哈希向量。接着,我们对帧级哈希向量进行聚合,以生成视频级哈希向量,进一步用于对比学习与中心对齐。此外,我们引入了一种辅助解码器(推理阶段移除),利用每个视图的帧哈希向量重建屏蔽帧,以强化局部信息建模。

✨ Mamba 赋能高效时序建模

为什么选择 Mamba?

传统的 SSVH 方法主要依赖 Transformer 进行时序建模,但其计算复杂度随帧数增长呈 O(N²),对于长视频的处理十分昂贵。而 Mamba 基于状态空间模型(SSM),其核心优势在于:

  • 计算复杂度仅为 O(N),适用于长视频处理。
  • 数据选择性扫描机制 能够自适应地筛选重要信息,减少冗余计算。
  • 结构紧凑,占用显存少,能够支持更大批量的视频输入

S5VH 采用的 Mamba 结构

S5VH 中,我们设计了一种 双向 Mamba 结构

  • 前向 Mamba 模块:从视频起始向末尾扫描,捕捉前向依赖关系。
  • 反向 Mamba 模块:从视频末尾向起始扫描,弥补单向建模的不足,增强全局上下文信息。
  • 融合策略:通过对前向与反向的输出进行融合,获得更为丰富的时序特征表

这种结构相比 Transformer,计算量更低时序建模能力更强,在实验中展现出了更优的性能。

全新 Self-Local-Global(SLG)学习范式

挑战:如何高效利用全局语义信息?

现有的自监督视频哈希(SSVH)方法通常依赖两类信号:

  • 自我恢复任务(Self):例如 帧重构、遮挡帧预测、时序顺序预测等,利用视频内在的时序和局部信息进行训练。
  • 单个视频对比学习(Local):通过比较同一视频的不同增强视图(或不同视频间的样本)来获得区分性特征。

存在如下问题:

  • Self重构任务往往只能捕捉到视频内的局部细节,难以提取出数据集整体的全局语义信息。
  • Local对比学习中,负样本采样等策略容易受到噪声和样本不平衡的影响(例如只将同一个视频的视图视为正例,不同视频全部视为负例,但实际上同一类视频的视图应为正例),导致训练过程不稳定且效率有限。
  • 缺乏显示全局监督,哈希码学习不稳定

我们的解决方案

我们提出了一种基于哈希中心的全局监督策略

  1. 全局语义提取:在特征空间进行 k-means 聚类,获得 Nc 个全局聚类中心,聚类中心被看作是语义信息的压缩表示,用于指导后续哈希码学习。
  2. 哈希中心生成:论文提出优化算法,将特征空间中的全局语义中心转换为哈希空间中的“哈希中心”,要求这些哈希中心之间具有良好的分离性和语义一致性。
  3. 中心对齐损失(LCA):通过设计中心对齐损失,直接将视频的哈希码与对应的哈希中心进行对齐。该损失作为全局学习信号补充传统的局部重构或对比损失,使模型训练更快、更稳定,同时提升了最终哈希码的语义一致性。

我们在原有的 self-local 信号基础上引入了我们提出的全局监督信号,构建了全新的 Self-Local-Global (SLG) 学习范式。通过整合这三类互补的学习信号,SLG 既能够有效捕捉 self-local 级别的特征信息,又能确保生成的哈希码在哈希空间中保持良好的全局语义一致性与区分性。此外,该范式显著提升了模型的收敛速度泛化能力,使其在大规模视频数据处理中表现更优。

05.实验结果

通用数据集检索

我们选取了6个有代表性的基线进行比较,在数据集和代码长度上,S5VH通常优于其他方法,证明了优越的功效。特别是对于16位这样的low-bit设置,这种改进更加明显,突出了S5VH卓越的检索性能。

t-SNE比较

与ConMH生成的哈希码相比,S5VH生成的哈希码在同一类别内表现出更清晰的紧凑性,不同类别之间的分离度增加。这一发现表明,S5VH产生更具鉴别性的二进制代码,这显著提高了检索性能。

推理效率

我们可以看到基于Mamba的S5VH在内存和计算上表现出较低的推理开销,其效率优势是可扩展的,并且在更大的帧数下更加显著。同时在哈希空间引入的全局学习信号表现出更快和更好的收敛。

06.论文总结

在本文中,团队介绍了S5VH,它是第一个基于Mamba的SSVH模型,具有增强的学习范式。S5VH开发双向Mamba层来捕获全面的时间关系,用于哈希学习。为了提高训练效率,我们提出了语义哈希中心生成算法和中心对齐损失来提取和利用全局学习信号。实验表明,S5VH在各种设置下都有一致的改进,迁移能力强,推理效率更高。我们的研究表明了状态空间模型在视频哈希中的强大潜力,我们希望这能激发进一步的研究。

欢迎大家在 GitHub 上 Star 我们的代码github.com/gimpong/AAAI25-S5VH

点击链接阅读原文https://modelscope.cn/models/JUN2005/AAAI2025-S5VH

相关文章
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型
DeepSeek 系列模型以其卓越性能在全球范围内备受瞩目,多次评测中表现优异,性能接近甚至超越国际顶尖闭源模型(如OpenAI的GPT-4、Claude-3.5-Sonnet等)。企业用户和开发者可使用 PAI 平台一键部署 DeepSeek 系列模型,实现 DeepSeek 系列模型与现有业务的高效融合。
|
7天前
|
人工智能 搜索推荐 Docker
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
DeepSeek R1 + LobeChat + Ollama:快速本地部署模型,创建个性化 AI 助手
2691 112
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
|
2天前
|
云安全 边缘计算 人工智能
对话|ESA如何助力企业高效安全开展在线业务?
ESA如何助力企业安全开展在线业务
1015 7
|
5天前
|
人工智能 自然语言处理 JavaScript
宜搭上新,DeepSeek 插件来了!
钉钉宜搭近日上线了DeepSeek插件,无需编写复杂代码,普通用户也能轻松调用强大的AI大模型能力。安装后,平台新增「AI生成」组件,支持创意内容生成、JS代码编译、工作汇报等场景,大幅提升工作效率。快来体验这一高效智能的办公方式吧!
1346 5
|
14天前
|
Linux iOS开发 MacOS
deepseek部署的详细步骤和方法,基于Ollama获取顶级推理能力!
DeepSeek基于Ollama部署教程,助你免费获取顶级推理能力。首先访问ollama.com下载并安装适用于macOS、Linux或Windows的Ollama版本。运行Ollama后,在官网搜索“deepseek”,选择适合你电脑配置的模型大小(如1.5b、7b等)。通过终端命令(如ollama run deepseek-r1:1.5b)启动模型,等待下载完成即可开始使用。退出模型时输入/bye。详细步骤如下图所示,轻松打造你的最强大脑。
9442 86
|
2天前
|
人工智能 自然语言处理 API
DeepSeek全尺寸模型上线阿里云百炼!
阿里云百炼平台近日上线了DeepSeek-V3、DeepSeek-R1及其蒸馏版本等六款全尺寸AI模型,参数量达671B,提供高达100万免费tokens。这些模型在数学、代码、自然语言推理等任务上表现出色,支持灵活调用和经济高效的解决方案,助力开发者和企业加速创新与数字化转型。示例代码展示了如何通过API使用DeepSeek-R1模型进行推理,用户可轻松获取思考过程和最终答案。
|
6天前
|
API 开发工具 Python
阿里云PAI部署DeepSeek及调用
本文介绍如何在阿里云PAI EAS上部署DeepSeek模型,涵盖7B模型的部署、SDK和API调用。7B模型只需一张A10显卡,部署时间约10分钟。文章详细展示了模型信息查看、在线调试及通过OpenAI SDK和Python Requests进行调用的步骤,并附有测试结果和参考文档链接。
1393 9
阿里云PAI部署DeepSeek及调用
|
1月前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
阿里云与企业共筑容器供应链安全
171378 18
|
1月前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
随着云计算和DevOps的兴起,容器技术和自动化在软件开发中扮演着愈发重要的角色,但也带来了新的安全挑战。阿里云针对这些挑战,组织了一场关于云上安全的深度访谈,邀请了内部专家穆寰、匡大虎和黄竹刚,深入探讨了容器安全与软件供应链安全的关系,分析了当前的安全隐患及应对策略,并介绍了阿里云提供的安全解决方案,包括容器镜像服务ACR、容器服务ACK、网格服务ASM等,旨在帮助企业构建涵盖整个软件开发生命周期的安全防护体系。通过加强基础设施安全性、技术创新以及倡导协同安全理念,阿里云致力于与客户共同建设更加安全可靠的软件供应链环境。
150313 32
|
6天前
|
缓存 自然语言处理 安全
快速调用 Deepseek API!【超详细教程】
Deepseek 强大的功能,在本教程中,将指导您如何获取 DeepSeek API 密钥,并演示如何使用该密钥调用 DeepSeek API 以进行调试。

热门文章

最新文章