UniMatch项目原作解读:统一光流、立体匹配和深度估计三个任务

简介: UniMatch项目原作解读:统一光流、立体匹配和深度估计三个任务

从二维图像中理解场景的三维结构和运动信息是计算机视觉领域的一项核心研究目标,也是许多实际应用的基石。近年来,许多不同的网络结构被提出来解决几何和运动相关的任务,如深度估计、立体匹配和光流等。然而,现有的工作大多致力于设计特定的网络结构来独立解决每一个特定的任务,忽视了许多几何和运动估计任务是本质上相关的对应关系估计问题。这种针对特定任务的研究理念不可避免地导致需要处理大量的网络结构。此外,独立地研究每一项特定的任务使得无法很好地复用预训练的模型,因为各任务之间的网络结构和模型参数往往有所差异。

机器之心最新一期线上分享邀请到了苏黎世联邦理工学院与图宾根大学联合培养博士生徐豪飞,为大家解读他们CVPR 2022的Oral论文 GMFlow 及其后续工作UniMatch。

这项工作提出了一个统一模型 UniMatch 来解决三个稠密感知任务:光流、立体匹配和深度估计。作者的主要观察在于这三个任务可以通过一种显式地稠密特征匹配框架来进行统一,进而这一问题被转化为提取任务无关的、判别能力强的特征来进行匹配。为此,文章提出采用 Transformer,尤其是 cross-attention 来实现。其中 cross-attention 可以建模两张图片之间的相互依赖关系,从而极大地提升特征的质量。由于网络结构和参数在不同任务之间是共享的,因此可以很自然地支持跨任务之间的迁移。文章提出的最终模型在10个流行的数据集上取得了最好或具有竞争力的结果,同时网络结构更加简单和高效。


分享主题:UniMatch: 统一光流、立体匹配和深度估计三个任务

分享嘉宾:徐豪飞,苏黎世联邦理工学院与图宾根大学联合培养博士生。硕士毕业于中国科学技术大学。研究方向包括光流、立体匹配和三维场景表征学习。

分享摘要:本次分享将首先介绍相关领域的发展历程,进而介绍我们 CVPR 2022Oral论文 GMFlow 及其后续工作UniMatch:统一光流、立体匹配和深度估计三个任务,并展示该统一模型的独特性与优势,最后会讨论该工作的局限性及可能的未来研究方向。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/unimatch

2)项目主页:

https://haofeixu.github.io/unimatch/

3)论文链接:

https://arxiv.org/abs/2211.05783v1

4)代码仓库:

https://github.com/autonomousvision/unimatch

相关文章
|
5G 网络虚拟化
解决谷歌硬盘大文件下载不了的问题
解决谷歌硬盘大文件下载不了的问题
917 0
|
机器学习/深度学习 自然语言处理 达摩院
Modelscope 工程介绍及实战演示| 学习笔记
快速学习 Modelscope 工程介绍及实战演示
Modelscope 工程介绍及实战演示| 学习笔记
|
监控 安全 测试技术
什么是即时注入?攻击类型与防御
【8月更文挑战第12天】
426 4
|
人工智能 监控 搜索推荐
💼时间管理大师:AI教你如何高效规划职场每一天,告别拖延症!
【8月更文挑战第1天】在职场征途中,时间宝贵却易流失。传统时间管理手段虽有效,但缺乏个性化支持。AI兴起,成为职场时间管理的新利器。它学习工作习惯,智能定制时间规划,自动整理任务并推荐执行顺序,实时监控进度助克服拖延。例如,AI时间管理软件可自动抓取信息生成任务清单,根据效率和个人偏好制定个性化日程,适时提醒确保不漏重要事项,动态调整计划保高效。通过AI助力,职场人得以解脱繁琐管理,拥抱高效自律生活。
637 0
|
机器学习/深度学习 自然语言处理 物联网
ICML 2024:脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了
【6月更文挑战第4天】在ICML 2024上,研究团队提出了傅立叶变换微调(FourierFT),一种减少训练参数的新方法,替代了依赖LoRA的微调。FourierFT通过学习权重变化矩阵的稀疏频谱系数,实现了LFMs的高效微调。在多项任务上,FourierFT展示出与LoRA相当或更优的性能,参数量却大幅减少,如在LLaMA2-7B模型上,仅需0.064M参数,对比LoRA的33.5M。广泛实验验证了其在NLP和CV任务上的效果,但未来还需探索其适用性和泛化能力。论文链接:[arxiv.org/abs/2405.03003](https://arxiv.org/abs/2405.03003)
412 0
|
人工智能 自然语言处理 安全
ChatGPT-5 最快将于 6 月发布
OpenAI计划推出ChatGPT-5,预计6月发布,企业客户已提前体验其增强的性能与定制化功能。模型将经过密集训练和严格安全测试,提升语言理解和交互的自然度。GPT-5将影响多个行业,带来商业机遇,同时引发关于伦理和安全的讨论。其在教育和医疗领域的应用前景广阔,但用户仍需注意信息验证。
1224 0
ChatGPT-5 最快将于 6 月发布
【面试问题】final 和可以保证可见性吗?
【1月更文挑战第27天】【面试问题】final 和可以保证可见性吗?
|
数据采集 自然语言处理 数据可视化
使用爬虫技术从今日头条获取社会热点
今日头条是一款基于数据挖掘的推荐引擎产品,能够为用户提供个性化的信息流,涵盖了新闻、视频、娱乐、体育等多个领域。今日头条的内容来源于各大媒体、自媒体、网友等,具有丰富性和多样性。利用爬虫技术,我们可以从今日头条中获取社会热点和舆情分析,为我们的决策和研究提供有价值的数据和洞察。
998 0
使用爬虫技术从今日头条获取社会热点
|
达摩院 并行计算 异构计算
modelscope调用的模型如何指定在特定gpu上运行?排除使用CUDA_VISIBLE_DEVICES环境变量
由于个人需要,家里有多张卡,但是我只想通过输入device号的方式,在单卡上运行模型。如果设置环境变量的话我的其他服务将会受影响。
|
iOS开发
iOS用CallKit实现来电识别、来电拦截
前言 最近需要实现一个新需求,用iOS 10出的CallKit实现将APP的通讯录的信息同步到系统中,可以不把人员信息加到通讯录中,实现来电号码识别。
3949 0