近十年首次,国内机构上海AI Lab、武大、商汤研究获CVPR 2023最佳论文(1)

简介: 近十年首次,国内机构上海AI Lab、武大、商汤研究获CVPR 2023最佳论文

近十年首次,国内机构上海AI Lab、武大、商汤研究获CVPR 2023最佳论文

机器之心 2023-06-22 13:23 发表于北京

机器之心报道

机器之心编辑部

最佳论文将全栈驾驶任务整合到了一个网络中。


全球最重要计算机视觉学术会议的大奖,今年颁给了自动驾驶的大模型研究,获奖的还是国内团队。

北京时间今天凌晨,正在加拿大温哥华举行的国际计算机视觉顶会 CVPR 2023 正式公布了最佳论文等奖项。今年共有 5 篇论文获奖,其中两篇最佳论文,一篇最佳学生论文,另外还有一篇最佳学生论文提名和一篇最佳论文提名

其中,上海人工智能实验室(上海 AI 实验室)、武汉大学及商汤科技联合提出的《Planning-oriented Autonomous Driving》(以路径规划为导向的自动驾驶)从 9155 篇作品中脱颖而出,获得本届 CVPR 最佳论文奖(Best Paper Award)。

据悉,《Planning-oriented Autonomous Driving》为近十年来计算机视觉三大顶级会议(CVPR、ICCV、ECCV)第一篇来自中国研究机构的最佳论文奖。

除了获奖论文,大会还同时颁布了包括时间检验奖在内的 PAMITC 奖的三个奖项。

  • 最佳论文: Visual Programming: Compositional visual reasoning without training
  • 作者: Tanmay Gupta, Aniruddha Kembhavi (Author Q&A)


  • 最佳论文: Planning-oriented Autonomous Driving
  • 作者: Yihan Hu, Jiazhi Yang, Li Chen, Keyu Li, Chonghao Sima, Xizhou Zhu, Siqi Chai, Senyao Du, Tianwei Lin, Wenhai Wang, Lewei Lu, Xiaosong Jia, Qiang Liu, Jifeng Dai, Yu Qiao, Hongyang Li (Author Q&A)


  • 最佳论文提名: DynIBaR: Neural Dynamic Image-Based Rendering
  • 作者: Zhengqi Li, Qianqian Wang, Forrester Cole, Richard Tucker, Noah Snavely


  • 最佳学生论文: 3D Registration with Maximal Cliques
  • 作者:Xiyu Zhang, Jiaqi Yang, Shikun Zhang, Yanning Zhang


  • 最佳学生论文提名:DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
  • 作者:Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, Kfir Aberman


作为计算机视觉领域的顶级会议,今年的 CVPR 意义重要。回到线下第二年,大会恢复了数年前人山人海的盛况。


据数据统计,今年来自 75 个国家和地区的 8337 人报名参会。

在论文数据方面,在 9155 篇提交的论文中,最终有 2359 篇被接收,整体接收率为 25.78%。相比于 CVPR 2022 的 25.28% 接收率,今年的论文接收率基本持平,但总体投稿数量增加了约 12%。

大会的评审方式每年也在进步:由于今年的 CVPR 大会实行单轨制(Single Track),会议取消了 Oral 论文的评选,共评选出了 235 篇 Highlight 论文(接收论文的前 10%,提交论文的前 2.6%)。

在人们讨论的话题上,我们也看到了有趣的发展,最近一段时间科技领域不断创造突破的生成式 AI 成为了重要新方向。在获奖和入围的论文中,既有通用大模型,也有 AI 画图。

最佳论文

今年 CVPR 2023 总共评选出两篇最佳论文。

论文 1:《Planning-oriented Autonomous Driving》

第一篇最佳论文是上海人工智能实验室(上海 AI 实验室)、武汉大学及商汤科技联合提出的《Planning-oriented Autonomous Driving》。

上海 AI 实验室联合团队获 CVPR 2023 最佳论文奖。



论文介绍:在今年的 CVPR 最佳论文中,该论文提出的 UniAD 框架为业界首个感知决策一体化的自动驾驶通用大模型,开创了以全局任务为目标的自动驾驶架构先河,为自动驾驶大模型技术与产业的发展提出了新的指引方向。

UniAD:业界首个感知决策一体化的自动驾驶大模型。

在 UniAD 中,研究人员首次将感知、预测和规划等三大类主任务、六小类子任务(目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划)整合到统一的基于 Transformer 的端到端网络框架下,实现了全栈关键任务驾驶通用模型。

以下案例展示了 UniAD 在数据集 nuScenes 上多个复杂场景下的优势。

在晴天直行场景中,UniAD 可以感知左前方等待的黑色车辆,预测其未来轨迹(即将左转驶入自车的车道),并立即减速以进行避让,待黑车驶离后再恢复正常速度直行。

在雨天转弯场景中,即便面对视野干扰较大且场景复杂的十字路口,UniAD 能通过分割模块生成十字路口的整体道路结构(如右侧 BEV 图中的绿色分割结果所示),并完成大幅度的左转。

在夜晚视野变暗的情况下,UniAD 能感知到前车并完成先静止,后左转的规划。

UniAD 首次将检测、跟踪、建图、轨迹预测,占据栅格预测以及规划,整合到一个基于 Transformer 的端到端网络框架下。在 nuScenes 真实场景数据集下,UniAD 的所有任务均达到领域最佳性能(State-of-the-art),尤其是预测和规划效果远超之前的最佳方案。其中,多目标跟踪准确率超越 SOTA 20%,车道线预测准确率提升 30%,预测运动位移和规划的误差则分别降低了 38% 和 28%。

作为首个实现感知决策一体化的端到端自动驾驶解决方案,UniAD 实现了对自动驾驶五大核心任务模块的有效融合,真正实现端到端的自动驾驶,能更好地协助进行行车规划,实现「多任务」和「高性能」,确保车辆行驶的可靠和安全。基于此,UniAD 具有极大的应用落地潜力和价值。

另外,除了这篇最佳论文,上海AI Lab和商汤科技还有一篇论文获得最佳论文候选,他们也共有54篇论文被接收。


论文 2:《Visual Programming: Compositional visual reasoning without training》

第二篇最佳论文颁给了由艾伦人工智能研究所发表的《Visual Programming: Compositional visual reasoning without training》。


论文介绍:该研究提出了一种新的神经符号方法 VISPROG,用于根据自然语言指令解决复杂且组合性的视觉任务。

VISPROG 无需对任何特定任务进行专门训练。相反,它利用大型语言模型的上下文学习能力生成类似 Python 的模块化程序,然后执行这些程序以获得解决方案和全面且可解释的理由。

生成的程序的每一行可以调用多个现成的计算机视觉模型、图像处理子程序或 Python 函数,以生成可能被程序的后续部分使用的中间输出。

如下图所示,在不观察图像及其内容的情况下,VISPROG 生成一个程序(图 3 底部),可以在输入图像上执行所述任务。


VISPROG 目前支持 20 个模块(见图 2),用于实现图像理解、图像操作(包括生成)、知识检索以及执行算术和逻辑操作等功能。

在 VISPROG 中,每个模块都被实现为一个 Python 类(见代码 1):

最后,该研究在四个不同的任务上展示了 VISPROG 的灵活性,包括组合性视觉问答、图像对的零样本推理、事实知识对象标记和语言引导的图像编辑。

最佳学生论文

今年的最佳学生论文颁发给了西北工业大学(Northwestern Polytechnic University)的 Xiyu Zhang、张艳宁等人。他们的论文论文题目是《3D Registration with Maximal Cliques》。

论文链接:https://arxiv.org/pdf/2305.10854.pdf


相关文章
|
13天前
|
人工智能 自然语言处理 算法
谷歌DeepMind研究再登Nature封面,隐形水印让AI无所遁形
近日,谷歌DeepMind团队在《自然》期刊上发表了一项名为SynthID-Text的研究成果。该方法通过引入隐形水印,为大型语言模型(LLM)生成的文本添加统计签名,从而实现AI生成文本的准确识别和追踪。SynthID-Text采用独特的Tournament采样算法,在保持文本质量的同时嵌入水印,显著提高了水印检测率。实验结果显示,该方法在多个LLM中表现出色,具有广泛的应用潜力。论文地址:https://www.nature.com/articles/s41586-024-08025-4。
50 26
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架,基于大型语言模型,能够加速科学发现、降低成本并提高研究质量。
101 23
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
|
10天前
|
数据采集 人工智能 算法
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。
49 20
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
|
6天前
|
人工智能
Scaling Laws终结,量化无用,AI大佬都在审视这篇论文
《Scaling Laws for Precision》论文提出“精度感知”的扩展理论,将精度纳入模型发展的核心考量,弥补了传统AI模型发展理论忽视精度的不足。研究发现低精度训练会降低模型的有效参数计数,影响性能,并预测了低精度训练和后训练量化带来的损失。作者通过大量实验验证了理论的可靠性和有效性,为计算资源有限情况下如何平衡模型规模和精度提供了新思路。然而,该研究也引发了关于精度与性能权衡复杂性的争议。
46 27
|
20天前
|
机器学习/深度学习 人工智能 算法
Enhance-A-Video:上海 AI Lab 推出视频生成质量增强算法,显著提升 AI 视频生成的真实度和细节表现
Enhance-A-Video 是由上海人工智能实验室、新加坡国立大学和德克萨斯大学奥斯汀分校联合推出的视频生成质量增强算法,能够显著提升视频的对比度、清晰度和细节真实性。
65 8
Enhance-A-Video:上海 AI Lab 推出视频生成质量增强算法,显著提升 AI 视频生成的真实度和细节表现
|
1月前
|
数据采集 人工智能 编解码
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
书生·万象InternVL 2.5是由上海AI实验室OpenGVLab团队推出的开源多模态大语言模型系列。该模型在多模态理解基准(MMMU)上表现优异,超越了许多商业模型,适用于图像和视频分析、视觉问答、文档理解和多语言处理等多个领域。
109 7
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
AI自己长出了类似大脑的脑叶?新研究揭示LLM特征的惊人几何结构
近年来,大型语言模型(LLM)的内部运作机制备受关注。麻省理工学院的研究人员在论文《The Geometry of Concepts: Sparse Autoencoder Feature Structure》中,利用稀疏自编码器(SAE)分析LLM的激活空间,揭示了其丰富的几何结构。研究发现,特征在原子、大脑和星系三个尺度上展现出不同的结构,包括晶体结构、中尺度模块化结构和大尺度点云结构。这些发现不仅有助于理解LLM的工作原理,还可能对模型优化和其他领域产生重要影响。
70 25
|
1月前
|
人工智能 vr&ar
GeneMAN:上海AI Lab联合北大等高校推出的3D人体模型创建框架
GeneMAN是由上海AI实验室、北京大学、南洋理工大学和上海交通大学联合推出的3D人体模型创建框架。该框架能够从单张图片中生成高保真度的3D人体模型,适用于多种应用场景,如虚拟试衣、游戏和娱乐、增强现实和虚拟现实等。
73 7
GeneMAN:上海AI Lab联合北大等高校推出的3D人体模型创建框架
|
4天前
|
人工智能 运维 物联网
云大使 X 函数计算 FC 专属活动上线!享返佣,一键打造 AI 应用
如今,AI 技术已经成为推动业务创新和增长的重要力量。但对于许多企业和开发者来说,如何高效、便捷地部署和管理 AI 应用仍然是一个挑战。阿里云函数计算 FC 以其免运维的特点,大大降低了 AI 应用部署的复杂性。用户无需担心底层资源的管理和运维问题,可以专注于应用的创新和开发,并且用户可以通过一键部署功能,迅速将 AI 大模型部署到云端,实现快速上线和迭代。函数计算目前推出了多种规格的云资源优惠套餐,用户可以根据实际需求灵活选择。
|
13天前
|
机器学习/深度学习 人工智能 算法
AI在体育分析与预测中的深度应用:变革体育界的智能力量
AI在体育分析与预测中的深度应用:变革体育界的智能力量
79 31

热门文章

最新文章