同济、阿里获CVPR最佳学生论文,李飞飞获黄煦涛奖,近6000人线下参会(2)

简介: 同济、阿里获CVPR最佳学生论文,李飞飞获黄煦涛奖,近6000人线下参会

最佳学生论文

今年获得最佳学生论文奖项的是《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation》,作者来自阿里巴巴、同济大学。



论文摘要:利用透视点(PnP)基数从单个 RGB 图像中定位 3D 物体是计算机视觉领域一个长期存在的问题。在端到端深度学习的驱动下,近期的研究建议将 PnP 解释为一个可微分层,如此 2D-3D 点对应就可以部分地通过反向传播梯度 w.r.t. 物体姿态来学习。然而,从零开始学习整套不受限的 2D-3D 点在现有的方法下很难收敛,因为确定性的姿态本质上是不可微的。

这篇论文提出了一种用于普遍端到端姿态估计的概率 PnP 层——EPro-PnP(end-to-end probabilistic PnP),它在 SE 流形上输出姿态的分布,实质地将分类 Softmax 带入连续域。2D-3D 坐标和相应的权值作为中间变量,通过最小化预测姿态与目标姿态分布之间的 KL 散度来学习。其基本原理统一了现有的方法,类似于注意力机制。EPro-PnP 的性能明显优于其他基准,缩小了基于 PnP 的方法与基于 LineMOD 6DoF 的姿态估计以及 nuScenes 3D 目标检测基准的特定任务方法之间的差距。

EPro-PnP 方法概览。

最佳学生论文提名

今年的最佳学生论文提名由哈佛大学和谷歌研究院的论文《Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields》获得。



论文摘要:神经辐射场是一种流行的视图合成技术,它将场景表示为连续的体积函数,由多层感知器参数化,多层感知器提供每个位置的体积密度和与视图相关的散发辐射。虽然基于 NeRF 的方法擅长表征平滑变化的外观几何结构,但它们通常无法准确捕捉和再现光泽表面的外观。该研究提出了 Ref-NeRF 来解决这个问题,它将 NeRF 与视图相关的散发辐射的参数化替换为反射辐射的表征,并使用空间变化的场景属性的集合来构造该函数。该研究表明,使用法向量上的正则化器,新模型显著提高了镜面反射的真实性和准确性。此外,该研究还表明该模型对散发辐射的内部表征是可解释的,这对于场景编辑非常有用。

与以往表现最好的神经视图合成模型 mip-NeRF 相比,Ref-NeRF 显著提升了法向量(最上行)和视觉真实性(余下行)。

其他奖项

Longuet-Higgins 奖

Longuet-Higgins 奖是 IEEE 计算机协会模式分析与机器智能(PAMI)技术委员会在每年的 CVPR 颁发的「计算机视觉基础贡献奖」,表彰十年前对计算机视觉研究产生了重大影响的 CVPR 论文。该奖项以理论化学家和认知科学家 H. Christopher Longuet-Higgins 命名。

今年的获奖论文为 2012 年发表的《Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite》,当时三位作者中的 Andreas Geiger 和 Philip Lenz 来自卡尔斯鲁厄理工学院, Raquel Urtasun 来自丰田工业大学芝加哥分校。

图源:推特用户 @Kosta Derpanis

论文地址:http://www.cvlibs.net/publications/Geiger2012CVPR.pdf

在本文中,研究者利用他们自己的自动驾驶平台为立体、光流、视觉测程 / SLAM 和 3D 目标检测等任务开发了一个新的具有挑战性的基准。他们的记录平台配备了 4 台高分辨率摄像机、1 台 Velodyne 激光扫描仪和 1 个 SOTA 定位系统,基准则包括 389 个立体和光流图像对、39.2km 长的立体视觉测程序列以及在杂乱场景中捕获的超过 20 万个 3D 目标注释(每张图像最多可见 15 辆车和 30 名行人)。

左上为配备了传感器的记录平台,中上为来自研究者视觉测程基准中的轨迹、右上为视差和光流图、下方为 3D 目标标签。

青年研究者奖

青年研究者奖(Young Researcher Awards)旨在表彰年轻的科学家,鼓励 ta 们继续做出开创性的工作。评选标准是获奖者获得博士学位的年限少于 7 年。

今年获得该奖项的研究者分别是 Bharath Hariharan 和 Olga Russakovsky。

图源:推特用户 @Kosta Derpanis

Bharath Hariharan 为康奈尔大学计算机科学系助理教授,从事计算机视觉和机器学习方面的工作,尤其是那些无视大数据标签的重要问题。Hariharan 主要研究方向为将机器学习的进步与计算机视觉、几何和特定领域知识的见解结合起来。

目前,Hariharan 所在团队正在致力于构建一个系统,该系统可以在很少或没有监督的情况下了解数以万计的视觉概念,产生丰富而详细的输出,比如精确的 3D 形状,并对世界进行推理,将这种推理传递给人类。

他在 Google Scholar 上的论文被引量达到 25242,h 指数为 38。

个人主页:http://home.bharathh.info/
Olga Russakovsky 为普林斯顿大学计算机科学系助理教授,致力于开发能够对视觉世界进行推理的人工智能系统。Russakovsky 主要研究方向为计算机视觉、人机交互等领域。她的多篇论文被 ECCV、CVPR 等接收。

她在 Google Scholar 上的论文被引量达到 34756,h 指数为 25。

个人主页:https://www.cs.princeton.edu/~olgarus/

Thomas S. Huang 纪念奖

为了纪念去世的 Thomas S. Huang(黄煦涛)教授,PAMITC 奖励委员会去年批准设立 Thomas S. Huang 纪念奖,以表彰在 CV 研究、教育和服务方面被公认为楷模的研究人员。该奖项从 2021 年开始颁发。获奖者需要拿到博士学位至少 7 年,最好处于职业发展中期(不超过 25 年)。

本届 Thomas S. Huang 纪念奖的获奖者是斯坦福大学教授李飞飞。

图源:推特用户 @Kosta Derpanis

李飞飞为斯坦福大学计算机科学教授,美国工程院院士,美国国家医学院院士。她的专业领域是计算机视觉和认知神经科学。2016 年,李飞飞加入 Google 云端人工智能暨机器学习的中国中心团队,以 Google Cloud 首席科学家身份任团队负责人之一。2018 年 9 月,她宣布返回斯坦福大学任教,并持续参与斯坦福大学的 AI 议题研究。

李飞飞的工作包括括受认知启发的 AI,机器学习,深度学习,计算机视觉和 AI + 医疗保健,尤其是用于医疗保健交付的环境智能系统。她还从事认知和计算神经科学方面的工作。她发明了 ImageNet 和 ImageNet Challenge,其中 ImageNet Challenge 是一项重要的大规模数据集和基准测试工作。

她在 Google Scholar 上的论文被引量达到 167561,h 指数为 128。

个人主页:https://profiles.stanford.edu/fei-fei-li

相关文章
|
存储 大数据 数据处理
PHP 与大数据:构建高效数据处理系统
传统的数据处理系统往往难以应对大规模数据的处理需求,而PHP作为一种常用的服务器端脚本语言,在数据处理方面也有其独特的优势。本文将探讨如何利用PHP构建高效的大数据处理系统,结合实际案例分析其应用场景及优势所在。
406 28
|
3月前
|
数据采集 安全 算法
2024第十五届蓝桥杯网络安全赛道省赛题目writeup(包含理论题、web、crypto、misc、reverse、pwn)
本文是2024年第十五届蓝桥杯网络安全赛道CTF真题赛题详解。主要内容包括PHP运算符、代码审计、爬虫协议、流量分析、AES/RSA加密、DWT盲水印、逆向工程、栈溢出和堆漏洞利用等技术点。其中,爬虫协议题目通过访问robots.txt获取flag;流量分析题目使用Wireshark导出HTTP对象并解密base64数据;逆向工程题目分析RC4和XXTEA算法;Pwn题目利用栈溢出和UAF漏洞实现攻击。文章详细记录了每道题的解题思路和具体步骤。
2024第十五届蓝桥杯网络安全赛道省赛题目writeup(包含理论题、web、crypto、misc、reverse、pwn)
replaceAll 的用法总结
replaceAll 的用法总结
|
存储 监控 物联网
计算机网络的应用
计算机网络已深入现代生活的多个方面,包括通信与交流(电子邮件、即时通讯、社交媒体)、媒体与娱乐(在线媒体、在线游戏)、商务与经济(电子商务、远程办公)、教育与学习(在线教育平台)、物联网与智能家居、远程服务(远程医疗、智能交通系统)及数据存储与处理(云计算、数据共享与分析)。这些应用极大地方便了人们的生活,促进了社会的发展。
731 2
计算机网络的应用
|
12月前
|
JavaScript 前端开发
【JavaScript】——JS基础入门常见操作(大量举例)
JS引入方式,JS基础语法,JS增删查改,JS函数,JS对象
|
人工智能 JSON 自然语言处理
基于文档智能&RAG搭建更懂业务的AI大模型
本文介绍了一种结合文档智能和检索增强生成(RAG)技术,构建强大LLM知识库的方法。通过清洗文档内容、向量化处理和特定Prompt,提供足够的上下文信息,实现对企业级文档的智能问答。文档智能(Document Mind)能够高效解析多种文档格式,确保语义的连贯性和准确性。整个部署过程简单快捷,适合处理复杂的企业文档,提升信息提取和利用效率。
计算机硬件清洁与防尘
【8月更文挑战第2天】
878 1
STM32F103C8 TIM输出比较与PWM
STM32F103C8 TIM输出比较与PWM
298 0
|
数据可视化 测试技术 uml
UML概述及UML图详解
UML概述及UML图详解
692 1
UML概述及UML图详解
|
Java 测试技术 API
Spring Boot之Restful服务与Swagger框架:构建易用的API文档与测试工具
本篇详细介绍了如何在Spring Boot应用中构建Restful服务,并结合Swagger框架实现自动生成API文档和提供API测试工具的方法。通过编写Controller类定义Restful API,以及配置Swagger框架,读者可以轻松地生成API文档和进行API测试,从而提升开发效率和项目可维护性。该博文帮助读者了解了如何使用Spring Boot和Swagger框架来简化API文档编写和测试的过程,为Web应用开发提供了有力的支持。
522 2
Spring Boot之Restful服务与Swagger框架:构建易用的API文档与测试工具