7 Papers & Radios | CVPR 2022最佳/最佳学生论文;大型语言模型教会智能体进化(1)

简介: 7 Papers & Radios | CVPR 2022最佳/最佳学生论文;大型语言模型教会智能体进化

本周重要论文包括:CVPR 2022各种获奖论文。


目录

  1. Learning to Solve Hard Minimal Problems
  2. Dual-Shutter Optical Vibration Sensing
  3. EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation
  4. Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields
  5. Self-supervised Transparent Liquid Segmentation for Robotic Pouring
  6. Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization
  7. Evolution through Large Models
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:Learning to Solve Hard Minimal Problems


摘要:该研究提出了一种在 RANSAC 框架中解决困难的几何优化问题的方法。最小化问题源于将原始几何优化问题松弛化为具有许多虚假解决方案的最小问题。该研究提出的方法避免了计算大量虚假解决方案。
研究者设计了一种学习策略,用于选择初始问题 - 解决方案对以用数值方法继续解决原问题。该研究通过创建一个 RANSAC 求解器来演示所提方法,该求解器通过使用每个视图中的 4 个点进行最小松弛化来计算 3 个校准相机的相对位姿。平均而言,该方法可以在 70 μs、内解决一个原始问题。此外,该研究还针对校准相机的相对位姿这一问题进行了基准测试和研究。

内部 RANSAC 循环为数据样本 p 找到最佳解决方案。

(a) 映射到问题空间 P 的问题解决流形 M;(b) 数值 HC 方法。

分类器评估。

推荐:CVPR 2022 最佳论文。

论文 2:Dual-Shutter Optical Vibration Sensing


摘要:视觉振动测量是一种非常有用的工具,可用于远程捕捉音频、材料物理属性、人体心率等。虽然视觉上可观察的振动可以通过高速相机直接捕捉,通过将激光束照射振动表面所产生的散斑图案的位移成像,可以从光学上放大微小且不易察觉的物体振动。

在本文中,研究者提出了一种在高速(高达 63 kHz)下同时检测多个场景源振动的新方法,该方法使用额定工作频率仅为 130Hz 的传感器。他们的方法使用两个分别配备滚动和全局快门传感器的相机来同时捕捉场景,其中滚动快门相机捕捉到对高速物体振动进行编码的失真散斑图像,全局快门相机捕捉散斑图案的未失真参考图像,从而有助于对源振动进行解码。最后,研究者通过捕捉音频源(如扬声器、人声和乐器)引起的振动并分析音叉的振动模式,展示了他们的方法。

研究者用一种新颖的方法「看到」(seeing)声音。

(a) 成像散焦散斑;(b) 双快门成像系统示意图。

双快门相机定时。

推荐:CVPR 2022 最佳论文提名。

论文 3:EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation


摘要:利用透视点(PnP)基数从单个 RGB 图像中定位 3D 物体是计算机视觉领域一个长期存在的问题。在端到端深度学习的驱动下,近期的研究建议将 PnP 解释为一个可微分层,如此 2D-3D 点对应就可以部分地通过反向传播梯度 w.r.t. 物体姿态来学习。然而,从零开始学习整套不受限的 2D-3D 点在现有的方法下很难收敛,因为确定性的姿态本质上是不可微的。

这篇论文提出了一种用于普遍端到端姿态估计的概率 PnP 层 ——EPro-PnP(end-to-end probabilistic PnP),它在 SE 流形上输出姿态的分布,实质地将分类 Softmax 带入连续域。2D-3D 坐标和相应的权值作为中间变量,通过最小化预测姿态与目标姿态分布之间的 KL 散度来学习。其基本原理统一了现有的方法,类似于注意力机制。EPro-PnP 的性能明显优于其他基准,缩小了基于 PnP 的方法与基于 LineMOD 6DoF 的姿态估计以及 nuScenes 3D 目标检测基准的特定任务方法之间的差距。

EPro-PnP 方法概览。

学习离散分类器 vs 学习连续姿态分布。

算法 1:基于 AMIS 的蒙特卡洛姿态损失。

推荐:CVPR 2022 最佳学生论文。

论文 4:Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields


摘要:神经辐射场是一种流行的视图合成技术,它将场景表示为连续的体积函数,由多层感知器参数化,多层感知器提供每个位置的体积密度和与视图相关的散发辐射。虽然基于 NeRF 的方法擅长表征平滑变化的外观几何结构,但它们通常无法准确捕捉和再现光泽表面的外观。
该研究提出了 Ref-NeRF 来解决这个问题,它将 NeRF 与视图相关的散发辐射的参数化替换为反射辐射的表征,并使用空间变化的场景属性的集合来构造该函数。该研究表明,使用法向量上的正则化器,新模型显著提高了镜面反射的真实性和准确性。此外,该研究还表明该模型对散发辐射的内部表征是可解释的,这对于场景编辑非常有用。

与以往表现最好的神经视图合成模型 mip-NeRF 相比,Ref-NeRF 显著提升了法向量(最上行)和视觉真实性(余下行)。

mip-NeRF(上)和 Ref-NeRF(下)的架构图比较。

Ref-NeRF 渲染出准确的光鲜表面,覆盖精细几何细节。

推荐:CVPR 2022 最佳学生论文提名。

相关文章
|
人工智能 自然语言处理 安全
【网安AIGC专题10.19】论文3代码生成:ChatGPT+自协作代码生成+角色扮演(分析员、程序员、测试员)+消融实验、用于MBPP+HumanEval数据集
【网安AIGC专题10.19】论文3代码生成:ChatGPT+自协作代码生成+角色扮演(分析员、程序员、测试员)+消融实验、用于MBPP+HumanEval数据集
442 0
|
机器学习/深度学习 人工智能 自然语言处理
清华EconAgent获ACL 2024杰出论文:大模型智能体革新计算经济学研究范式
近年来,人工智能的迅猛发展推动了数据驱动建模在宏观经济学领域的应用。清华大学研究团队提出的EconAgent模型,基于大型语言模型,具备类似人类的决策能力,能更准确地模拟个体行为对宏观经济系统的影响。EconAgent在个体异质性、市场动态及宏观经济因素模拟方面表现出色,并具有更好的可解释性和灵活性。然而,其高计算复杂度和部分决策过程的不透明性仍需进一步解决。该成果已在ACL 2024会议上获得杰出论文奖。论文链接:https://arxiv.org/abs/2310.10436v4
553 3
|
人工智能 算法 安全
打通智能体自我进化全流程!复旦推出通用智能体平台AgentGym
【6月更文挑战第21天】复旦大学推出AgentGym平台,聚焦通用智能体的自我进化。该平台提供多样环境及任务,使用AgentEvol算法让智能体在学习中进化,提升泛化能力。实验显示智能体性能媲美先进模型,但计算效率和模型扩展性仍是挑战。平台强调伦理安全,推动智能体发展同时确保与人类价值观一致。[论文链接](https://arxiv.org/abs/2406.04151)
710 5
|
存储 机器学习/深度学习 测试技术
[大语言模型-论文精读] 以《黑神话:悟空》为研究案例探讨VLMs能否玩动作角色扮演游戏?
[大语言模型-论文精读] 以《黑神话:悟空》为研究案例探讨VLMs能否玩动作角色扮演游戏?
|
机器学习/深度学习 人工智能 自然语言处理
强化学习从基础到进阶–案例与实践[11]:AlphaStar论文解读、监督学习、强化学习、模仿学习、多智能体学习、消融实验
强化学习从基础到进阶–案例与实践[11]:AlphaStar论文解读、监督学习、强化学习、模仿学习、多智能体学习、消融实验
强化学习从基础到进阶–案例与实践[11]:AlphaStar论文解读、监督学习、强化学习、模仿学习、多智能体学习、消融实验
|
机器学习/深度学习 存储 人工智能
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
361 0
|
存储 人工智能 自然语言处理
爆火论文打造《西部世界》雏形:25个AI智能体,在虚拟小镇自由成长(2)
爆火论文打造《西部世界》雏形:25个AI智能体,在虚拟小镇自由成长
480 0
|
存储 人工智能 自然语言处理
爆火论文打造《西部世界》雏形:25个AI智能体,在虚拟小镇自由成长
爆火论文打造《西部世界》雏形:25个AI智能体,在虚拟小镇自由成长
449 0
|
机器学习/深度学习 自然语言处理 算法
7 Papers & Radios | CVPR 2022最佳/最佳学生论文;大型语言模型教会智能体进化(2)
7 Papers & Radios | CVPR 2022最佳/最佳学生论文;大型语言模型教会智能体进化
327 0
|
存储 人工智能 自然语言处理
AI经营|多Agent择优生成商品标题
商品标题中关键词的好坏是商品能否被主搜检索到的关键因素,使用大模型自动优化标题成为【AI经营】中的核心能力之一,本文讲述大模型如何帮助商家优化商品素材,提升商品竞争力。
1553 62
AI经营|多Agent择优生成商品标题

热门文章

最新文章