7 Papers & Radios | CVPR 2022最佳/最佳学生论文；大型语言模型教会智能体进化（1）-阿里云开发者社区

7 Papers & Radios | CVPR 2022最佳/最佳学生论文；大型语言模型教会智能体进化（1）

2023-05-16 186

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 7 Papers & Radios | CVPR 2022最佳/最佳学生论文；大型语言模型教会智能体进化

本周重要论文包括：CVPR 2022各种获奖论文。

Learning to Solve Hard Minimal Problems
Dual-Shutter Optical Vibration Sensing
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation
Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields
Self-supervised Transparent Liquid Segmentation for Robotic Pouring
Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization
Evolution through Large Models
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：Learning to Solve Hard Minimal Problems

作者：Petr Hruby等
论文链接：https://arxiv.org/abs/2112.03424

摘要：该研究提出了一种在 RANSAC 框架中解决困难的几何优化问题的方法。最小化问题源于将原始几何优化问题松弛化为具有许多虚假解决方案的最小问题。该研究提出的方法避免了计算大量虚假解决方案。
研究者设计了一种学习策略，用于选择初始问题 - 解决方案对以用数值方法继续解决原问题。该研究通过创建一个 RANSAC 求解器来演示所提方法，该求解器通过使用每个视图中的 4 个点进行最小松弛化来计算 3 个校准相机的相对位姿。平均而言，该方法可以在 70 μs、内解决一个原始问题。此外，该研究还针对校准相机的相对位姿这一问题进行了基准测试和研究。

内部 RANSAC 循环为数据样本 p 找到最佳解决方案。

(a) 映射到问题空间 P 的问题解决流形 M；(b) 数值 HC 方法。

分类器评估。

推荐：CVPR 2022 最佳论文。

论文 2：Dual-Shutter Optical Vibration Sensing

作者：Mark Sheinin 等
论文链接：https://openaccess.thecvf.com/content/CVPR2022/papers/Sheinin_Dual-Shutter_Optical_Vibration_Sensing_CVPR_2022_paper.pdf

摘要：视觉振动测量是一种非常有用的工具，可用于远程捕捉音频、材料物理属性、人体心率等。虽然视觉上可观察的振动可以通过高速相机直接捕捉，通过将激光束照射振动表面所产生的散斑图案的位移成像，可以从光学上放大微小且不易察觉的物体振动。

在本文中，研究者提出了一种在高速（高达 63 kHz）下同时检测多个场景源振动的新方法，该方法使用额定工作频率仅为 130Hz 的传感器。他们的方法使用两个分别配备滚动和全局快门传感器的相机来同时捕捉场景，其中滚动快门相机捕捉到对高速物体振动进行编码的失真散斑图像，全局快门相机捕捉散斑图案的未失真参考图像，从而有助于对源振动进行解码。最后，研究者通过捕捉音频源（如扬声器、人声和乐器）引起的振动并分析音叉的振动模式，展示了他们的方法。

研究者用一种新颖的方法「看到」（seeing）声音。

(a) 成像散焦散斑；(b) 双快门成像系统示意图。

双快门相机定时。

推荐：CVPR 2022 最佳论文提名。

论文 3：EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation

作者：Hansheng Chen 等
论文链接：https://arxiv.org/pdf/2203.13254.pdf

摘要：利用透视点（PnP）基数从单个 RGB 图像中定位 3D 物体是计算机视觉领域一个长期存在的问题。在端到端深度学习的驱动下，近期的研究建议将 PnP 解释为一个可微分层，如此 2D-3D 点对应就可以部分地通过反向传播梯度 w.r.t. 物体姿态来学习。然而，从零开始学习整套不受限的 2D-3D 点在现有的方法下很难收敛，因为确定性的姿态本质上是不可微的。

这篇论文提出了一种用于普遍端到端姿态估计的概率 PnP 层 ——EPro-PnP（end-to-end probabilistic PnP），它在 SE 流形上输出姿态的分布，实质地将分类 Softmax 带入连续域。2D-3D 坐标和相应的权值作为中间变量，通过最小化预测姿态与目标姿态分布之间的 KL 散度来学习。其基本原理统一了现有的方法，类似于注意力机制。EPro-PnP 的性能明显优于其他基准，缩小了基于 PnP 的方法与基于 LineMOD 6DoF 的姿态估计以及 nuScenes 3D 目标检测基准的特定任务方法之间的差距。

EPro-PnP 方法概览。

学习离散分类器 vs 学习连续姿态分布。

算法 1：基于 AMIS 的蒙特卡洛姿态损失。

推荐：CVPR 2022 最佳学生论文。

论文 4：Ref-NeRF: Structured View-Dependent Appearance for Neural Radiance Fields

作者：Dor Verbin 等
论文链接：https://arxiv.org/pdf/2112.03907.pdf

摘要：神经辐射场是一种流行的视图合成技术，它将场景表示为连续的体积函数，由多层感知器参数化，多层感知器提供每个位置的体积密度和与视图相关的散发辐射。虽然基于 NeRF 的方法擅长表征平滑变化的外观几何结构，但它们通常无法准确捕捉和再现光泽表面的外观。
该研究提出了 Ref-NeRF 来解决这个问题，它将 NeRF 与视图相关的散发辐射的参数化替换为反射辐射的表征，并使用空间变化的场景属性的集合来构造该函数。该研究表明，使用法向量上的正则化器，新模型显著提高了镜面反射的真实性和准确性。此外，该研究还表明该模型对散发辐射的内部表征是可解释的，这对于场景编辑非常有用。