预训练语言模型将屠榜CV？知乎热议：CVPR研究热点有哪些？3D任务热度持续飙升，无监督和自监督成新宠-阿里云开发者社区

预训练语言模型将屠榜CV？知乎热议：CVPR研究热点有哪些？3D任务热度持续飙升，无监督和自监督成新宠

2022-01-09 589

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： CVPR成了人工智能研究领域的风向标。以最近刚刚公布的CVPR 2020录取情况来看，目前主流的热点研究问题有哪些较大的进展？相较于去年，研究热点的热度有哪些变化？未来的研究趋势会是什么呢？本文为您梳理脉络。

微信图片_20220109120106.png

CVPR成了人工智能研究领域的风向标。

CVPR的论文不仅能够反映当下哪些领域比较热门，甚至还能让我们了解未来人工智能各领域的发展趋势。就拿有史以来投稿最多、接受数量最多的CVPR 2020来说，自监督和3D就成了「热搜」。

2D图像相关的研究，一方面受限于数据集，刷榜的只能是大厂或者有超强算力的研究机构；另一方面像ResNet等大型深层神经网络结构也日趋完善，单独做二维图像检测和识别的创新性工作已经很少了。

基于点云，或者单一图片的三维重建，也是一个大热的方向。今年的最佳论文也是从单一图片生成3D对象。

以「3D reconstruction」为关键词的论文超过20篇。随着手机等终端的计算能力增强及日益增长的交互需求，信息媒介将从静态图片过渡到动态的3D对象。

微信图片_20220109120108.png

那么CVPR 2020中，具体哪些领域比较热门，哪些领域更有前景呢？最近这个问题也在知乎上被热议，新智元采访了多位优秀回答的答主，希望能够梳理出这个问题的框架。

3D任务热度持续上升，不同模态数据和任务的组合越来越多样

从事人类视觉注意力、图像处理、2D/3D物体检测、视频异常检测、交通事故分析研究多年的罗切斯特理工大学博士生包文韬，特别看好自监督学习和3D任务。

他认为，成熟的视觉任务上将出现更多不同于监督学习的文章。

比如自监督学习、元学习、强化学习、贝叶斯深度学习、终身学习等machine learning算法在cv任务上的应用。目前来看，自监督学习（self-supervised learning）大有可为。

而像few-shot learning， continual learning等新的设定，目前在detection领域还没多少研究。最近也有不少工作用self-supervised learning。

3D任务的热度也在持续上升。CVPR 2020中，3D相关的论文将近200篇。以3D object detection为例，目前rgb+point cloud方案连KITTI这种小数据集的榜单都还没刷饱和，预期单目3D检测以及在nuScenes、BDD等大型自动驾驶数据集上的算法文章会越来越多。

Bert/Transformer等NLP领域的模型，将在更多的CV任务上屠榜，最近fair的DETR就是个很好的风向标。但他也坦言，NLP结合CV的任务，除了image grounding之外，再结合3D场景会更加实用，但可惜目前关注较少。

此外，他也比较看好行为/动作识别与分析方面，并认为未来将出现更多细粒度动作分析文章，比如mmlab的FineGym数据集，包括满分论文也是个很好的风向标。

最后，他认为不同模态数据和任务的组合越来越多样。

比如视频、文本、音频将在captioning，segmentation， prediction，generation，grounding等各种任务上开花。

包文韬个人主页：https://cogito2012.github.io/homepage/

无监督和自监督学习成新宠，BERT在视觉领域开花结果

从事计算机视觉相关研究的知乎网友丶favor认为，self-attention全面替代卷积将成为研究热点，self-attention的剪枝和压缩可能会被做cv的关注。

神经网络架构搜索虽然自身仍存在一些问题，但依旧会是热点。

无监督和自监督学习也会被持续关注。以self-supervised为关键词搜索，有46篇相关论文，而unsupervised更是多达63篇。

微信图片_20220109120112.png

一类dynamic的文章（动态选择推理路径或者卷积核/激活函数）似乎听起来比较实用和划算。

多模态pretrained bert遍地开花，但实际上大同小异，尤其是在自监督任务上。未来可能会往端到端上面靠，参考pixel-bert等。

包括video-bert估计也要遍地开花一波。目标检测，语义分割有种凉凉的感觉，靠着SOTA度日，AP即使刷到55还是觉得凉凉。因此Fair的transformer模型会引起关注。

多模态领域不限于vqa，image captioning，基本被transformer支配了，未来没有新的insight的话将继续被支配。机器人视觉导航好像大多数不是best paper就是oral。所以SLAM未来也是一个不错的方向，而且应用场景很多。

丶favor知乎主页：https://www.zhihu.com/people/zhu-favor

Neural Rendering潜力大、应用范围广，有望重塑交互方式

知乎网友高日日称自己正在从事Neural Rendering方面的工作，他认为这是近几年最有商业潜力的项目之一。 NR技术是结合CG和生成模型建立起来的，目的是追求可控的photo-realistic的效果，无论是做视角合成（NeRF， Synsin)，人脸编辑或者重演（DeepFaceLab， Talking Head等)，还是3D avatar的Relighting(RNR)，都很炫酷而且对交互方式有重大影响。

微信图片_20220109120114.png 微信图片_20220109120115.png

这个领域目前做的最好的是马普所，TUM，牛津的VGG组，ETH还有多伦多大学等等，国内应该是上科大还有港中文有厉害的大佬们在做。

目前我了解到因为在3D参数模型以及可微分渲染这块，被甩的比较大(尤其是马普所大佬们夜以继日的搞出新事情)，衷心希望我们国内也能在这个领域做出有影响力的事情。

他告诉新智元，人脸，人身，AR，VR等都会用到NR这个技术。

可控的，逼真的虚拟人技术，会在AR时代到来的时候派上大用场。而且这不是像安防领域或者自动驾驶领域的单点技术突破，是整体突进，未来甚至可以重塑交互方式！

高日日的知乎主页：https://www.zhihu.com/people/gao-ri-ri-78

Parametrized optimization：更好地表达优化需求

从事ML和CV研究的南洋理工CS博士张驰认为，Parametrized optimization 会是一个有意思的方向。并向大家推荐Brandon Amos的CVPR 2020 Workshop Talk On differentiable optimization for control and vision。

简单来说，就是优化问题里嵌入另一个优化问题，后层的layer的input是这个嵌入的optimization问题的solution，嵌入的optimization problem又由外部的optimization来定义和限制，然后他们还可以一起训练实现梯度传播。

这种模型的好处在于我们可以通过一个sub optimization problem更好地表达优化需求，植入到网络学习中。

列举一个graph matching问题。假如没有node correspondence的信息，但是又想基于matching的结果来进一步学习（比如学习node feature），怎么实现？

首先要求解一个matching的optimization problem，这样就有个correspondence的信息，然后再基于matching的结果做运算。他自己的论文DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning就在从事相关的工作。

微信图片_20220109120117.png

最后，他还推荐了《QPTH：A fast and differentiable QP solver for PyTorch》和《Differentiation of Blackbox Combinatorial Solvers》，不用自己写复杂的梯度传播过程就可以实现上述的功能。

微信图片_20220109120119.png

张驰的知乎主页：https://www.zhihu.com/people/Cogito2012