预训练语言模型将屠榜CV?知乎热议:CVPR研究热点有哪些?3D任务热度持续飙升,无监督和自监督成新宠

简介: CVPR成了人工智能研究领域的风向标。以最近刚刚公布的CVPR 2020录取情况来看,目前主流的热点研究问题有哪些较大的进展?相较于去年,研究热点的热度有哪些变化?未来的研究趋势会是什么呢?本文为您梳理脉络。

微信图片_20220109120106.png


CVPR成了人工智能研究领域的风向标。 


CVPR的论文不仅能够反映当下哪些领域比较热门,甚至还能让我们了解未来人工智能各领域的发展趋势。 就拿有史以来投稿最多、接受数量最多的CVPR 2020来说,自监督和3D就成了「热搜」。 


2D图像相关的研究,一方面受限于数据集,刷榜的只能是大厂或者有超强算力的研究机构;另一方面像ResNet等大型深层神经网络结构也日趋完善,单独做二维图像检测和识别的创新性工作已经很少了。 


基于点云,或者单一图片的三维重建,也是一个大热的方向。今年的最佳论文也是从单一图片生成3D对象。


以「3D reconstruction」为关键词的论文超过20篇。随着手机等终端的计算能力增强及日益增长的交互需求,信息媒介将从静态图片过渡到动态的3D对象。    


微信图片_20220109120108.png


那么CVPR 2020中,具体哪些领域比较热门,哪些领域更有前景呢?最近这个问题也在知乎上被热议,新智元采访了多位优秀回答的答主,希望能够梳理出这个问题的框架。 


3D任务热度持续上升,不同模态数据和任务的组合越来越多样  


微信图片_20220109120110.png


从事人类视觉注意力、图像处理、2D/3D物体检测、视频异常检测、交通事故分析研究多年的罗切斯特理工大学博士生包文韬,特别看好自监督学习和3D任务。


 他认为,成熟的视觉任务上将出现更多不同于监督学习的文章。


比如自监督学习、元学习、强化学习、贝叶斯深度学习、终身学习等machine learning算法在cv任务上的应用。目前来看,自监督学习(self-supervised learning)大有可为。


而像few-shot learning, continual learning等新的设定,目前在detection领域还没多少研究。最近也有不少工作用self-supervised learning。 


3D任务的热度也在持续上升。CVPR 2020中,3D相关的论文将近200篇。以3D object detection为例,目前rgb+point cloud方案连KITTI这种小数据集的榜单都还没刷饱和,预期单目3D检测以及在nuScenes、BDD等大型自动驾驶数据集上的算法文章会越来越多。 


Bert/Transformer等NLP领域的模型,将在更多的CV任务上屠榜,最近fair的DETR就是个很好的风向标。但他也坦言,NLP结合CV的任务,除了image grounding之外,再结合3D场景会更加实用,但可惜目前关注较少。 


此外,他也比较看好行为/动作识别与分析方面,并认为未来将出现更多细粒度动作分析文章,比如mmlab的FineGym数据集,包括满分论文也是个很好的风向标。 


最后,他认为不同模态数据和任务的组合越来越多样。


比如视频、文本、音频将在captioning,segmentation, prediction,generation,grounding等各种任务上开花。 


包文韬个人主页:https://cogito2012.github.io/homepage/ 


无监督和自监督学习成新宠,BERT在视觉领域开花结果


 从事计算机视觉相关研究的知乎网友丶favor认为,self-attention全面替代卷积将成为研究热点,self-attention的剪枝和压缩可能会被做cv的关注。 


神经网络架构搜索虽然自身仍存在一些问题,但依旧会是热点。 


无监督和自监督学习也会被持续关注。以self-supervised为关键词搜索,有46篇相关论文,而unsupervised更是多达63篇。  


微信图片_20220109120112.png


一类dynamic的文章(动态选择推理路径或者卷积核/激活函数)似乎听起来比较实用和划算。


多模态pretrained bert遍地开花,但实际上大同小异,尤其是在自监督任务上。未来可能会往端到端上面靠,参考pixel-bert等。


包括video-bert估计也要遍地开花一波。 目标检测,语义分割有种凉凉的感觉,靠着SOTA度日,AP即使刷到55还是觉得凉凉。因此Fair的transformer模型会引起关注。 


多模态领域不限于vqa,image captioning,基本被transformer支配了,未来没有新的insight的话将继续被支配。 机器人视觉导航好像大多数不是best paper就是oral。所以SLAM未来也是一个不错的方向,而且应用场景很多。 


丶favor知乎主页:https://www.zhihu.com/people/zhu-favor 


Neural Rendering潜力大、应用范围广,有望重塑交互方式


 知乎网友高日日称自己正在从事Neural Rendering方面的工作,他认为这是近几年最有商业潜力的项目之一。 NR技术是结合CG和生成模型建立起来的,目的是追求可控的photo-realistic的效果,无论是做视角合成(NeRF, Synsin), 人脸编辑或者重演(DeepFaceLab, Talking Head等), 还是3D avatar的Relighting(RNR),都很炫酷而且对交互方式有重大影响。  

       

微信图片_20220109120114.png微信图片_20220109120115.png


这个领域目前做的最好的是马普所,TUM,牛津的VGG组,ETH还有多伦多大学等等,国内应该是上科大还有港中文有厉害的大佬们在做。


目前我了解到因为在3D参数模型以及可微分渲染这块,被甩的比较大(尤其是马普所大佬们夜以继日的搞出新事情),衷心希望我们国内也能在这个领域做出有影响力的事情。 


他告诉新智元,人脸,人身,AR,VR等都会用到NR这个技术。


可控的,逼真的虚拟人技术,会在AR时代到来的时候派上大用场。 而且这不是像安防领域或者自动驾驶领域的单点技术突破,是整体突进,未来甚至可以重塑交互方式! 


高日日的知乎主页:https://www.zhihu.com/people/gao-ri-ri-78 


Parametrized optimization:更好地表达优化需求


 从事ML和CV研究的南洋理工CS博士张驰认为,Parametrized optimization 会是一个有意思的方向。并向大家推荐Brandon Amos的CVPR 2020 Workshop Talk On differentiable optimization for control and vision。 


简单来说,就是优化问题里嵌入另一个优化问题,后层的layer的input是这个嵌入的optimization问题的solution,嵌入的optimization problem又由外部的optimization来定义和限制,然后他们还可以一起训练实现梯度传播。 


这种模型的好处在于我们可以通过一个sub optimization problem更好地表达优化需求,植入到网络学习中。 


列举一个graph matching问题。假如没有node correspondence的信息,但是又想基于matching的结果来进一步学习(比如学习node feature),怎么实现?


首先要求解一个matching的optimization problem,这样就有个correspondence的信息,然后再基于matching的结果做运算。 他自己的论文DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning就在从事相关的工作。  

 

微信图片_20220109120117.png


最后,他还推荐了《QPTH:A fast and differentiable QP solver for PyTorch》和《Differentiation of Blackbox Combinatorial Solvers》,不用自己写复杂的梯度传播过程就可以实现上述的功能。  


微信图片_20220109120119.png


张驰的知乎主页:https://www.zhihu.com/people/Cogito2012

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
【NLP】Datawhale-AI夏令营Day4打卡:预训练+微调范式
【NLP】Datawhale-AI夏令营Day4打卡:预训练+微调范式
|
4月前
|
监控 NoSQL PHP
高并发手机直播系统:从直播架构设计开发到搭建部署上线
本文深入剖析高并发直播系统全链路架构与实战:涵盖需求分析、微服务设计、移动端优化、PHP后台性能提升、CentOS环境调优、CDN加速及运维监控,助力打造稳定、低延迟、可扩展的直播平台。
|
机器学习/深度学习 传感器 自动驾驶
未来之路:大模型技术在自动驾驶的应用与影响
本文深入分析了大模型技术在自动驾驶领域的应用和影响,万字长文,慢慢观看~ 文中首先概述了大模型技术的发展历程,自动驾驶模型的迭代路径,以及大模型在自动驾驶行业中的作用。 接着,详细介绍了大模型的基本定义、基础功能和关键技术,特别是Transformer注意力机制和预训练-微调范式。 文章还介绍了大模型在任务适配性、模型变革和应用前景方面的潜力。 在自动驾驶技术的部分,详细回顾了从CNN到RNN、GAN,再到BEV和Transformer结合的技术迭代路径,以及占用网络模型的应用。 最后,文章重点讨论了大模型如何在自动驾驶的感知、预测和决策层面提供赋能,突出了其在该领域的重要性和影响力。
2615 56
|
人工智能 PyTorch 算法框架/工具
StableAnimator:复旦联合微软等机构推出的端到端身份一致性视频扩散框架
StableAnimator是由复旦大学、微软亚洲研究院、虎牙公司和卡内基梅隆大学联合推出的端到端身份一致性视频扩散框架。该框架能够根据一张参考图像和一系列姿态,直接合成高保真度且保持人物身份一致性的视频,无需任何后处理工具。本文详细介绍了StableAnimator的主要功能、技术原理以及如何运行该框架。
606 7
StableAnimator:复旦联合微软等机构推出的端到端身份一致性视频扩散框架
|
弹性计算 安全 前端开发
阿里云服务器ECS通用型、计算型和内存型详细介绍和性能参数表
阿里云ECS实例有计算型(c)、通用型(g)和内存型(r)三种,主要区别在于CPU和内存比例。计算型CPU内存比1:2,如2核4G;通用型为1:4,如2核8G;内存型为1:8,如2核16G。随着技术迭代,有第五代至第八代产品,如c7、g5、r8a等。每代实例在CPU型号和主频上相同,但性能有所提升。实例性能参数包括网络带宽、收发包能力、连接数等。具体应用场景如计算型适合高网络包收发、通用型适合企业级应用,内存型适合内存数据库等。详细信息可参阅阿里云ECS页面。
1411 0
|
存储 并行计算 大数据
优化Python数据处理性能的最佳实践
在数据科学和大数据时代,优化Python数据处理性能变得至关重要。通过探讨数据处理瓶颈、内存管理、并行计算以及高效库的使用,本篇文章旨在提供切实可行的最佳实践,以帮助开发者提升数据处理效率。
|
机器学习/深度学习 计算机视觉
YOLOv10实战:SPPF原创自研 | SPPF_attention,重新设计加入注意力机制 | NEU-DET为案列进行展开
【7月更文挑战第1天】 优点:为了利用不同的池化核尺寸提取特征的方式可以获得更多的特征信息,提高网络的识别精度; 如何优化:在此基础上加入注意力机制,能够在不同尺度上更好的、更多的获取特征信息,从而获取全局视角信息并减轻不同尺度大小所带来的影响; SPPF_attention,重新设计加入注意力机制 ,在NEU-DEU任务中mAP50从0.683提升至0.703;
1505 3
|
SQL 存储 算法
【数据库SQL server】数据库系统概述与DBS结构
【数据库SQL server】数据库系统概述与DBS结构
447 0
【数据库SQL server】数据库系统概述与DBS结构
|
算法
数学建模——曲线拟合
数学建模——曲线拟合
1567 1
|
编解码 自动驾驶 数据可视化
超越BEV视角 | 新型紧凑占用Transformer助力自动驾驶3D占用预测
超越BEV视角 | 新型紧凑占用Transformer助力自动驾驶3D占用预测
585 0

热门文章

最新文章