【新智元导读】为了测试,研发团队的大哥都爬树上了!什么模型竟然只需10%的训练数据,性能就能超越同行,还会免费开源?
考验你眼力的时候到了!
只看一眼,看出什么了嘛?
一块木地板?
只答对了一半,其实图中还有一只喵。
下一个问题,这是什么品种的猫?啊...这...
承认吧,你是辨别不出来的,但是这个AI「一眼」就搞定了。
而这么厉害的AI还有个诗意的名字,叫「书生」。
更厉害的是,基于「书生」的通用视觉开源平台OpenGVLab将会在春节后全部公开!
通用?视觉?
近几年,语言模型的发展可谓是相当迅猛,百花齐放。
小到3.54亿参数的BERT,大到5300亿参数的威震天-图灵,以及1.6万亿参数的混合模型Switch Transformer,顺便还有首次常识问答超越人类的KEAR。
那么,视觉模型这边又如何呢?
目前的CV领域主要是图像匹配文本CLIP和文本生成图像DALL·E这种单一模型。
但是NLP方向的各种成绩都表明,发展预训练大模型不仅仅能够处理多种复杂任务、适用多种场景和模态,而且能够增加模型的复用率,减少了模型定制化开发的开销进而也降低了成本。
而且,通用模型也是通往通用人工智能的必经之路。
和通用语言模型类似,通用视觉模型的出发点和训练思路也需要事先通过收集海量的无监督数据。然后通过自监督等方式来训练,得到通用的预训练模型。最后根据具体的下游任务再将通用预训练模型迁移到具体任务上去解决具体问题。
不过,从任务角度看,通用视觉模型主要还是解决纯视觉任务,也涉及一些视觉语言相关的多模态任务,而通用语言模型主要在解决语言相关的任务。而从模型训练角度看,两者的模型结构存在一些差异,具体训练的监督形式也不一样。
但是想要实现模型的通用性,很难。
首当其冲的就是,训练数据不够用。
训练一个性能合格的深度学习模型,所需的数据采集量,少则十几万,多则千百万张图片,比如自动驾驶和人脸识别,对于数据的需求,达到十亿级别,但性能仍未饱和。
在现实应用中,AI需要大量业务数据和用户互联网行为数据的融合,而企业可以应用的数据则非常有限。
数据都采集不到,就更不用提什么「高质量」了。
此外,模型对于数据的学习效率又低,无疑又是雪上加霜。
于是,N个任务就需要开发N个高度定制的模型同时,每个模型在训练的时候又需构建标注数据集进行专项训练,并持续进行权重和参数优化。
时间、人力以及资源的成本直接拉满。
即便如此,依然有人想要挑战一番。
2021年11月,上海人工智能实验室联合商汤科技SenseTime、香港中文大学、上海交通大学共同发布了新一代通用视觉技术体系——「书生」(INTERN)。
论文地址:https://arxiv.org/abs/2111.08687
参考链接:https://mp.weixin.qq.com/s/dS_eklfseJ8BVdqNR-r30g
通才是如何练成?
作为通用视觉技术体系的「书生」有三个基础设施模块,分别为:
- 通用视觉数据系统(GV-Dataset)
- 通用视觉网络结构(GV-Architecture)
- 通用视觉评测基准(GV-Benchmark)
这三个基础模块有什么作用?它们就像「百科全书」、「高楼基底」一样。「书生」通才的道路上学到的海量知识和建模、评测等基础能力就靠这三个基础模块了。
具体点讲,其中,在通用视觉数据系统中包含了大量的高质量数据集:1. 超大量级精标注数据:除了整合现有开源数据集,还进行了大规模数据图像标注任务,涵盖了图像分类,目标检测以及图像分割等任务,数据总量级达到40M。分类任务数据量级为71M,其中包含9个公开数据集28M,以及自标注数据43M。目标检测任务数据量级为4M,其中包含3个公开数据集3M,以及自标注数据1M。2. 超大标签体系:总标签量级达到119K,几乎覆盖了所有现有开源数据集,在此基础上扩充了大量细粒度标签。极大地丰富了图像任务的标签,提供了更为合理的组织方式,以及可扩展的标签延伸策略。3. 首次提出视界(realm)概念:结合「书生」标签体系,可以极大提升预训练模型的性能。
在通用视觉网络结构中,MetaNet是一种自研的模型搜索网络,它最大的变种包含百亿的参数量,是当今最大的视觉网络之一。这个网络结构结合了视觉卷积和前沿的视觉自关注机制,通过大规模强化学习网络结构搜索算法,取得最佳算子组合,达到模型效率和效用的最大化。在相同的资源限制的情况下,「书生」的视觉网络获得在不同视觉任务下更优异的精度。在获得超大规模的视觉神经网络以赋能计算机视觉社区的研究的同时,「书生」的网络支持灵活地进行不同规模的调整,以适应不同程度的工业化落地时的运算能力需求,赋能视觉算法的工业落地。有了这样的网络结构之后,就可以对其进行了从「基础模型-专家-通才」模型的训练策略,极大地增强这种网络结构的泛化能力。
第三个便是视觉评测基准,它就像是一个「擂台」,收集了4种类型共26个下游任务。不仅包括常规分类任务还包括细粒度分类任务,还包括医疗图像等特殊领域的分类任务、行人检测等热门检测任务,扩展到分割与深度任务,可以很好地衡量模型的泛化能力。这一视觉评测基准还引入了百分比样本(percentage-shot)的设置。亮点在于,下游任务训练数据被压缩的同时,还可以很好地保留原始数据集的长尾分布等属性。「