AI十级「找茬」选手,非这个书生莫属,节后开源!(1)

简介: AI十级「找茬」选手,非这个书生莫属,节后开源!
【新智元导读】为了测试,研发团队的大哥都爬树上了!什么模型竟然只需10%的训练数据,性能就能超越同行,还会免费开源?

 

考验你眼力的时候到了!

 

只看一眼,看出什么了嘛?

 

 

一块木地板?

 

只答对了一半,其实图中还有一只喵。

 

下一个问题,这是什么品种的猫?啊...这...

 

 

承认吧,你是辨别不出来的,但是这个AI「一眼」就搞定了。

 

而这么厉害的AI还有个诗意的名字,叫「书生」。

 

更厉害的是,基于「书生」的通用视觉开源平台OpenGVLab将会在春节后全部公开!


通用?视觉?

 

近几年,语言模型的发展可谓是相当迅猛,百花齐放。

 

小到3.54亿参数的BERT,大到5300亿参数的威震天-图灵,以及1.6万亿参数的混合模型Switch Transformer,顺便还有首次常识问答超越人类的KEAR。

 

 

那么,视觉模型这边又如何呢?

 

目前的CV领域主要是图像匹配文本CLIP和文本生成图像DALL·E这种单一模型。

 

但是NLP方向的各种成绩都表明,发展预训练大模型不仅仅能够处理多种复杂任务、适用多种场景和模态,而且能够增加模型的复用率,减少了模型定制化开发的开销进而也降低了成本。

 

而且,通用模型也是通往通用人工智能的必经之路。

 

 

和通用语言模型类似,通用视觉模型的出发点和训练思路也需要事先通过收集海量的无监督数据。然后通过自监督等方式来训练,得到通用的预训练模型。最后根据具体的下游任务再将通用预训练模型迁移到具体任务上去解决具体问题。

 

不过,从任务角度看,通用视觉模型主要还是解决纯视觉任务,也涉及一些视觉语言相关的多模态任务,而通用语言模型主要在解决语言相关的任务。而从模型训练角度看,两者的模型结构存在一些差异,具体训练的监督形式也不一样。

 

但是想要实现模型的通用性,很难。

 

首当其冲的就是,训练数据不够用。

 

 

训练一个性能合格的深度学习模型,所需的数据采集量,少则十几万,多则千百万张图片,比如自动驾驶和人脸识别,对于数据的需求,达到十亿级别,但性能仍未饱和。

 

在现实应用中,AI需要大量业务数据和用户互联网行为数据的融合,而企业可以应用的数据则非常有限。

 

数据都采集不到,就更不用提什么「高质量」了。

 

此外,模型对于数据的学习效率又低,无疑又是雪上加霜。

 

于是,N个任务就需要开发N个高度定制的模型同时,每个模型在训练的时候又需构建标注数据集进行专项训练,并持续进行权重和参数优化。

 

时间、人力以及资源的成本直接拉满。

 

 

即便如此,依然有人想要挑战一番。

 

2021年11月,上海人工智能实验室联合商汤科技SenseTime、香港中文大学、上海交通大学共同发布了新一代通用视觉技术体系——「书生」(INTERN)。


论文地址:https://arxiv.org/abs/2111.08687

参考链接:https://mp.weixin.qq.com/s/dS_eklfseJ8BVdqNR-r30g


通才是如何练成?


作为通用视觉技术体系的「书生」有三个基础设施模块,分别为:

 

  • 通用视觉数据系统(GV-Dataset)
  • 通用视觉网络结构(GV-Architecture)
  • 通用视觉评测基准(GV-Benchmark)

这三个基础模块有什么作用?它们就像「百科全书」、「高楼基底」一样。「书生」通才的道路上学到的海量知识和建模、评测等基础能力就靠这三个基础模块了。

具体点讲,其中,在通用视觉数据系统中包含了大量的高质量数据集:1. 超大量级精标注数据:除了整合现有开源数据集,还进行了大规模数据图像标注任务,涵盖了图像分类,目标检测以及图像分割等任务,数据总量级达到40M。分类任务数据量级为71M,其中包含9个公开数据集28M,以及自标注数据43M。目标检测任务数据量级为4M,其中包含3个公开数据集3M,以及自标注数据1M。2. 超大标签体系:总标签量级达到119K,几乎覆盖了所有现有开源数据集,在此基础上扩充了大量细粒度标签。极大地丰富了图像任务的标签,提供了更为合理的组织方式,以及可扩展的标签延伸策略。3. 首次提出视界(realm)概念:结合「书生」标签体系,可以极大提升预训练模型的性能。

在通用视觉网络结构中,MetaNet是一种自研的模型搜索网络,它最大的变种包含百亿的参数量,是当今最大的视觉网络之一。这个网络结构结合了视觉卷积和前沿的视觉自关注机制,通过大规模强化学习网络结构搜索算法,取得最佳算子组合,达到模型效率和效用的最大化。在相同的资源限制的情况下,「书生」的视觉网络获得在不同视觉任务下更优异的精度。在获得超大规模的视觉神经网络以赋能计算机视觉社区的研究的同时,「书生」的网络支持灵活地进行不同规模的调整,以适应不同程度的工业化落地时的运算能力需求,赋能视觉算法的工业落地。有了这样的网络结构之后,就可以对其进行了从「基础模型-专家-通才」模型的训练策略,极大地增强这种网络结构的泛化能力。

第三个便是视觉评测基准,它就像是一个「擂台」,收集了4种类型共26个下游任务。不仅包括常规分类任务还包括细粒度分类任务,还包括医疗图像等特殊领域的分类任务、行人检测等热门检测任务,扩展到分割与深度任务,可以很好地衡量模型的泛化能力。这一视觉评测基准还引入了百分比样本(percentage-shot)的设置。亮点在于,下游任务训练数据被压缩的同时,还可以很好地保留原始数据集的长尾分布等属性。

相关文章
|
18天前
|
人工智能 移动开发 JavaScript
如何用uniapp打包桌面客户端exe包,vue或者uni项目如何打包桌面客户端之electron开发-优雅草央千澈以开源蜻蜓AI工具为例子演示完整教程-开源代码附上
如何用uniapp打包桌面客户端exe包,vue或者uni项目如何打包桌面客户端之electron开发-优雅草央千澈以开源蜻蜓AI工具为例子演示完整教程-开源代码附上
106 18
|
15天前
|
人工智能 开发框架 安全
Smolagents:三行代码就能开发 AI 智能体,Hugging Face 开源轻量级 Agent 构建库
Smolagents 是 Hugging Face 推出的轻量级开源库,旨在简化智能代理的构建过程,支持多种大语言模型集成和代码执行代理功能。
236 69
Smolagents:三行代码就能开发 AI 智能体,Hugging Face 开源轻量级 Agent 构建库
|
12天前
|
机器学习/深度学习 人工智能 测试技术
PsycoLLM:开源的中文心理大模型,免费 AI 心理医生,支持心理健康评估与多轮对话
PsycoLLM 是合肥工业大学推出的中文心理大语言模型,基于高质量心理数据集训练,支持心理健康评估、多轮对话和情绪识别,为心理健康领域提供技术支持。
152 51
PsycoLLM:开源的中文心理大模型,免费 AI 心理医生,支持心理健康评估与多轮对话
|
4天前
|
人工智能 供应链 PyTorch
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
TimesFM 2.0 是谷歌研究团队开源的时间序列预测模型,支持长达2048个时间点的单变量预测,具备零样本学习能力,适用于零售、金融、交通等多个领域。
68 23
TimesFM 2.0:用 AI 预测流量、销量和金融市场等走势!谷歌开源超越统计方法的预测模型
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架,基于大型语言模型,能够加速科学发现、降低成本并提高研究质量。
96 23
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
|
6天前
|
人工智能 资源调度 JavaScript
PPTAgent:中科院开源AI工具,自动将文档转化为高质量PPT
PPTAgent 是中科院推出的自动生成演示文稿框架,基于两阶段编辑方法,支持智能分析、大纲生成、幻灯片生成与评估,适用于教育、企业培训等多种场景。
156 18
PPTAgent:中科院开源AI工具,自动将文档转化为高质量PPT
|
10天前
|
人工智能 自然语言处理 调度
Casevo:开源的社会传播模拟系统,基于 AI 模拟人类认知、决策和社会交互,预测社会传播现象
Casevo 是中国传媒大学推出的开源社会传播模拟系统,结合大语言模型和多智能体技术,支持复杂社会网络建模与动态交互,适用于新闻传播、社会计算等领域。
71 22
Casevo:开源的社会传播模拟系统,基于 AI 模拟人类认知、决策和社会交互,预测社会传播现象
|
10天前
|
数据采集 人工智能 算法
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。
49 20
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
|
12天前
|
人工智能 搜索推荐 前端开发
MiniPerplx:基于 Grok 2.0 的开源 AI 搜索引擎,支持网页、学术、视频搜索
MiniPerplx 是一款基于 Grok 2.0 模型的开源 AI 搜索引擎,支持网页、学术论文、YouTube 视频等多种内容搜索,提供代码解释、天气预报等功能。
82 17
MiniPerplx:基于 Grok 2.0 的开源 AI 搜索引擎,支持网页、学术、视频搜索
|
10天前
|
人工智能 编解码 自然语言处理
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位
Aria-UI 是香港大学与 Rhymes AI 联合开发的多模态模型,专为 GUI 智能交互设计,支持高分辨率图像处理,适用于自动化测试、用户交互辅助等场景。
64 11
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位

热门文章

最新文章