《达摩院2023十大科技趋势》——范式重置——多模态预训练大模型

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
自定义KV模板,自定义KV模板 500次/账号
简介: 《达摩院2023十大科技趋势》——范式重置——多模态预训练大模型

趋势一、多模态预训练大模型


基于多模态的预训练大模型将实现图文音统一知识表示,成为 人工智能基础设施。


摘要


人工智能正在从文本、语音、视觉 等单模态智能,向着多种模态融合的通 用人工智能方向发展。多模态统一建模, 目的是增强模型的跨模态语义对齐能力, 打通各个模态之间的关系,使得模型逐 步标准化。目前,技术上的突出进展来 自于 CLIP(匹配图像和文本)和 BEiT-3 (通用多模态基础模型)。基于多领域知 识,构建统一的、跨场景、多任务的多 模态基础模型已成为人工智能的重点发 展方向。未来大模型作为基础设施,将 实现图像、文本、音频统一知识表示, 并朝着能推理、能回答问题、能总结、 做创作的认知智能方向演进。


image.png

趋势解读


基于深度学习的多模态预训练是认 知智能快速发展的重要推动力。 构建多场景、多任务的预训练大模型将 加速模型标准化进程,为人工智能模型 成为基础设施创造条件。深度学习模型 的不断完善、互联网海量真实数据的积 累和生成式预训练的广泛应用,使得人 工智能模型在自然语言理解、语音处理、 计算机视觉等领域地交叉应用取得显著 进展。


2022 年,技术上的突出进展来自 于 BEiT-3 多模态基础模型,该模型在 视觉 - 语言任务处理上具备出色表现, 包括视觉问答、图片描述生成和跨模态 检索等。BEiT-3 通过统一的模型框架和 骨干网络(backbone)建模,能够更加 轻松地完成多模态编码和处理不同的下 游任务。另一方面,CLIP(Contrastive  Language-Image Pre-training)的 广 泛 应用也促进了多模态模型的技术发展。 CLIP 作为基于对比学习的预训练模 型,负责从文本特征映射到图像特征, 能够指导 GAN 或扩散模型(Diffusion  Model)生 成 图 像。 在 文 生 图 领 域, Stable Diffusion 也使用了 CLIP,它能 够通过文本提示调整模型,并借助扩散 模型改善图像质量。与此同时,开源极 大的促进了多模态的融合和预训练模型 的发展。通过开源来降低模型使用门槛, 将大模型从一种新兴的 AI 技术转变为稳 健的基础设施,已成为许多大模型开发者 的共识。


多模态预训练模型的发展将重塑人 工智能商业模式,并为人们的生产生活 方式带来积极影响。对个人而言,类似 CLIP 的多模态模型,将使更多非技术出 身的人能够表达自己的创造力,无需再 借助工具和编程专业能力。对企业来说, 多模态预训练模型将成为企业生产效率 提升的关键。商业模式上,具备大数据、 算力资源和模型开发能力的科技企业, 将会成为模型服务的提供方,帮助企业 将基础模型的能力与生产流程融合起来, 实现效率和成本最优。


认知智能的发展,不会局限在文本或 图像等单一的模态上。未来,如何针对不 同模态建立更高效的模型架构和统一的骨 干网络,使得大模型能够广泛地支持各种 下游任务将成为主要挑战。在此基础上, 更多的挑战来自于挖掘不同模态(如图 像 - 文本,文本 - 自然语言,视频 - 文本) 数据间的相关信息,并巧妙的设计预训练 任务,让模型更好的捕捉不同模态信息之 间的关联。


语音、视觉和多模态预训练模型将 加速人工智能向通用基础模型方向演进。 在这个演进过程中,深度学习与强化学 习相互促进发展,融合大量行业知识, 模型将具备在不断变化的环境中快速适 应的灵活性。建立统一的、跨场景、多 任务的多模态基础模型会成为人工智能 发展的主流趋势之一。随着技术的不断 成熟,大模型在开发成本、易用性、开 发周期、性能上会更具优势,给产品化 和商业化带来更多可能性。


专家点评


以 GPT 系 列 模 型 为 代 表 的 大 模 型( 大 规模预训练模型或 者基础模型)展现 出了超出预期的“理 解”和“创造”能力, 提示模型尺度与智 能之间的正相关关 系 仍 在 生 效。 同 时 我们对大模型内在 机理了解还很不够, 大模型的可解释性 和 可 控 性 仍 很 弱, 但这正是激励我们 继续前行的动力。


文继荣  

中国人民大学信息 学院院长

高瓴人工智能学院 执行院长


多模态预训练模型 对图片 - 文字进行联 合 表 证 学 习, 并 扩 展 到 语 音, 视 频 等 其 他 模 态, 在 多 个 多模态相关的任务 (理解,检索,生成, 问答等)取得明显 优 势, 在 广 泛 的 行 业应用场景中能够 从不同信息源获取 知识并进行统一表 示 学 习, 可 以 成 为 覆盖广泛领域的通 用基础模型。


黄非

达摩院语言技术实验室负责人

相关文章
|
6月前
|
SQL 存储 人工智能
探索语义解析技术和AI人工智能大模型的关系
探索语义解析技术和AI人工智能大模型的关系
169 1
|
5天前
|
机器学习/深度学习 人工智能 机器人
何恺明新作出炉!异构预训练Transformer颠覆本体视觉学习范式,AI性能暴涨超20%
【10月更文挑战第29天】在机器人学习领域,训练通用模型面临数据异构性的挑战。近期研究“Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”提出异构预训练Transformer(HPT),通过大规模预训练学习跨不同本体和任务的共享表示,显著提升了性能。实验结果显示,HPT在未见过的任务上表现优异,性能提升超过20%。
20 6
|
5月前
|
传感器 机器学习/深度学习 人工智能
多模态大模型代表了人工智能领域的新一代技术范式
多模态大模型代表了人工智能领域的新一代技术范式
44 2
|
机器学习/深度学习 存储 人工智能
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
151 0
|
机器学习/深度学习 人工智能 自然语言处理
剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态
剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态
154 0
|
达摩院 文字识别 物联网
达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力
达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力
281 0
|
机器学习/深度学习 人工智能
腾讯AI Lab联合ETH提出合作博弈新范式,为可解释性等机器学习估值问题提供新方法(2)
腾讯AI Lab联合ETH提出合作博弈新范式,为可解释性等机器学习估值问题提供新方法
193 0
|
机器学习/深度学习 人工智能 算法
腾讯AI Lab联合ETH提出合作博弈新范式,为可解释性等机器学习估值问题提供新方法
腾讯AI Lab联合ETH提出合作博弈新范式,为可解释性等机器学习估值问题提供新方法
196 0
|
机器学习/深度学习 人工智能
挑战人类认知推理新任务,MIT、UCLA、斯坦福联合提出新一代视觉推理数据集
挑战人类认知推理新任务,MIT、UCLA、斯坦福联合提出新一代视觉推理数据集
238 0
|
机器学习/深度学习 人工智能 监控
一个模型处理多种模态和任务,商汤等提出Uni-Perceiver,迈向通用预训练感知模型
一个模型处理多种模态和任务,商汤等提出Uni-Perceiver,迈向通用预训练感知模型
205 0