趋势一、多模态预训练大模型
基于多模态的预训练大模型将实现图文音统一知识表示,成为 人工智能基础设施。
摘要
人工智能正在从文本、语音、视觉 等单模态智能,向着多种模态融合的通 用人工智能方向发展。多模态统一建模, 目的是增强模型的跨模态语义对齐能力, 打通各个模态之间的关系,使得模型逐 步标准化。目前,技术上的突出进展来 自于 CLIP(匹配图像和文本)和 BEiT-3 (通用多模态基础模型)。基于多领域知 识,构建统一的、跨场景、多任务的多 模态基础模型已成为人工智能的重点发 展方向。未来大模型作为基础设施,将 实现图像、文本、音频统一知识表示, 并朝着能推理、能回答问题、能总结、 做创作的认知智能方向演进。
趋势解读
基于深度学习的多模态预训练是认 知智能快速发展的重要推动力。 构建多场景、多任务的预训练大模型将 加速模型标准化进程,为人工智能模型 成为基础设施创造条件。深度学习模型 的不断完善、互联网海量真实数据的积 累和生成式预训练的广泛应用,使得人 工智能模型在自然语言理解、语音处理、 计算机视觉等领域地交叉应用取得显著 进展。
2022 年,技术上的突出进展来自 于 BEiT-3 多模态基础模型,该模型在 视觉 - 语言任务处理上具备出色表现, 包括视觉问答、图片描述生成和跨模态 检索等。BEiT-3 通过统一的模型框架和 骨干网络(backbone)建模,能够更加 轻松地完成多模态编码和处理不同的下 游任务。另一方面,CLIP(Contrastive Language-Image Pre-training)的 广 泛 应用也促进了多模态模型的技术发展。 CLIP 作为基于对比学习的预训练模 型,负责从文本特征映射到图像特征, 能够指导 GAN 或扩散模型(Diffusion Model)生 成 图 像。 在 文 生 图 领 域, Stable Diffusion 也使用了 CLIP,它能 够通过文本提示调整模型,并借助扩散 模型改善图像质量。与此同时,开源极 大的促进了多模态的融合和预训练模型 的发展。通过开源来降低模型使用门槛, 将大模型从一种新兴的 AI 技术转变为稳 健的基础设施,已成为许多大模型开发者 的共识。
多模态预训练模型的发展将重塑人 工智能商业模式,并为人们的生产生活 方式带来积极影响。对个人而言,类似 CLIP 的多模态模型,将使更多非技术出 身的人能够表达自己的创造力,无需再 借助工具和编程专业能力。对企业来说, 多模态预训练模型将成为企业生产效率 提升的关键。商业模式上,具备大数据、 算力资源和模型开发能力的科技企业, 将会成为模型服务的提供方,帮助企业 将基础模型的能力与生产流程融合起来, 实现效率和成本最优。
认知智能的发展,不会局限在文本或 图像等单一的模态上。未来,如何针对不 同模态建立更高效的模型架构和统一的骨 干网络,使得大模型能够广泛地支持各种 下游任务将成为主要挑战。在此基础上, 更多的挑战来自于挖掘不同模态(如图 像 - 文本,文本 - 自然语言,视频 - 文本) 数据间的相关信息,并巧妙的设计预训练 任务,让模型更好的捕捉不同模态信息之 间的关联。
语音、视觉和多模态预训练模型将 加速人工智能向通用基础模型方向演进。 在这个演进过程中,深度学习与强化学 习相互促进发展,融合大量行业知识, 模型将具备在不断变化的环境中快速适 应的灵活性。建立统一的、跨场景、多 任务的多模态基础模型会成为人工智能 发展的主流趋势之一。随着技术的不断 成熟,大模型在开发成本、易用性、开 发周期、性能上会更具优势,给产品化 和商业化带来更多可能性。
专家点评
以 GPT 系 列 模 型 为 代 表 的 大 模 型( 大 规模预训练模型或 者基础模型)展现 出了超出预期的“理 解”和“创造”能力, 提示模型尺度与智 能之间的正相关关 系 仍 在 生 效。 同 时 我们对大模型内在 机理了解还很不够, 大模型的可解释性 和 可 控 性 仍 很 弱, 但这正是激励我们 继续前行的动力。
文继荣
中国人民大学信息 学院院长
高瓴人工智能学院 执行院长
多模态预训练模型 对图片 - 文字进行联 合 表 证 学 习, 并 扩 展 到 语 音, 视 频 等 其 他 模 态, 在 多 个 多模态相关的任务 (理解,检索,生成, 问答等)取得明显 优 势, 在 广 泛 的 行 业应用场景中能够 从不同信息源获取 知识并进行统一表 示 学 习, 可 以 成 为 覆盖广泛领域的通 用基础模型。
黄非
达摩院语言技术实验室负责人