Ola:清华联合腾讯等推出的全模态语言模型!实现对文本、图像、视频和音频的全面理解

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: Ola 是由清华大学、腾讯 Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型,支持文本、图像、视频和音频输入,并具备实时流式解码功能。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


大家好,我是蚝油菜花,今天跟大家分享一下 Ola 这个由清华大学、腾讯等团队联合推出的全模态语言模型。

🚀 快速阅读

Ola 是一个支持多种模态输入的语言模型,旨在实现对文本、图像、视频和音频的全面理解。

  1. 核心功能:支持多模态输入和实时流式解码。
  2. 技术原理:采用渐进式模态对齐策略,逐步扩展语言模型支持的模态,从图像和文本开始,再引入语音和视频数据。

Ola 是什么

Ola

Ola 是由清华大学、腾讯 Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型。该模型通过渐进式模态对齐策略,逐步扩展语言模型支持的模态,从图像和文本开始,再引入语音和视频数据,最终实现对多种模态的理解。Ola 的架构支持全模态输入,包括文本、图像、视频和音频,能够同时处理这些输入。

Ola 的设计不仅注重多模态输入的支持,还特别强调用户友好的实时流式解码功能,用于提升交互体验。这种设计使得 Ola 在多模态基准测试中表现出色,超越了现有的开源全模态 LLMs,在某些任务上甚至与专门的单模态模型相当。

Ola 的主要功能

  • 多模态理解:支持文本、图像、视频和音频四种模态的输入,能同时处理这些输入,在理解任务中表现出色。
  • 实时流式解码:支持用户友好的实时流式解码,可用于文本和语音生成,提供流畅的交互体验。
  • 渐进式模态对齐:通过逐步扩展语言模型支持的模态,从图像和文本开始,再引入语音和视频数据,实现对多种模态的理解。
  • 高性能表现:在多模态基准测试中性能卓越,超越了现有的开源全模态 LLMs,在某些任务上与专门的单模态模型相当。

Ola 的技术原理

Ola-Training

  • 渐进式模态对齐策略:Ola 的训练流程从最基础的模态(图像和文本)开始,逐步引入语音数据(连接语言和音频知识)以及视频数据(连接所有模态)。这种渐进式学习方法使模型能逐步扩展其模态理解能力,保持了跨模态对齐数据的规模相对较小,降低了从现有视觉-语言模型开发全模态模型的难度和成本。
  • 多模态输入与实时流式解码:Ola 支持全模态输入,包括文本、图像、视频和音频,能同时处理这些输入。Ola 设计了逐句解码方案,用于流式语音生成,支持用户友好的实时交互体验。
  • 跨模态数据的高效利用:为了更好地捕捉模态之间的关系,Ola 的训练数据包括传统的视觉和音频数据,还设计了跨模态视频-音频数据。数据通过视频中的视觉和音频信息构建桥梁,帮助模型学习模态之间的内在联系。
  • 高性能架构设计:Ola 的架构支持高效的多模态处理,包括视觉编码器、音频编码器、文本解码器和语音解码器。通过局部-全局注意力池化(Local-Global Attention Pooling)等技术,模型能更好地融合不同模态的特征。

如何运行 Ola

1. 克隆仓库

git clone https://github.com/Ola-Omni/Ola
cd Ola

2. 安装依赖包

conda create -n ola python=3.10 -y
conda activate ola
pip install --upgrade pip
pip install -e .

3. 安装额外的训练包

pip install -e ".[train]"
pip install flash-attn --no-build-isolation

4. 下载模型权重

下载 Ola-7b 模型权重,可以从HuggingFace获取,或者直接使用在线权重。

5. 下载音频编码器

HuggingFace下载音频编码器权重 large-v3.ptBEATs_iter3_plus_AS2M_finetuned_on_AS2M_cpt2.pt,并将它们放置在 path/to/Ola/pretrained 目录下。

6. 运行推理脚本

  • 文本与图像理解

    python3 inference/infer.py --image_path *.png,jpg --text user_instruction
    
  • 文本与视频理解

    python3 inference/infer.py --video_path *.mp4 --text user_instruction
    
  • 文本与音频理解

    python3 inference/infer.py --audio_path *.wav,mp3 --text user_instruction
    
  • 音频与图像理解

    python3 inference/infer.py --audio_path *.png,jpg --audio_path *.wav,mp3
    

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
13天前
|
机器学习/深度学习 人工智能 监控
DiffuEraser:阿里通义实验室推出的视频修复模型,支持高清修复、时间一致性优化
DiffuEraser 是阿里通义实验室推出的基于稳定扩散模型的视频修复工具,能够生成丰富的细节并保持时间一致性,适用于电影修复、监控增强等场景。
105 25
DiffuEraser:阿里通义实验室推出的视频修复模型,支持高清修复、时间一致性优化
|
11天前
|
缓存 Java 数据库
SpringBoot缓存注解使用
Spring Boot 提供了一套方便的缓存注解,用于简化缓存管理。通过 `@Cacheable`、`@CachePut`、`@CacheEvict` 和 `@Caching` 等注解,开发者可以轻松地实现方法级别的缓存操作,从而提升应用的性能和响应速度。合理使用这些注解可以大大减少数据库的访问频率,优化系统性能。
156 89
|
3天前
|
存储 人工智能 缓存
DiffSplat:输入文本或图像,2秒内生成3D建模!北大联合字节开源3D建模生成框架
DiffSplat 是由北京大学和字节跳动联合推出的一个高效 3D 生成框架,能够在 1-2 秒内从文本提示或单视图图像生成高质量的 3D 高斯点阵,并确保多视图下的一致性。
76 19
DiffSplat:输入文本或图像,2秒内生成3D建模!北大联合字节开源3D建模生成框架
|
12天前
|
机器学习/深度学习 人工智能 算法
《一文读懂!Q-learning状态-动作值函数的直观理解》
Q-learning算法是强化学习领域的核心,广泛应用于机器人控制、游戏AI和自动驾驶等领域。其关键在于理解状态-动作值函数(Q值),即智能体在特定状态下采取某动作的长期价值评估。通过不断与环境交互,智能体根据奖励信号更新Q值,逐步优化行为策略,最终实现累积奖励最大化。掌握Q值计算及其更新机制,是深入理解强化学习的基础,也是设计高效AI系统的关键。
71 25
|
15天前
|
人工智能 测试技术 定位技术
Tarsier2:字节跳动开源专注于图像和视频内容理解的视觉语言大模型
Tarsier2 是字节跳动推出的大规模视觉语言模型,支持高质量视频描述、问答与定位,在多个视频理解任务中表现优异。
95 16
|
15天前
|
人工智能 自然语言处理 达摩院
VideoLLaMA3:阿里达摩院开源专注于视觉理解的多模态基础模型,具备多语言视频理解能力
VideoLLaMA3 是阿里巴巴开源的多模态基础模型,专注于图像和视频理解,支持多语言生成、视频内容分析和视觉问答任务,适用于多种应用场景。
119 6
|
11天前
|
网络协议 应用服务中间件 网络安全
Nginx,正向代理
本文介绍了Nginx作为HTTPS正向代理的两种方案:HTTP CONNECT隧道(7层)和NGINX stream(4层)。HTTP CONNECT隧道需要客户端手动配置代理,通过CONNECT请求建立隧道;而NGINX stream则更适合透明代理,利用SNI字段实现流量转发。文章详细讲解了两者的原理、环境搭建、使用场景及常见问题,并提供了配置示例和最佳实践建议。内容转载自阿里云开发者社区@怀知的文章,推荐读者参阅原文获取更多信息。感谢您的阅读!
226 80
Nginx,正向代理
|
7天前
|
算法 数据处理
《当朴素贝叶斯遇上模糊:解锁不确定性数据处理新姿势》
模糊朴素贝叶斯算法在处理模糊性和不确定性数据方面表现出色。它基于传统朴素贝叶斯算法,引入模糊集理论,通过隶属度处理特征的模糊性,不再要求特征独立。该算法在情感分析、医疗诊断、图像识别等领域能精准处理模糊语义和相关特征,提供更准确且具解释性的结果,为决策者提供更多有价值的信息。
61 22
|
13天前
|
存储 缓存 数据处理
Pandas高级数据处理:缓存与持久化
本文介绍 Pandas 中的缓存与持久化技术,涵盖其意义、常见方式及问题解决方案。缓存可提高效率、减少重复计算;持久化则优化资源使用。文中探讨内存缓存、文件系统和数据库持久化,并提供代码示例,如 LRU 缓存、Parquet 格式保存及 SQLite 数据库交互,帮助读者理解和应用这些技术。
119 73
|
13天前
|
人工智能 自然语言处理 Java
Spring AI,搭建个人AI助手
本期主要是实操性内容,聊聊AI大模型,并使用Spring AI搭建属于自己的AI助手、知识库。本期所需的演示源码笔者托管在Gitee上(https://gitee.com/catoncloud/spring-ai-demo),读者朋友可自行查阅。
966 42
Spring AI,搭建个人AI助手

热门文章

最新文章