Baichuan-Omni-1.5：百川智能开源全模态理解与生成模型，支持文本、图像、音频和视频的多模态输入和输出

2025-01-28 55

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

图像搜索，7款服务类型 1个月

简介： Baichuan-Omni-1.5 是百川智能开源的全模态理解模型，支持文本、图像、音频和视频的多模态输入和输出，显著提升多模态交互体验。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

模型介绍：Baichuan-Omni-1.5 是百川智能开源的全模态理解模型，支持文本、图像、音频和视频的多模态输入和输出。
主要功能：具备全模态理解与生成能力，支持多语言对话、音视频实时交互和医疗图像理解。
技术原理：采用多模态架构和多阶段训练，优化编码器和训练数据，提升模型性能。

正文（附运行示例）

Baichuan-Omni-1.5 是什么

公众号: 蚝油菜花 - Baichuan-Omni-1.5

Baichuan-Omni-1.5 是百川智能开源的全模态理解模型，支持文本、图像、音频和视频的多模态输入和输出。该模型具备强大的多模态理解与生成能力，尤其在多模态医疗领域表现优异。

它采用端到端音频解决方案，支持多语言对话和音视频实时交互，训练数据庞大，包含3.4亿条高质量图片/视频-文本数据和近100万小时音频数据。

Baichuan-Omni-1.5 的主要功能

全模态理解与生成：支持文本、图像、音频和视频的多模态输入和输出，具备文本和音频的双模态生成能力。
多模态交互：支持输入和输出端的多样化交互，能够实现音视频实时交互，提供流畅自然的用户体验。
医疗图像理解：在多模态医疗应用领域表现出色，医疗图片评测成绩大幅领先。

Baichuan-Omni-1.5 的技术原理

多模态架构：采用多模态架构，支持文本、图像、音频和视频等多种模态的输入和输出。模型通过视觉编码器处理图像和视频数据，音频编码器处理音频数据，通过一个大型语言模型（LLM）整合和处理这些信息。
多阶段训练：模型的训练分为多个阶段，包括图像-语言、视频-语言和音频-语言的多模态对齐预训练，以及多模态监督微调。在预训练阶段，通过细致对齐不同模态的编码器和连接器，实现不同模态之间的有效交互。
数据构造与优化：构建了一个包含3.4亿条高质量图片/视频-文本数据和近100万小时音频数据的庞大数据库。通过优化编码器、训练数据和训练方法，模型在视频理解等任务上的表现大幅超越了GPT-4o-mini。
注意力机制：使用注意力机制动态计算对多模态输入的权重，能更好地理解和响应复杂的指令，提升整体性能。

如何运行 Baichuan-Omni-1.5

1. 创建虚拟环境

conda create -n baichuan_omni python==3.12
conda activate baichuan_omni
pip install torch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 --index-url https://download.pytorch.org/whl/cu124
pip install -r baichuan_omni_requirements.txt
pip install accelerate flash_attn==2.6.3 speechbrain==1.0.0 deepspeed==0.14.4
apt install llvm ffmpeg

2. 下载模型并修改模型路径

修改 web_demo/constants.py 中的 MODEL_PATH 为本地模型路径。

3. 运行演示

图像演示

cd web_demo
python vision_s2s_gradio_demo_cosy_multiturn.py

音频演示

cd web_demo
python s2s_gradio_demo_cosy_multiturn.py

视频演示

cd web_demo
python video_s2s_gradio_demo_cosy_singleturn.py

资源

GitHub 仓库：https://github.com/baichuan-inc/Baichuan-Omni-1.5
HuggingFace 模型库：https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5
技术报告：https://github.com/baichuan-inc/Baichuan-Omni-1.5/blob/main/baichuan_omni_1_5.pdf
开放数据集：
- OpenMM-Medical：https://huggingface.co/datasets/baichuan-inc/OpenMM_Medical
- OpenAudioBench：https://huggingface.co/datasets/baichuan-inc/openAudioBench

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

Baichuan-Omni-1.5：百川智能开源全模态理解与生成模型，支持文本、图像、音频和视频的多模态输入和输出

🚀 快速阅读

正文（附运行示例）

Baichuan-Omni-1.5 是什么

Baichuan-Omni-1.5 的主要功能

Baichuan-Omni-1.5 的技术原理

如何运行 Baichuan-Omni-1.5

1. 创建虚拟环境

2. 下载模型并修改模型路径

3. 运行演示

资源

多模态

热门文章

最新文章

相关课程

相关电子书

相关实验场景