❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 模型介绍:Baichuan-Omni-1.5 是百川智能开源的全模态理解模型,支持文本、图像、音频和视频的多模态输入和输出。
- 主要功能:具备全模态理解与生成能力,支持多语言对话、音视频实时交互和医疗图像理解。
- 技术原理:采用多模态架构和多阶段训练,优化编码器和训练数据,提升模型性能。
正文(附运行示例)
Baichuan-Omni-1.5 是什么
Baichuan-Omni-1.5 是百川智能开源的全模态理解模型,支持文本、图像、音频和视频的多模态输入和输出。该模型具备强大的多模态理解与生成能力,尤其在多模态医疗领域表现优异。
它采用端到端音频解决方案,支持多语言对话和音视频实时交互,训练数据庞大,包含3.4亿条高质量图片/视频-文本数据和近100万小时音频数据。
Baichuan-Omni-1.5 的主要功能
- 全模态理解与生成:支持文本、图像、音频和视频的多模态输入和输出,具备文本和音频的双模态生成能力。
- 多模态交互:支持输入和输出端的多样化交互,能够实现音视频实时交互,提供流畅自然的用户体验。
- 医疗图像理解:在多模态医疗应用领域表现出色,医疗图片评测成绩大幅领先。
Baichuan-Omni-1.5 的技术原理
- 多模态架构:采用多模态架构,支持文本、图像、音频和视频等多种模态的输入和输出。模型通过视觉编码器处理图像和视频数据,音频编码器处理音频数据,通过一个大型语言模型(LLM)整合和处理这些信息。
- 多阶段训练:模型的训练分为多个阶段,包括图像-语言、视频-语言和音频-语言的多模态对齐预训练,以及多模态监督微调。在预训练阶段,通过细致对齐不同模态的编码器和连接器,实现不同模态之间的有效交互。
- 数据构造与优化:构建了一个包含3.4亿条高质量图片/视频-文本数据和近100万小时音频数据的庞大数据库。通过优化编码器、训练数据和训练方法,模型在视频理解等任务上的表现大幅超越了GPT-4o-mini。
- 注意力机制:使用注意力机制动态计算对多模态输入的权重,能更好地理解和响应复杂的指令,提升整体性能。
如何运行 Baichuan-Omni-1.5
1. 创建虚拟环境
conda create -n baichuan_omni python==3.12
conda activate baichuan_omni
pip install torch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 --index-url https://download.pytorch.org/whl/cu124
pip install -r baichuan_omni_requirements.txt
pip install accelerate flash_attn==2.6.3 speechbrain==1.0.0 deepspeed==0.14.4
apt install llvm ffmpeg
2. 下载模型并修改模型路径
修改 web_demo/constants.py
中的 MODEL_PATH
为本地模型路径。
3. 运行演示
- 图像演示
cd web_demo python vision_s2s_gradio_demo_cosy_multiturn.py
- 音频演示
cd web_demo python s2s_gradio_demo_cosy_multiturn.py
- 视频演示
cd web_demo python video_s2s_gradio_demo_cosy_singleturn.py
资源
- GitHub 仓库:https://github.com/baichuan-inc/Baichuan-Omni-1.5
- HuggingFace 模型库:https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5
- 技术报告:https://github.com/baichuan-inc/Baichuan-Omni-1.5/blob/main/baichuan_omni_1_5.pdf
- 开放数据集:
- OpenMM-Medical:https://huggingface.co/datasets/baichuan-inc/OpenMM_Medical
- OpenAudioBench:https://huggingface.co/datasets/baichuan-inc/openAudioBench
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦