VITA-1.5: 迈向GPT-4o级实时视频-语音交互

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 近期,由南京大学和腾讯优图推出的VITA-1.5在魔搭开源。VITA-1.5支持视频,音频,文本输入,以及音频输出。

近期,由南京大学和腾讯优图推出的VITA-1.5在魔搭开源。VITA-1.5支持视频,音频,文本输入,以及音频输出。

模型链接:

https://modelscope.cn/models/modelscope/NJU_VITA-1.5

代码链接:

https://github.com/VITA-MLLM/VITA

论文链接:

https://arxiv.org/pdf/2501.01957

01.VITA-1.5 有什么新功能?

它包含了一系列的进步:

  1. 交互时延大幅降低。端到端语音交互时延由约4秒降低至1.5秒,实现近乎即时的交互,大幅提升用户体验。
  2. 增强多模式性能。MME 、MMBench和MathVista等多模式基准测试的平均性能已从59.8 显著提升至70.8。
  3. 语音处理能力的提升。语音处理能力提升到了一个新的水平,ASR WER(词错率,测试其他)从18.4降低到了7.5。此外,我们用端到端TTS 模块取代了 VITA-1.0 的独立 TTS 模块,该模块接受 LLM 的嵌入作为输入。
  4. 渐进式训练策略。通过这种方式,语音的加入对其他多模态性能(视觉-语言)影响不大。平均图像理解性能仅从71.3下降到70.8。
  • 对图像和视频理解基准的评估

  • VITA-1.5 在 ASR 基准测试中的表现优于专业语音模型

  • 添加音频模态对图像和视频理解能力影响不大。

02.模型推理

本文推荐使用WebUI完成模型体验和推理

第一步:下载开源项目

git clone https://github.com/VITA-MLLM/VITA.git

第二步:安装依赖

pip install -r web_demo/web_demo_requirements.txt

第三步:下载模型

modelscope download --model=modelscope/NJU_VITA-1.5 --local_dir ./demo_VITA_ckpt/VITA-1.5
modelscope download --model=OpenGVLab/InternViT-300M-448px --local_dir ./demo_VITA_ckpt/InternViT-300M-448px

第四步:配置并修改config文件

# mm_audio_encoder和mm_vision_tower可改为本地的文件夹路径,如"demo_VITA_ckpt/InternViT-300M-448px"
mv demo_VITA_ckpt/config.json demo_VITA_ckpt/origin_config.json
cd ./web_demo/vllm_tools
cp -rf qwen2p5_model_weight_file/*  ../../demo_VITA_ckpt/
cp -rf vllm_file/*  your_envs/vita_demo/lib/python3.10/site-packages/vllm/model_executor/models/

第五步:运行代码

python -m web_demo.web_ability_demo  demo_VITA_ckpt/

03.模型微调

更新pip并安装项目依赖:

pip install --upgrade pip
pip install -r requirements.txt
pip install flash-attn --no-build-isolation

数据准备

下面是一个训练数据的示例JSON文件:

[
    ...
    {
        "set": "sharegpt4",
        "id": "000000000164",
        "conversations": [
            {
                "from": "human",
                "value": "<image>\n<audio>\n"
            },
            {
                "from": "gpt",
                "value": "This is a well-organized kitchen with a clean, modern aesthetic. The kitchen features a white countertop against a white wall, creating a bright and airy atmosphere."
            }
        ],
        "image": "coco/images/train2017/000000000164.jpg",
        "audio": [
            "new_value_dict_0717/output_wavs/f61cf238b7872b4903e1fc15dcb5a50c.wav"
        ]
    },
    ...
]

set 字段用于获取数据加载时的图像或视频文件夹。你需要将它的键值对添加到 ./vita/config/dataset_config.py 中的 FolderDict:

AudioFolder = ""
FolderDict = {
    #### NaturalCap
    "sharegpt4": "",
}

设置对应字典中 chat_path 的JSON路径:

#### NaturalCap
ShareGPT4V = {"chat_path": ""}

在 ./vita/config/dataset_config.py 中设置音频文件夹路径为 AudioFolder。

在 ./vita/config/init.py 中添加数据类:

from .dataset_config import *
NaturalCap = [ShareGPT4V]
DataConfig = {
    "Pretrain_video": NaturalCap,
}

模型准备

下载所需的权重:

(1)VITA-1.5 https://modelscope.cn/models/VITA-MLLM/VITA-1.5

(2)InternViT-300M-448px https://modelscope.cn/models/OpenGVLab/InternViT-300M-448px

(3)音频语言对齐中预训练的音频编码器 https://modelscope.cn/models/VITA-MLLM/VITA-1.5

替换 ./script/train/finetuneTaskNeg_qwen_nodes.sh 中的路径:

...
--model_name_or_path VITA1.5_ckpt \
...
--vision_tower InternViT-300M-448px \
...
--audio_encoder audio-encoder-Qwen2-7B-1107-weight-base-11wh-tunning \
...

执行以下命令以启动训练过程:

export PYTHONPATH=./
export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
OUTPUT_DIR=/mnt/cfs/lhj/videomllm_ckpt/outputs/vita_video_audio
bash script/train/finetuneTaskNeg_qwen_nodes.sh ${OUTPUT_DIR}

点击链接阅读原文:NJU_VITA-1.5

相关文章
|
15天前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
阿里云与企业共筑容器供应链安全
171332 12
|
17天前
|
供应链 监控 安全
对话|企业如何构建更完善的容器供应链安全防护体系
随着云计算和DevOps的兴起,容器技术和自动化在软件开发中扮演着愈发重要的角色,但也带来了新的安全挑战。阿里云针对这些挑战,组织了一场关于云上安全的深度访谈,邀请了内部专家穆寰、匡大虎和黄竹刚,深入探讨了容器安全与软件供应链安全的关系,分析了当前的安全隐患及应对策略,并介绍了阿里云提供的安全解决方案,包括容器镜像服务ACR、容器服务ACK、网格服务ASM等,旨在帮助企业构建涵盖整个软件开发生命周期的安全防护体系。通过加强基础设施安全性、技术创新以及倡导协同安全理念,阿里云致力于与客户共同建设更加安全可靠的软件供应链环境。
150295 32
|
25天前
|
弹性计算 人工智能 安全
对话 | ECS如何构筑企业上云的第一道安全防线
随着中小企业加速上云,数据泄露、网络攻击等安全威胁日益严重。阿里云推出深度访谈栏目,汇聚产品技术专家,探讨云上安全问题及应对策略。首期节目聚焦ECS安全性,提出三道防线:数据安全、网络安全和身份认证与权限管理,确保用户在云端的数据主权和业务稳定。此外,阿里云还推出了“ECS 99套餐”,以高性价比提供全面的安全保障,帮助中小企业安全上云。
201962 14
对话 | ECS如何构筑企业上云的第一道安全防线
|
3天前
|
机器学习/深度学习 自然语言处理 PyTorch
深入剖析Transformer架构中的多头注意力机制
多头注意力机制(Multi-Head Attention)是Transformer模型中的核心组件,通过并行运行多个独立的注意力机制,捕捉输入序列中不同子空间的语义关联。每个“头”独立处理Query、Key和Value矩阵,经过缩放点积注意力运算后,所有头的输出被拼接并通过线性层融合,最终生成更全面的表示。多头注意力不仅增强了模型对复杂依赖关系的理解,还在自然语言处理任务如机器翻译和阅读理解中表现出色。通过多头自注意力机制,模型在同一序列内部进行多角度的注意力计算,进一步提升了表达能力和泛化性能。
|
7天前
|
存储 人工智能 安全
对话|无影如何助力企业构建办公安全防护体系
阿里云无影助力企业构建办公安全防护体系
1253 8
|
9天前
|
机器学习/深度学习 自然语言处理 搜索推荐
自注意力机制全解析:从原理到计算细节,一文尽览!
自注意力机制(Self-Attention)最早可追溯至20世纪70年代的神经网络研究,但直到2017年Google Brain团队提出Transformer架构后才广泛应用于深度学习。它通过计算序列内部元素间的相关性,捕捉复杂依赖关系,并支持并行化训练,显著提升了处理长文本和序列数据的能力。相比传统的RNN、LSTM和GRU,自注意力机制在自然语言处理(NLP)、计算机视觉、语音识别及推荐系统等领域展现出卓越性能。其核心步骤包括生成查询(Q)、键(K)和值(V)向量,计算缩放点积注意力得分,应用Softmax归一化,以及加权求和生成输出。自注意力机制提高了模型的表达能力,带来了更精准的服务。
|
8天前
|
人工智能 自然语言处理 程序员
通义灵码2.0全新升级,AI程序员全面开放使用
通义灵码2.0来了,成为全球首个同时上线JetBrains和VSCode的AI 程序员产品!立即下载更新最新插件使用。
1318 24
|
8天前
|
消息中间件 人工智能 运维
1月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
621 25
1月更文特别场——寻找用云高手,分享云&AI实践
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
|
13天前
|
人工智能 自然语言处理 API
阿里云百炼xWaytoAGI共学课DAY1 - 必须了解的企业级AI应用开发知识点
本课程旨在介绍阿里云百炼大模型平台的核心功能和应用场景,帮助开发者和技术小白快速上手,体验AI的强大能力,并探索企业级AI应用开发的可能性。

热门文章

最新文章