❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 模型特点:Tarsier2 是字节跳动推出的大规模视觉语言模型,支持高质量视频描述、问答与定位。
- 技术升级:通过扩展预训练数据、细粒度时间对齐和直接偏好优化(DPO)训练,显著提升模型性能。
- 应用场景:适用于视频描述、幻觉测试、多语言支持和具身问答等任务。
正文(附运行示例)
Tarsier2 是什么
Tarsier2 是字节跳动推出的大规模视觉语言模型(LVLM),旨在生成高质量的视频描述,并在多种视频理解任务中表现出色。该模型通过三个关键升级实现性能提升:将预训练数据从1100万扩展到4000万视频文本对,丰富了数据量和多样性;在监督微调阶段执行精细的时间对齐;基于模型采样自动构建偏好数据,应用直接偏好优化(DPO)训练。
在 DREAM-1K 基准测试中,Tarsier2-7B 的 F1 分数比 GPT-4o 高出 2.8%,比 Gemini-1.5-Pro 高出 5.8%。在 15 个公共基准测试中取得了新的最佳结果,涵盖视频问答、视频定位、幻觉测试和具身问答等任务。
Tarsier2 的主要功能
- 详细视频描述:Tarsier2 能生成高质量的视频描述,覆盖视频中的各种细节,包括动作、场景和情节。
- 视频问答:能回答关于视频的具体问题,展现出强大的时空理解和推理能力。
- 视频定位:Tarsier2 可以检测并定位视频中特定事件的发生时间,支持多视频段的定位。
- 幻觉测试:通过优化训练策略,Tarsier2 显著减少了模型生成虚假信息的可能性。
- 多语言支持:支持多种语言的视频描述生成,进一步拓展了其应用场景。
Tarsier2 的技术原理
- 大规模预训练数据:Tarsier2 将预训练数据从1100万扩展到4000万视频-文本对,提升了数据的规模和多样性。
- 细粒度时间对齐的监督微调(SFT):在监督微调阶段,Tarsier2 引入了15万条细粒度标注的视频描述数据,每条描述都对应具体的时间戳。
- 直接偏好优化(DPO):Tarsier2 通过模型采样自动构建偏好数据,应用直接偏好优化(DPO)进行训练,确保生成的视频描述更符合人类的偏好。
如何运行 Tarsier2
1. 环境配置
首先,确保你的 Python 版本为 3.9。如果不是,可以通过以下命令创建虚拟环境:
conda create -n tarsier python=3.9
然后运行以下命令进行环境配置:
git clone https://github.com/bytedance/tarsier.git
cd tarsier
bash setup.sh
2. 模型准备
从 Hugging Face 下载模型检查点:
- Tarsier-7b:https://huggingface.co/omni-research/Tarsier-7b
- Tarsier-34b:https://huggingface.co/omni-research/Tarsier-34b
3. 快速启动
使用以下脚本快速启动视频详细描述:
MODEL_NAME_OR_PATH="path_to_the_model"
VIDEO_FILE="assets/videos/coffee.gif"
python3 -m tasks.inference_quick_start \
--model_name_or_path $MODEL_NAME_OR_PATH \
--instruction "Describe the video in detail." \
--input_path $VIDEO_FILE
运行结果将生成详细的视频描述。
资源
- GitHub 仓库:https://github.com/bytedance/tarsier
- 在线演示 Demo:https://huggingface.co/spaces/omni-research/Tarsier2-7b
- arXiv 技术论文:https://arxiv.org/pdf/2501.07888
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦