VBench 视频生成新榜首!Data-Juicer 沙盒实验室助力多模态数据与模型协同开发

简介: Data-Juicer 沙盒实验室的提出和其大规模的效果验证,是对多模态数据与模型协同开发这一方向高潜力的有力佐证。

图一:VBench排行榜(2024.7.16)

随着多模态人工智能技术的迅猛发展,大型多模态生成模型成为了推进领域革新的驱动引擎。面向多模态数据与模型协同开发,近日 Data-Juicer团队构建了开源沙盒实验室套件,通过数据与模型间的系统性研发工作流,调优数据和模型,在 VBench文生视频排行榜取得了新的榜首!

图二:Data-Juicer 沙盒实验室概览

多模态 AI 发展出了两条相对分离的路线:model-centric 和 data-centric,导致了协同开发的潜能未充分发挥,资源也未能高效利用。Data-Juicer 沙盒实验室应运而生,它是一个专为集成数据和模型协同开发所定制的中间层套件,为多模态模型与数据的科学开发“降本提效”。它提供了灵活的实验平台,内置大量先进的工具集,使得研发人员在工作流、开发行为和底层开发能力之间便捷组合,快速迭代小规模洞察,以便在更大规模场景下能“有的放矢”。

图三:“探测-分析-细化”工作流示意

我们提出的一种“探测-分析-细化”工作流,通过在最先进的 LLaVA-like 和 DiT-based 模型上的大量实践,显著提升了图文和视频文数据集的质量,并取得了更先进的模型性能。我们还通过在 Data-Juicer 算子上全方面的基准测试,分析并提供了丰富的数据质量、多样性与模型行为之间的深入洞察。

Data-Juicer 沙盒实验室的提出和其大规模的效果验证,是对多模态数据与模型协同开发这一方向高潜力的有力佐证。如今,我们将项目开源,以激励更多的创新者们一起加入。无论是数据科学家,还是 AI 模型工程师,都可以从这里获得基础支持,探索无限可能。立即上手体验,Data-Juicer 沙盒实验室助您塑造 AIGC 领域的明天!

Data-Model Co-Dev 沙盒论文链接:

http://arxiv.org/abs/2407.11784

Data-Model Co-Dev 综述论文链接:

https://arxiv.org/abs/2407.08583

项目链接:

https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md

模型链接:

https://modelscope.cn/models/Data-Juicer/Data-Juicer-T2V?from=alizishequ__text

https://huggingface.co/datajuicer/Data-Juicer-T2V

相关文章
|
1天前
|
人工智能 弹性计算 开发工具
新发布!阿里云发布最新AI模型、工具及基础设施,建构高效全球AI社群
新发布!阿里云发布最新AI模型、工具及基础设施,建构高效全球AI社群
|
2月前
|
存储 人工智能 算法
《构建鸿蒙Next AI轻量化模型评估指标体系:解锁智能新境界》
在鸿蒙Next生态中,构建适合人工智能轻量化模型的评估指标体系至关重要。该体系涵盖准确性(识别和语义理解)、效率(响应时间和处理速度)、资源占用(CPU、内存、存储)、稳定性(崩溃率和容错能力)、可扩展性(模型更新和多设备适配)及安全性(数据隐私和算法公正)。各指标权重需根据应用场景调整,确保模型性能最优,提升用户体验。
|
3月前
|
存储 人工智能
Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架
Optimus-1是由哈尔滨工业大学(深圳)和鹏城实验室联合推出的智能体框架,旨在解决开放世界环境中长期任务的挑战。该框架结合了结构化知识和多模态经验,通过混合多模态记忆模块、知识引导规划器和经验驱动反射器,显著提升了在Minecraft等环境中的长期任务性能。本文将详细介绍Optimus-1的主要功能、技术原理以及如何运行该框架。
101 7
Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架
|
8月前
|
存储 机器学习/深度学习 人工智能
AI Agent技术的最新进展与改变世界的典型项目巡礼
【7月更文挑战第3天】 AI Agent技术的最新进展与改变世界的典型项目巡礼
 AI Agent技术的最新进展与改变世界的典型项目巡礼
|
10月前
|
人工智能 计算机视觉
李飞飞空间智能系列新进展,吴佳俊团队新BVS套件评估计算机视觉模型
【5月更文挑战第29天】李飞飞教授的SVL实验室与吴佳俊团队推出BEHAVIOR Vision Suite(BVS),一个创新工具包,用于生成定制合成数据以评估计算机视觉模型。BVS解决了现有数据生成器在资产、多样性和真实性方面的局限,提供灵活的场景、对象和相机参数调整。它包含8000多个对象模型和1000个场景,适用于多种视觉任务。实验展示了BVS在评估模型鲁棒性、场景理解和域适应中的效用,但也指出其在覆盖范围、使用难度和域适应上的局限。[论文链接](https://arxiv.org/pdf/2405.09546)
134 4
|
10月前
|
人工智能 边缘计算 机器人
AI日报:谷歌的“双子时代”:将第二代人工智能嵌入其所做的一切
AI日报:谷歌的“双子时代”:将第二代人工智能嵌入其所做的一切
|
机器学习/深度学习 人工智能 自然语言处理
清华大学周伯文:ChatGPT火爆揭示新一代协同与交互智能的高度重要性
清华大学周伯文:ChatGPT火爆揭示新一代协同与交互智能的高度重要性
175 0
|
机器学习/深度学习 人工智能 自然语言处理
剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态
剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态
184 0
|
人工智能 自然语言处理 算法
AIGC时代已来,跨模态内容生成技术发展得怎么样了(1)
AIGC时代已来,跨模态内容生成技术发展得怎么样了
330 0