突破视频多模态大模型瓶颈!合成数据立大功,项目已开源

简介: 针对视频多模态大模型(LMMs)因缺乏高质量原始数据而发展受限的问题,研究人员开发了LLaVA-Video-178K数据集,包含178,510个视频,涵盖详细字幕、开放性问题回答和多项选择题。此数据集通过结合GPT-4o和人工标注,实现了广泛视频来源、动态视频选择、递归字幕生成及多样化任务设计。基于此数据集训练的LLaVA-Video模型,在视频字幕、问答等任务上表现优异,且已开源,助力视频LMM的研究与发展。

在人工智能领域,视频多模态大模型(LMMs)的发展一直受到高质量原始数据稀缺的困扰。为了解决这个问题,研究人员提出了一种替代方法,即创建一个专门用于视频指令遵循的高质量合成数据集。这个数据集名为LLaVA-Video-178K,包括详细字幕、开放性问题回答(QA)和多项选择问题回答等关键任务。通过在这个数据集上进行训练,并结合现有的视觉指令微调数据,研究人员引入了一个新的视频LMM,名为LLaVA-Video。

在当前的人工智能研究中,大规模计算和数据对于多模态学习至关重要。视觉指令微调(Liu et al., 2024a)是最近的一个重要进展,它为构建通用视觉助手奠定了基础。然而,获取高质量的视频语言指令遵循数据具有挑战性(Zhang et al., 2023; Li et al., 2024e)。首先,获取高质量的视频很困难。其次,当前的视频语言指令遵循数据集通常使用非常稀疏的采样率进行帧注释,这导致在需要详细描述视频时出现幻觉。

为了克服这些挑战,研究人员提出了一个名为LLaVA-Video-178K的综合视频指令微调数据集。这个数据集包含178,510个视频,范围从0到3分钟。它通过结合GPT-4o(OpenAI, 2024)和人类努力,丰富了详细注释、开放性问题和多项选择问题。该数据集具有以下四个优点:

  1. 广泛的视频来源:研究人员对现有视频理解数据集的视频来源进行了全面调查,并确定了10个主要视频数据来源。他们从这些来源中收集视频数据,并建立了一个视频池。
  2. 动态未剪辑视频选择:从视频池中,研究人员使用多个过滤逻辑来选择最动态的视频。他们选择原始、未剪辑的视频以确保情节完整性。
  3. 递归详细字幕生成管道与密集帧采样:研究人员提出了一个详细的视频字幕管道,该管道递归运行,使他们能够为任意长度的视频生成详细字幕。他们还采用了每秒一帧的密集采样策略,以确保采样帧足够丰富,能够代表视频。
  4. 多样化任务:基于详细的视频描述,研究人员可以生成问题-答案对。为了确保他们的问题涵盖广泛的场景,他们参考了视频问题回答数据集,并定义了16种问题类型。

研究人员在各种视频基准上对LLaVA-Video进行了实验,并证明了它的强大性能。他们发现,LLaVA-Video在视频字幕、开放性问题回答和多项选择问题回答等任务上都表现出色。这表明他们的合成数据集在提高视频LMM的性能方面非常有效。

为了支持通用视觉助手的发展,研究人员将他们的多模态指令数据、代码库、模型检查点和一个视觉聊天演示公开发布。这将使其他研究人员能够使用他们的数据集和模型来进一步推动视频LMM的发展。

优点

  1. 高质量的合成数据集:LLaVA-Video-178K是一个高质量的合成数据集,包括详细字幕、开放性问题回答和多项选择问题回答等关键任务。
  2. 强大的性能:LLaVA-Video在各种视频任务上表现出色,包括视频字幕、开放性问题回答和多项选择问题回答。
  3. 开源项目:研究人员将他们的数据集、代码库和模型检查点公开发布,以支持其他研究人员的工作。

缺点

  1. 数据集规模相对较小:尽管LLaVA-Video-178K是一个高质量的数据集,但它的规模相对较小,可能不足以涵盖所有可能的视频场景。
  2. 对计算资源的要求较高:由于视频数据的复杂性,训练视频LMM需要大量的计算资源,这可能限制了它的广泛应用。

论文链接:https://arxiv.org/pdf/2410.02713

目录
相关文章
|
8月前
|
人工智能 vr&ar 图形学
开源单图生成3D模型TripoSR的局限性分析
【2月更文挑战第25天】开源单图生成3D模型TripoSR的局限性分析
358 6
开源单图生成3D模型TripoSR的局限性分析
|
19天前
|
人工智能 自然语言处理
DynamicControl:腾讯推出动态地条件控制图像生成框架,结合了多模态大语言模型的推理能力和文生图模型的生成能力
DynamicControl 是腾讯优图联合南洋理工等机构推出的动态条件控制图像生成新框架,通过自适应选择不同条件,显著增强了图像生成的可控性。
55 11
DynamicControl:腾讯推出动态地条件控制图像生成框架,结合了多模态大语言模型的推理能力和文生图模型的生成能力
|
9天前
|
数据采集 运维 数据可视化
阿里云多模态数据信息提取解决方案深度评测与优化建议
本文基于多模态数据信息提取方案的部署体验,深入剖析其在操作界面、部署文档、函数模板、官方示例及实用性与移植性等方面的表现,并提出针对性改进建议。优化建议涵盖模型性能对比、实时校验、故障排查手册、代码注释扩充、行业专属示例集等,旨在提升方案的易用性、功能性和通用性,助力企业在复杂数据处理中高效挖掘价值信息,推动数字化转型。
34 9
|
1月前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
74 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
4月前
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
|
4月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
103 10
|
5月前
|
数据采集 人工智能 编解码
抛弃视觉编码器,这个原生版多模态大模型也能媲美主流方法
【8月更文挑战第4天】在AI领域,多模态大模型(VLMs)融合视觉与语言处理,但现有模型多依赖视觉编码器,限制了灵活性与效率。为解决此问题,研究者开发出不依赖编码器的VLMs,提出一种高效训练方案,通过统一解码器内部桥接视觉-语言表示,并引入额外监督增强视觉识别能力。基于此,开发出EVE模型,在多个基准测试中表现出色,仅用3500万公开数据即可媲美甚至超越传统模型。尽管如此,EVE仍面临计算资源需求高及数据质量等挑战。这一突破引发了对未来VLM发展方向的讨论。[论文链接: https://arxiv.org/abs/2406.11832]
71 1
|
7月前
|
机器学习/深度学习 语音技术
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再压缩
【6月更文挑战第12天】谷歌DeepMind的Zipper架构解决了多模态大模型灵活性问题,通过分解为单模态模型并用“压缩”过程组合,实现多模态生成。该方法允许独立训练每个模态,提升灵活性和可扩展性,适用于数据有限或领域特定的模态。Zipper利用交叉注意力机制融合模态输出,适用于图像描述、语音识别等任务。尽管需要更多计算资源且性能受限于单模态模型质量,但已在ASR和TTS领域展现潜力。论文链接:https://arxiv.org/pdf/2405.18669
75 3
|
7月前
|
机器学习/深度学习 监控
【机器学习】基于扩散模型的文本到音频生成:突破数据局限,优化音频概念与实践顺序
【机器学习】基于扩散模型的文本到音频生成:突破数据局限,优化音频概念与实践顺序
215 0
|
8月前
|
机器学习/深度学习 人工智能
论文介绍:PreFLMR——扩展细粒度晚期交互多模态检索器以提升知识视觉问答性能
【5月更文挑战第3天】PreFLMR是扩展的细粒度晚期交互多模态检索器,用于提升知识视觉问答(KB-VQA)性能。基于FLMR,PreFLMR结合大型语言模型和检索增强生成,增强准确性与效率。通过M2KR框架全面评估,PreFLMR展示出色性能,尤其在E-VQA和Infoseek等任务。然而,其在预训练阶段未充分训练知识密集型任务,且仍有优化训练方法和数据集混合比例的空间。[论文链接](https://arxiv.org/abs/2402.08327)
213 1