视频 RAG 中分块策略:基于停顿、滑动窗口与基于 LLM 的方法

简介: 本文探讨视频RAG中的核心挑战——如何为无时间结构的视频转录文本设计有效分块策略。对比传统文本分块,提出基于停顿、重叠窗口、递归切分及LLM驱动的主题分块四层方案,实现细粒度检索与全局理解兼顾,提升视频内容检索准确性与上下文完整性。

文本的RAG我们都已经很熟悉了,但是如果数据以原始视频转录文本的形式存储,没有合适的时间结构,那么相比标准的 PDF 或文本文档,如何检索视频里面的内容呢?

针对同样的问题还可以换一个更高层次的问法:

“这个视频整体在讲什么?”

系统会出现幻觉,或者返回一段泛泛的答案——检索器看到的只是孤立的短片段看不到整体。这个问题问题不在 LLM而是在分块策略本身。

本文会拆解视频分块的具体机制,从基础的文本解析往前推进一步,构建一个能够理解视频时间结构与组织结构的系统。

分块简介

分块(Chunking)指的是把大段信息切分为更小、有意义的片段,以便大语言模型(LLM)或向量数据库进行检索和处理。

视频分块为什么不同于文本分块

为文本文档构建 RAG 流水线时,可以依赖段落、换行符或固定数量的 Token 这些标准分隔标记。视频则天然是多模态、带时间维度的。

一段视频文件不是一份文档,而是一个由时间驱动的交互流,包含画面切换和语音对话。

基于停顿的分块

第一种真正可用的工程方案是基于停顿的分块(Pause-Based Chunking)。

说话人在不同思路、幻灯片切换或话题切换之间,会自然留出停顿。这些天然边界可以用来切分视频转录文本。

假设转录文本中包含每句话或每段话的起止时间戳。算法比较前一段的结束时间与后一段开始时间之间的间隔:

仅靠停顿分块为什么会失败

停顿检测是一个不错的起点,但根据查询类型的不同,它存在两类结构性缺陷。

说话人在解释一个复杂概念时短暂喘了口气,算法可能会从这里切出一个新块,上下文也随之被割裂:

  • 块 1: “CI/CD 把……的过程自动化”
  • 块 2: “……构建、测试和部署软件。”

如果检索系统只取出块 1,LLM 收到的就是一个不完整的句子,缺少给出完整技术性回答所需的上下文。

要在保留基于停顿分段优势的同时解决上下文割裂,可以引入带重叠的窗口策略。

通过保留一段重叠(例如 5 秒或若干句话),相邻分块之间的上下文得以保留。

如果数据是节奏很快、几乎没有停顿的教程视频,基于停顿的分块就会失效——切出的块要么过大、要么过小,都缺乏意义。

当不存在明显停顿、音频几乎是连续的,就回退到基于长度的递归策略:

  1. 检查停顿: 如果有,使用基于时间的边界。
  2. 回退条件: 如果某个片段没有停顿,且超过最大长度(例如 200 个词),按句子边界进行切分。

    基于 LLM 的主题分块

要解决这类高层次的查询,需要一种更进阶的策略:基于 LLM 的主题分块(LLM-Based Topic Chunking)。

把数据不再视作一条条独立的话语,而是将细粒度分块送入 LLM,让它对片段做聚类和摘要,归纳出有意义的主题。

把细粒度分块和一个用于生成主题与元数据的 Prompt 一起传给模型:

 {  
 "topic": "Introduction to CI/CD Fundamentals",  
 "summary": "Covers the basic definition of CI/CD, its role in modern deployment, and the foundational stages of a build pipeline.",  
 "start": 0,  
 "end": 120,  
 "key_terms": ["CI/CD", "deployment", "build stage"]  
 }

把细粒度分块与主题分块结合起来

生产级的 RAG 系统会同时用上两种策略:

  • 细粒度分块: 存入向量数据库,用于具体信息的检索,例如时间戳和精确答案。
  • 主题分块: 用于全局检索和摘要类任务。

    整体串起来,端到端的处理 Pipeline 是这样的:

    总结

分块不只是数据预处理的一个前置步骤——数据被切分的方式,决定了检索系统对它的理解程度。从简单、均匀的切分,转向利用自然停顿与 LLM 驱动主题分段的多层、多模态架构,Agent 才能拿到回答具体技术问题和宽泛主题问题所需的上下文。

https://avoid.overfit.cn/post/6d24a4a88971454bb68d54c82772a759

by Rishav Aich

目录
相关文章
|
1天前
|
存储 人工智能 算法
告别无效刷屏!TrendRadar:最快30秒部署的开源热点助手,让你只看真正关心的新闻
TrendRadar 是一个轻量级、易部署的热点新闻聚合与推送工具。它能够从知乎、抖音、B站、微博、百度、华尔街见闻等11个主流平台抓取热搜榜单,然后根据你设定的关键词进行智能筛选,最终将你最关心的内容推送到手机或邮箱。
83 11
 告别无效刷屏!TrendRadar:最快30秒部署的开源热点助手,让你只看真正关心的新闻
|
1天前
|
存储 人工智能 自然语言处理
拒绝“大模型幻觉”:一文彻底搞懂 RAG(检索增强生成)技术全流程
本文深入解析RAG(检索增强生成)技术,直击大模型落地私有知识场景的核心痛点——如何让LLM精准、低成本、高时效地基于企业文档作答。从文本分片、向量化索引,到召回重排、增强生成,系统拆解五大关键步骤,揭示RAG作为“AI外挂”的底层逻辑与工程实践精髓。
108 2
拒绝“大模型幻觉”:一文彻底搞懂 RAG(检索增强生成)技术全流程
|
1天前
|
安全 JavaScript 前端开发
《ZAKU渗透论:卓伊凡的2026渗透工程》第四章:Web攻击原理(下)——XSS、CSRF、文件上传漏洞
本章详解XSS、CSRF与文件上传三大Web漏洞:XSS通过注入恶意脚本窃取Cookie;CSRF伪造已登录用户请求执行非自愿操作;文件上传漏洞则因校验缺失致服务器被控。三者共性——过度信任用户输入。(239字)
87 6
|
1天前
|
监控 API Windows
WGCLOUD v3.6.8 正式更新
WGCLOUD v3.6.8发布:修复CPU/内存等指标偶现为0、大屏离线数据不显示等Bug;新增Windows系统服务列表及开放API;优化告警脚本执行与SNMP设备运行时间兼容性。升级方式详见官方图示。
|
3月前
|
机器学习/深度学习 文字识别 数据挖掘
BookRAG:面向层级文档的树-图融合RAG框架
BookRAG是专为书籍类层级文档设计的新型RAG框架,首创“树+图+链接+Agent”四元结构:构建融合版面层级树与知识图谱的BookIndex,通过GT-Link双向映射实现结构与语义统一;引入信息觅食启发的Agent,动态规划检索路径,支持单跳、多跳及全局聚合查询,在精度、覆盖率与效率上显著优于传统文本/版面优先方法。
484 5
BookRAG:面向层级文档的树-图融合RAG框架
|
5天前
|
人工智能 自然语言处理 API
阿里云海外重磅发布 Qwen Cloud
Qwen Cloud,正是为AI Agent 而生的全新服务方式。
424 24
|
1天前
|
机器学习/深度学习 数据采集 人工智能
田间杂草检测数据集分享(适用于YOLO系列深度学习分类检测任务)
本数据集含4000张真实农田图像(小麦/玉米/水稻田),YOLO格式标注杂草目标,覆盖多天气、光照与视角,适用于YOLO系列等目标检测模型训练,助力智能除草与精准农业研究。(239字)
82 11
|
2天前
|
人工智能 运维 安全
Claude Code模型替换升级指南 接入DeepSeek V4-Pro实操与问题排查全解
当下终端AI编程工具Claude Code凭借轻量化、全流程代码处理、跨文件项目分析等优势,成为众多开发者日常编码、项目重构、漏洞修复、脚本编写的主流选择。原生状态下Claude Code绑定专属模型运行,虽然基础能力稳定,但在代码理解、长逻辑推理、中文场景适配、调用成本等方面仍存在优化空间。
178 9
|
1天前
|
人工智能 运维 自然语言处理
深度了解千问Qwen3.7-Max 阿里云百炼旗舰模型能力特点与计费订阅方案参考
在国内大模型产业高速发展的当下,通用大模型逐步从基础对话服务,走向复杂推理、工程编码、长文本处理、多领域专业分析等高阶应用场景。阿里云百炼作为国内主流大模型服务平台,持续迭代通义千问系列模型,**Qwen3.7-Max** 作为当前定位旗舰级的主力版本,凭借顶尖的综合能力、全面的场景适配、稳定的服务表现,成为企业研发、个人开发者、内容创作、智能体搭建等场景的首选模型之一。
139 2
|
2天前
|
人工智能 自然语言处理 API
阿里云TokenPlan和CodingPlan有啥区别?选哪个调用ai模型更划算?
阿里云百炼两大订阅方案:Coding Plan(200元/月)面向个人开发者,按调用次数计费,仅支持文本模型,有频次限制;Token Plan团队版(198–1398元/坐席/月)面向企业团队,按Credits统一抵扣,支持文本+图像多模态模型,无频次限制、多租户隔离、数据不用于训练。开通阿里云百炼免费领取千问tokens:https://t.aliyun.com/U/fPVHqY
91 1