基本原理
基于LLM的分块(LLM-based Chunking),直接将原始文档输入大语言模型(LLM),由模型智能生成语义块。利用LLM的语义理解能力,动态划分文本,保证了分块语义的准确性,但这种分块方法对算力要求最高,对时效性与性能也将带来挑战。
基于LLM分块流程(图片来源:DailyDoseofDS)
实现步骤
- 输入文档:将完整文档送入LLM(如DeepSeek、GPT)。
- 生成块指令:通过提示词(Prompt)引导模型按语义划分块。
- 示例提示词:“请将以下文档按语义划分为多个块,每个块需包含完整主题。”
- 输出块列表:模型返回划分后的块,可能包含逻辑标签(如“引言”、“方法论”)。
主要优点
- 高度智能化:适应复杂、非结构化文本(如自由写作、对话记录)。
- 动态适应性:根据文档内容自动调整块大小和逻辑。
- 生成质量:块语义连贯,减少人工干预。
主要缺点
- 计算成本高:依赖高性能LLM,资源消耗大。
- 可解释性差:模型决策过程难以追溯,可能产生不可预测的块。
- 依赖模型能力:效果受限于LLM的训练数据和语义理解能力。