从数据洞察到智能决策:合合信息&infiniflow RAG技术的实战案例分享

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
简介: 【9月更文挑战第3天】从数据洞察到智能决策:合合信息&infiniflow RAG技术的实战案例分享

从数据洞察到智能决策:合合信息&infiniflow RAG技术的实战案例分享

标题取自 LLamaIndex,这个内容最早提出于今年 2 月份 LlamaIndex 官方博客。从 22 年 chatGpt 爆火,23 年大模型尝鲜,到 24 年真正用 AI 落地业务场景,业界普遍都发现了从 MVP 到 PMF 不是那么容易的,具体的原因有非常多,在 RAG 场景下,最主要的表现是企业的数据 “垃圾进,垃圾出”,如何利用好企业数据是提升 RAG 效果的关键

看一下各个公司都是怎么做的

1. 合合信息

官方网站:https://www.textin.com/

一周快速出 Demo,半年产品不好用

RAG 范式从直观上理解起来落地是比较容易的,通过自然语言的语意匹配度找到相关的内容,再让模型进行回答,可是在实际落地过程中发现效果比预期差很多,总结起来会有以下一些问题

1.1 LLM RAG 产品如何快速达到可用、好用,开始增长?

如何解决 RAG 落地过程中遇到问题,提升 RAG 的整体效果,达到线上生产可用的目标,首先落地的关键点在于

再回归本质,影响 RAG 落地效果的最本质问题在于

1.2 提升 RAG 效果核心的优化方向:高质量文档解析 + 高质量检索

  • RAG 优化目标一: 快速、稳定、精准解析文档

原始的文档是各种各样的格式,各种各样的模态,如何快速、精确解析出高质量的内容对提升最终检索效果非常重要

  • RAG 优化目标二: 高精度、高效率向量检索

从海量的内容中提取出最相关的内容,对提升 LLM 输出效果准确率、相关性非常重要

  • TextIn 通用文本解析技术 + Acge 向量化模型

合合信息自研了 TextIn 通用文本解析技术,对丰富的文档格式和内容能快速,精准解析为 MD 格式,另外自研的 acge_text_embedding 向量化模型在检索准确率,精度等方面表现也非常突出

  • TextIn 技术的一些介绍和效果展示 (示例,详见附录 PPT)








  • acge_text_embedding 向量化模型的效果展示

  • 线上产品效果展示

  • 总结

2.infiniflow(英飞流)

官网:https://infiniflow.org/
infiniflow 自研了 AI-Native Database Infinity,在 RAG 检索方面表现非常突出

  • 下一代 RAG 引擎



同样对于 RAG 效果的提升,英飞流的核心研究方向也是高质量的内容解析 + 高质量的检索

  • 内容解析

  • 效果展示

  • 表格识别模型

  • 文档识别模型

  • 多模态识别

这里演讲人描述了和月之暗面创始人关于多模态识别的讨论,在大模型厂商看来,目前英飞流做的内容识别的工作都是雕花,因为大模型的上下文会越来越长,但演讲人还是更坚定于解决当前内容识别效果提升的问题,这里没有对错,只是看什么方案更适合

  • 混合检索

英飞流提供的 AI Native 数据库是个亮点,由于当前向量化检索的一些限制 (数据量、延迟、精度等),各种数据库在混合检索方面支持的效果参差不齐,英飞流致力于提供高性能、高精度、支持海量数据、支持混合检索的 AI

  • Native 数据库

Infinity 支持稠密向量、稀疏向量、张量、全文检索、结构化检索等丰富检索方式,了解 cross-encoder 的同学应该知道,cross-encoder 在检索效果方面比双编码器要好很多,但随着数据量提升,延迟不断升高,通常是不能接受的。随着 colbert 延迟交互的提出,目前业界针对检索效果和检索性能方面有了更让人惊喜的方案,但 colbert 也有一些工程问题,比如上下文限制,无法端到端使用等,Infinity 数据库支持 Tensor 数据类型,原生支持了 colbert 端到端方案,保障效果的前提下并解决海量数据检索延迟的问题,还是非常惊喜的


性能方面的表现非常突出

Intinity 在检索效率和效果上做到了兼顾

  • 延迟交互是 RAG 的未来

2.1高级 RAG

另外一个分享的主体是在复杂查询下如何提升检索效果

  • Agentic RAG

这里通常的思路都是进行问题预处理,人机协同反馈调优,没什么大的差异

  • 知识图谱

知识图谱是一个很优秀的技术,对检索结果效果优化是非常好的补充

小结

3.LlamaIndex

博客:https://www.llamaindex.ai/blog
llamaIndex 提到的优化方向和上边提到方向是一致的,这说明在企业落地 RAG 项目中,重点应该关注的是内容的解析效果和内容检索的效果

关于 llamaIndex 的分享内容这里不详细罗列,感兴趣可以看下附录的 PPT,这里主要看下 llamaIndex 做了哪些工作

3.1 LlamaParse

LlamaIndex 提供了 LlamaParse 可以解析复杂的多格式、多模态的文档,并以 AI Friendly(MD) 的格式输出

这里可以简单说 AI Friendly,其实业界提出 MD 格式是对 AI Friendly 的格式,在我们日常和业务合作过程中,也发现了 MD 的效果是最好的

另外,chunk 一般建议最好一个 chunk 是一篇文档,保障最完整的语意,这给了我们一个组织文档的经验建议

3.2 LlamaExtract

LlamaExtract 在 llamaIndex 分享的 ppt 没有提及,但在官方博客中提了,主要是以结构化的方式提取出文档的信息,有点类似图谱,是对文档检索内容的一个非常好的补充,感兴趣可以看下官方博客

相关文章
|
8月前
|
机器学习/深度学习 人工智能 文字识别
文档图像智能分析与处理:CCIG技术论坛的思考与展望
文档图像智能分析与处理:CCIG技术论坛的思考与展望
155 1
文档图像智能分析与处理:CCIG技术论坛的思考与展望
|
23天前
|
机器学习/深度学习 数据采集 人工智能
AI在用户行为分析中的应用:实现精准洞察与决策优化
AI在用户行为分析中的应用:实现精准洞察与决策优化
91 15
|
3月前
|
自然语言处理 数据可视化 前端开发
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
合合信息的智能文档处理“百宝箱”涵盖文档解析、向量化模型、测评工具等,解决了复杂文档解析、大模型问答幻觉、文档解析效果评估、知识库搭建、多语言文档翻译等问题。通过可视化解析工具 TextIn ParseX、向量化模型 acge-embedding 和文档解析测评工具 markdown_tester,百宝箱提升了文档处理的效率和精确度,适用于多种文档格式和语言环境,助力企业实现高效的信息管理和业务支持。
4133 5
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
|
3月前
|
自然语言处理 搜索推荐 数据可视化
合合信息开源智能文档处理“百宝箱”:加速、提质、个性化定制的高效助手
随着AI技术的发展,合合信息在CSDN 1024程序员节上发布了智能文档处理“百宝箱”,旨在解决文档处理中的非结构化文本提取难题。该工具集包括可视化文档解析前端TextIn ParseX、高精度向量化模型acge-embedding及文档解析测评工具markdown_tester,广泛适用于知识库构建、智能文档抽取、预训练语料管理等场景,助力开发者高效精准处理复杂文档。
136 0
合合信息开源智能文档处理“百宝箱”:加速、提质、个性化定制的高效助手
|
7月前
|
文字识别 算法 数据挖掘
视觉智能开放平台产品使用合集之对于统计研究和数据分析,有哪些比较好的工具推荐
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
2月前
|
存储 人工智能 自然语言处理
了解文档智能和知识挖掘
文档智能是 AI 的一个方面,用于管理、处理和使用在表单和文档中发现的大量各类数据。 借助文档智能,能够创建可自动处理合同、运行状况文档和财务表单等的软件
44 0
|
5月前
|
人工智能 运维 自然语言处理
从海量信息中脱颖而出:Workflow智能分析解决方案,大语言模型为AI科技文章打造精准摘要评分体系(总篇章)
【8月更文挑战第10天】从海量信息中脱颖而出:Workflow智能分析解决方案,大语言模型为AI科技文章打造精准摘要评分体系(总篇章)
从海量信息中脱颖而出:Workflow智能分析解决方案,大语言模型为AI科技文章打造精准摘要评分体系(总篇章)
|
5月前
|
数据采集 人工智能 安全
AI大数据处理与分析实战--体育问卷分析
本文是关于使用AI进行大数据处理与分析的实战案例,详细记录了对深圳市义务教育阶段学校“每天一节体育课”网络问卷的分析过程,包括数据概览、交互Prompt、代码处理、年级和学校维度的深入分析,以及通过AI工具辅助得出的分析结果和结论。
|
6月前
|
存储 监控 数据安全/隐私保护
云上智能视频分析:重塑视觉监控与决策的未来
云上智能视频分析平台注重数据安全和隐私保护。通过采用多种技术手段确保视频数据在传输、存储和处理过程中的安全性和隐私性,保护用户隐私和商业秘密不受侵犯。 四、未来发展趋势 4.1 边缘计算与云计算融合 随着物联网设备数量的不断增加和数据量的快速增长,边缘计算将成为云上智能视频分析的重要发展方向。通过将计算能力和数据处理能力下沉到边缘侧,可以减少数据传输延迟和带宽消耗,提高系统的响应速度和稳定性。 4.2 跨领域融合与创新 云上智能视频分析技术将与物联网
242 7
|
8月前
|
机器学习/深度学习 算法 数据挖掘
【大数据分析与挖掘技术】概述
【大数据分析与挖掘技术】概述
129 1