本文为数据库「拥抱Data+AI」系列连载第6篇,该系列是阿里云瑶池数据库面向各行业Data+AI应用场景,基于真实客户案例&最佳实践,展示Data+AI行业解决方案的连载文章。
本篇针对企业构建智能搜索服务的痛点,介绍如何利用阿里云Data+AI解决方案构建一站式AI搜索服务,深入分析了DMS+Lindorm的智能搜索解决方案。
1、智能搜索成为信息消费的趋势
近两年,AI大模型的迅速崛起为搜索产品注入了新的活力,这一发展不仅改变了用户获取信息的方式,也为企业和开发者带来了新的机遇。
如今,检索的形式不再局限于关键词匹配,而是朝向更高效、更智能的对话式问答演进。原本用户检索一个专业问题通常需要从多个平台搜集资料,并花大量时间对这些资料进行整合,而智能检索则可以进一步理解用户的搜索意图,帮助用户快速整合提炼信息,大幅提升了信息获取的效率。
随着用户信息消费方式的改变,搜索产品的智能化成为提升用户体验、增加用户粘性的重要手段。微软率先在Bing中整合GPT模型,力求提供更符合用户需求的回答;Google也推出了Gemini,直接针对用户提问来生成答复。
越来越多企业希望为域内用户提供智能搜索服务,而服务的构建需要面临以下三座大山:
1. 快速搭建和迭代的需求:当前AI行业还处于快速发展期,企业需要将主要精力集中在核心业务创新上,从头搭建基础设施效率低,涉及组件多,这些组件架构各异、运维方式不同、使用方式不同,对于运维开发人员来说学习成本很高,同时部署或更新模型也需要大量的时间和技术投入。
2. 数据规模膨胀和成本增加:随着数据规模的不断增长,内存成本和计算资源的需求也会显著增加。传统的检索方案可能无法有效处理大规模数据,导致检索速度下降,同时增加硬件投入和运维成本。
3. 检索的准确性和灵活性:通用搜索引擎方案的检索对业务全程黑盒,业务难以根据实际效果对架构进行调整。业务需要一套更加灵活的智搜方案,比如能够支持自定义部署微调后的Embedding、Rerank模型等。
2、Data+AI解决方案
今年9月云栖大会上,阿里云瑶池数据库重磅发布“DMS+X:统一、开放、多模的Data+AI数据管理服务”。该平台通过OneMeta和OneOps两大创新,简化了数据管理与AI开发,实现DMS+X一站式的Data+AI全生命周期管理。在DMS+X之上,阿里云将助力企业数据以最快的速度拥抱AI,落地业务,产生价值。
DMS+Lindorm为广泛的企业群体提供智能搜索应用构建和落地的解决方案,提供强大的AI Infra和低门槛的Data+AI管理平台,加速企业AI应用落地。其中,云原生多模数据库Lindorm作为一款AI时代的一体化开发平台,已经支持数家头部基模企业和AI独角兽落地部署万亿数据级别的智能检索方案,并沉淀了一套成熟的服务体系。
云原生多模数据库Lindorm是为AI时代而生的多模数据服务,面向海量泛时序、半结构化和非结构化数据提供低成本存储、在线查询和离线分析等一站式数据服务。Lindorm针对AI场景支持正排、全文、向量融合检索和AI推理能力,落地场景包括互联网级智能搜索、企业级智能知识库和非结构化数据检索等。
3、Lindorm智搜方案为何成为头部基模客户之选
一站式搭建,实现轻松运维和灵活调整
搭建一个智能搜索平台,首先需要对部署全流程进行拆解:
1、数据准备
首先需要对互联网信息和私域数据进行收集、加工和存储,这就需要用来存储大量数据的标量库;
2、知识向量化
为了同时支持全文和向量检索,同一份数据要经过切割和向量化处理后存储多份,这就需要一个将各种格式的标量数据转化为精准向量的推理引擎,以及一个用于高效存储向量数据的向量库;
3、构建检索系统
接着需要通过检索组件从知识库中检索相关的知识,不仅需要保证召回质量,还需要保证召回速度,这就需要一个高性能、多功能的搜索引擎;
4、集成大模型
为了让用户的问题可以被程序理解,让结果具备可读性,还需要调用大模型,以形成有条理的问答过程,这就需要调用大模型的接口;
5、数据流转和安全保障
以上这些组件之间还需要搭建起一套数据流转的链路,以保证数据的一致性。
首先,对运维开发人员来说要具备多技术栈能力,包括标量库、检索库和向量库的部署与使用;同时为了保证企业内部的数据的安全性,以上这些数据库都需要建立严谨的数据权限机制;又由于信息数据是动态更新的,各组件之间数据同步和维护的难度会比较高,这些问题无疑增加了开发复杂度,延长了项目周期,对于追求快速迭代的AI业务来说,是个严峻挑战。
▶︎ Lindorm作为智能搜索Infra支撑
使用多种开源组件进行部署,不可避免会面临架构冗余、数据处理流程繁琐、数据重复以及接口不兼容等问题。针对这种情况,Lindorm构建了一个全新的一站式数据平台,内部的多个引擎按需插拔,覆盖数据处理全链路,一体化提供离线批处理、在线分析、AI推理服务、融合检索(正排、倒排、全文、向量等),数据全程在Lindorm内部自动流转,无需额外建设和维护同步链路。
在模型部署方面,Lindorm已经集成了主流Embedding、LLM、Rerank模型等,对于运维开发人员来说,仅需使用SQL语句,即可在数据库内部部署和运行AI模型,极大地简化了智搜应用的开发流程。在此基础上,Lindorm同样支持企业自定义部署微调模型,从而根据实际效果进行调整和优化。
🤖️ 一站式构建智能搜索实操指南
以下指南旨在帮助您高效地利用开源数据集构建一个基于Lindorm的一站式智能搜索平台,提供了从模型部署、知识库构建到检索系统搭建的完整部署代码。代码下载地址:🔗https://github.com/search-demo/lindorm_smart_search/blob/main/lindorm_demo.ipynb
ps:如果您希望使用自己的数据集,可以尝试深入理解demo提供的代码逻辑,从而重新进行表结构的设计,并修改创建表、数据写入和查询等相关操作。
▶︎ Dify On DMS一站式端到端开发
在Lindorm作为AI Infra支撑的基础上,DMS托管的社区版Dify能够帮助业务进一步简化开发,实现端到端部署智能搜索应用。在Lindorm内部所构建的高质量知识库、检索pipline以及大模型,都可以在Dify on DMS进行白屏化配置与串联,并轻松完成模型版本管理、API配置、指标检测等运维工作。
Dify作为一款开源的LLM应用开发平台,提供从Agent构建到AI Workflow编排、模型管理等能力,帮助用户轻松构建和运营Gen-AI原生应用。DMS托管的Dify与阿里云生态进行了深度集成,包括通义大模型、瑶池数据库、百炼以及多款自研精品模型等,能够有效支撑客户落地端到端生产级AI应用,大幅降低管理成本,交付效率提升10倍。
降低成本存储,应对不断膨胀的海量数据
搜索平台的数据可达到PB级,还要面对未来数据的不断膨胀,数据存储成本将会远超计算成本,是企业的关键考量因素之一。Lindorm具备极高的存储性价比,在支撑低时延、高并发的检索需求的前提下,帮助企业将极大程度节省成本。
1. 高压缩比:Lindorm对ZSTD压缩算法进行了深度优化,在多种场景下所需的存储空间仅为HBase的1/2,MySQL的1/4。
2. 自动冷热分离:支持自动冷热分离,既能保证高频数据的查询效果,还能够帮业务节省低频数据的存储成本。
3. EC降幅本技术:Lindorm的EC降副本技术可以在保证数据可靠性和可用性的前提下,进一步帮助业务节省大量存储空间。
检索全流程优化,打造最高性价比
检索质量是构建智能检索平台的另一重点,而知识库加工、embedding效果、召回模式等都与检索的准确率相关。Lindorm围绕检索的前、中、后阶段进行优化,相较于Elasticsearch开源方案表现出色。
1. 高质量内容解析:Lindorm擅长处理各种非结构化数据,以文档结构化为技术底座对PDF、图片、网页等进行结构化识别与理解,并在内部自动完成chunking和embedding,从而保证后续的召回效果。
2. 多路召回和MultiQuery:Lindorm对接开源框架,从用户提问到内通召回、再到结果处理,都进行了相应的优化,并且支持用户通过自定义模型、自定义文档质量分等方式对检索效果进行调优。
3. 数据灵活更新与动态扩展:Lindorm提供基于磁盘的向量索引技术,在索引构建后依然支持数据实时修改和实时可查,并且支持动态水平扩展。
4、总结和展望
Lindorm可以一站式替代多个开源组件的复杂架构,并且在成本更低的前提下,仍然在性能方面优于开源方案。后续,Lindorm将继续发挥多模的优势,满足企业更多样化的需求。
DMS+Lindorm一站式AI搜索解决方案大幅降低了企业落地智搜应用门槛,是所有企业进行搜索产品智能化转型的不二之选,选择所有头部基础大模型公司之所选,筑造企业AI基础设施,把握时代机遇,打造AI原生应用带来全新企业价值。