Agent 应用范式下,企业数据基础设施如何演进?

简介: Agent正重塑企业智能化入口:它统一“人”与“能力”的接口,让目标驱动执行。SelectDB发布会将探讨——当Agent成为新范式,实时OLAP引擎如何成为数据栈核心?6月11日14:00,揭晓Agentic Analytics新架构。

过去一年,Agent 正从一个技术概念,逐渐变成企业智能化落地的核心入口。

这背后并不只是应用形态变化,更像是一场新的接口革命:人不再需要理解每一个工具的使用方式,也不再需要在不同系统之间反复切换;人只需要表达目标,Agent 则负责理解意图、拆解任务、选择工具、调用数据并完成执行。

在即将举行的 SelectDB 产品发布会上,我们也将围绕这一变化做一次更系统的分享:当 Agent 成为新的应用范式,企业的数据基础设施需要发生哪些改变?实时分析引擎在其中承担什么角色?

要回答这些问题,需要先从应用范式的演进说起。

一、Agent 时代正在到来

1990 年代的 Internet 上,有很多各自独立的应用:Email、FTP、Gopher、IRC、Telnet。它们有不同的协议,也有不同的客户端。Web 一开始只是其中一种,看起来只是一个用来浏览超文本的工具。

但后来的发展证明,Web 做了一件其他协议没有完成的事:它把很多应用吸收进来了。Webmail 逐渐替代了传统 Email 客户端,网页下载弱化了 FTP 的存在,Web 化的协作工具也重塑了即时通信的形态。Web 最终成为那个承载其他应用的应用。

Web 之所以能成功,不只是因为体验更好,而是因为它统一了“人”和“信息”的接口:一个 URL,一个浏览器,就可以访问几乎所有信息。这样的接口一旦建立起来,就很难再被逆转。

今天,Agent 与 LLM 的关系,也有一点类似

LLM 的应用形态大致可以分为几类:直接调用、链式调用、RAG、Workflow、代码执行、Agent。但这并不是一个彼此平行的选项,Agent 更像是一种更高层的组织方式。

RAG 检索和代码执行,是 Agent 工具箱里的能力;预定义 Workflow,是 Agent 将决策路径“写死”之后的特例;直接调用,则是 Agent 在没有工具可用时最简单的形态。就像浏览器里可以发邮件、聊天、下载文件一样,Agent 内部可以检索知识、执行代码、串联推理、调用外部系统,甚至在关键节点请求人类把关。

它统一的是“人”和“能力”的接口:你不需要先判断该打开哪个系统、使用哪个工具、调用哪个 API;你只需要描述目标,Agent 会自己去规划、选择和执行。

这就是为什么我们说,Agent 时代正在到来。它不是一个短期热点,而是一个可能像 Web 重塑 Internet 一样,重塑软件应用形态的新范式

二、软件的三种形态:从规则,到训练,再到驾驭

要理解 Agent 时代对数据基础设施意味着什么,我们需要先退一步,看清软件本身的演化逻辑。

过去几十年里,软件制造智能大致经历了三次变化。

1-软件的三种形容.png

第一阶段,软件的核心是规则。工程师把业务逻辑写进代码,系统按照确定的规则执行。这个阶段的数据基础设施,主要是关系型数据库:存储状态,支持事务,保证业务系统稳定运行。

第二阶段,智能越来越多来自数据训练。企业把大量数据喂给模型,通过训练得到预测、推荐、识别等能力。这个阶段催生了 Lakehouse。企业需要一个统一底座,既能做 SQL 分析和 BI,也能支持 Spark、PyTorch 等工具做模型训练。Databricks 和 Snowflake 的崛起,正是抓住了这个需求。

而第三阶段正在改变这个前提

当模型厂商(OpenAI、Anthropic、Google)完成了预训练,企业不再需要从零开始训练模型。核心工作流不再是洗数据 → 做特征 → 训练 → 部署,而是在推理时,用 200 毫秒这样极快的速度给 Agent 喂入最相关的上下文。

智能的来源变了,数据栈的重心自然也会随之变化

三、Lakehouse 的核心假设正在松动

Lakehouse 过去最有吸引力的叙事,可以概括成一句话:一份数据,两种用途

同一份存储在 S3 上的数据,既可以跑 SQL 又能做 BI 分析,也可以交给 Spark、PyTorch 等工具做模型训练。这个叙事在 2015 到 2022 年之间非常有说服力。那时候,很多企业都相信自己需要训练模型,分析团队和数据科学团队共享同一份数据底座,也确实有很强的工程价值。但进入 Agent 时代之后,这个叙事开始出现裂缝

首先,训练和推理对数据系统的要求,本质上并不相同

Lakehouse 更适合批处理场景。无论是基于开放表格式的数据管理,还是面向大规模扫描和离线计算的执行框架,本质上都服务于“夜间跑 ETL、白天出报表”或“大规模数据训练”的工作流。但 Agent 需要的不是批量处理一张拥有上百列的大宽表,而是在一次对话、一次推理、一次任务执行过程中,快速完成点查、过滤、聚合、向量检索、全文检索等操作。

对于 Agent 而言,数据查询不是后台任务,而是推理链路中的实时环节

一次查询慢 200 毫秒还是 3 秒,对于传统报表用户来说也许差别不大;但对于一个需要多轮检索、多次调用工具的 Agent 来说,这可能就是 1 秒和 15 秒的差距。这会直接影响终端用户是否愿意继续等待。

Lakehouse 最强的能力,是分布式大规模扫描;但在 Agent 场景中,真正高频出现的是亚秒级查询、高并发轻查询、混合检索和语义化访问。这恰恰不是 Lakehouse 最擅长的部分。

其次,数据共享这个论点的说服力在下降

Lakehouse 强调一湖多用,前提是分析团队和训练团队都需要访问同一份数据。但当企业的智能能力越来越多来自预训练大模型,而不是自研模型训练时,“训练团队”的核心工作流也在变化。

数据科学家仍然需要数据,但他们越来越多需要的是一份能够被实时查询、语义清晰、支持混合检索的热数据,而不是一份躺在 Parquet 文件里、等待 Spark 扫描的冷数据。

但这并不意味着 Lakehouse 会消失,它在企业数据治理、合规归档、PB 级冷数据管理,以及大模型厂商自身的预训练 Pipeline 中,依然有不可替代的价值。变化在于,它正在从前台的主角,变成更偏后台的基础设施。

而走向前台的,是那些能在 Agent 推理循环中直接创造价值的数据系统——实时 OLAP 引擎

四、实时分析引擎正成为 Agent 时代的数据核心

当数据的首要消费者从"人"变成"智能体",整个分析型数据库的架构优先级会被重新定义。

第一,亚秒级延迟从加分项变成准入门槛

传统分析型数据库面对的是分析师。分析师可以等待报表刷新,可以接受查询排队,也可以在复杂分析中忍受一定延迟。但 Agent 面对的是终端用户。用户在对话窗口前等待回答,Agent 在后台不断拆解任务、调用工具、查询数据、补充上下文。每一次数据访问的延迟,都会被叠加到最终体验中。

这要求数据引擎在索引粒度和执行效率上做到极致。Short Key Index、ZoneMap、Bloom Filter、倒排索引等机制,不再只是性能优化手段,而是 Agent 能否稳定运行在实时场景中的基础能力。相比 Iceberg 的文件级跳过,Agent 场景更需要行级、块级、更细粒度的数据裁剪能力。

第二,混合检索需要一个统一入口

Agent 不会说"我现在要做一次向量检索",它只会说"帮我找到类似的情况"。一次对话中,Agent 可能先做一次点查,再做一次聚合分析,随后进行向量搜索,最后再通过全文检索补充证据。对 Agent 来说,这些都只是完成任务所需的能力。

但今天的技术生态往往是割裂的:向量数据库如 Pinecone 擅长相似度检索,但缺少完整的 SQL 分析能力;全文检索系统如 Elasticsearch 擅长关键词搜索,但在复杂分析和实时聚合上并不总是足够强;传统数仓擅长分析,却未必适合低延迟混合检索。

Agent 需要的是一个统一引擎:能够在同一个查询计划中调度 SQL、向量、全文等多种检索能力,合并结果,并以更适合 LLM 消费的方式返回上下文。Doris / SelectDB 正在这个方向上持续投入,将向量检索、全文检索与实时 SQL 分析能力进一步融合。

第三,Schema 语义化会成为数据库的一等能力

Text-to-SQL 的准确率,并不只取决于 LLM 的能力,也取决于 Schema 本身是否容易被机器理解。

在传统数仓中,类似 ods_usr_bhvr_pv_log_di 这样的表名,对熟悉业务的人来说可以通过数据字典理解;但对动态生成 SQL 的 Agent 来说,这样的 Schema 往往很难处理。

未来的数据库必须把“让机器理解数据结构”作为一等需求。表注释、列注释、示例数据、语义标签、指标口径、数据血缘,这些能力过去更多被视为治理和文档工作;但在 Agent 时代,它们会直接影响 Agent 是否能够正确理解数据、生成 SQL、调用工具并完成任务。

第四,高并发、低成本和细粒度弹性会变得更重要

一个分析师一天可能只写几十条 SQL。但一个 Agent 在一次复杂对话中,就可能生成几十条查询。企业内部一旦有大量 Agent 同时运行,查询量可能是过去分析场景的 100 倍,甚至 1000 倍。

这会对数据系统提出全新的挑战:不仅要快,还要能承受高并发;不仅要稳定,还要具备足够好的成本效率;不仅要能扩展,还要支持细粒度、秒级弹性。

一套为上百并发设计的 Lakehouse 集群,在面对成千上万 Agent 同时访问时,成本和延迟都可能变得难以控制。

这正是实时 OLAP 引擎需要解决的问题:在存算分离的基础上,通过共享存储架构、弹性计算资源和高效查询执行,支撑面向 Agent 的实时数据访问。这也是 Doris / SelectDB 持续演进的方向。

湖仓与 olap 的对比.png

五、不是替代,是分层

这里需要特别精确:我们并不是说 Doris 替代 Databricks,也不是说实时分析引擎替代 Lakehouse。

真正发生的,是整个数据栈重心的迁移

未来企业的数据架构更可能是一个两层结构:热数据在实时 OLAP 引擎,例如 Doris / SelectDB、ClickHouse,用于服务 Agent 的每一次实时查询,毫秒级返回;冷数据放在 Lakehouse 中,Lakehouse 本身构建在对象存储之上,天然适合承载长周期归档、合规备份和历史数据分析。

Lakehouse 的价值不会消失,开放格式、数据共享、治理、ACID 这些能力依旧重要,但它不再是数据世界的中心。当 Agent 每天产生数百万次实时查询,而训练任务可能一周才跑一次时,哪个引擎最能捕获增量价值,答案已经很清楚。

Agent 正在重塑应用层。实时分析引擎,正在成为 Agent 时代数据栈中最关键的实时入口

在这样的背景下, Doris / SelectDB 和 ClickHouse 这类实时分析引擎,正在从“可选项”变成企业智能化架构中的“默认配置”。

六、结束语

Agent 时代不是一个停留在概念里的趋势。它正在以一种渐进但明确的方式进入企业:先从客服、运营、BI、知识库、数据分析等场景开始,再逐步扩展到更多核心业务流程。

可以确定的是,当 Agent 真正进入生产系统,企业对数据基础设施的要求会发生根本变化。实时、低延迟、混合检索、语义化、高并发、低成本弹性,这些过去看起来分散的能力,将会汇聚成 Agent 时代的数据底座。

在即将举行的 SelectDB 产品发布会上(6月11日,14:00,视频号:SelectDB ),我们将进一步分享 Doris / SelectDB 在实时分析、混合检索、Agentic Analytics、AI Agent 可观测、多模数据处理等方向上的最新进展,也会系统呈现我们对下一代数据架构的系统思考。

目录
相关文章
|
17天前
|
人工智能 运维 监控
Agent 开发范式演进:从环境工程出发,“简化”多源实时上下文
本文基于阿里云沈林在2026中国生成式AI大会的分享,指出企业级Agent落地瓶颈不在模型,而在上下文供给能力。文章从“环境工程”视角,提出信息完备性、感官管理、知识对账、变更治理、普惠门槛五大维度,探讨如何让Agent低成本、可靠接入多源实时业务环境。
Agent 开发范式演进:从环境工程出发,“简化”多源实时上下文
|
3月前
|
存储 人工智能 开发工具
Claude Code自动记忆来了!配合老金三层记忆系统全开源!加强Plus!
昨天晚上,老金我照例打开 Claude Code 准备写代码。 随便聊了几句项目架构,Claude突然冒出一句: "Based on our previous discussions, this project uses pnpm and TypeScript strict mode." 老金我愣了一下。 上次提到pnpm是三天前的事了,这中间重启了好几次。 打开 ~/.claude/p
|
2月前
|
人工智能 前端开发 机器人
AI 智能体开发中的技术难点
AI智能体落地难?四大硬骨头:记忆持久性、复杂任务规划与纠错、多Agent协作通信、超低延迟交互,外加评测黑盒与幻觉治理。从“能聊”到“能干”,每一步都需突破工程极限。(239字)
|
12天前
|
SQL 机器学习/深度学习 自然语言处理
从单模态到多模态:一文看懂智能问数平台如何“读懂”你的表格、文本和图
截至2026年5月,智能问数平台对表格、文本、图等多模态数据的处理已形成四类技术路线:预制SQL、Text2SQL+宽表、预制指标平台及本体语义层。后者在跨模态融合、泛化能力与准确率(闭卷95%+、开卷100%)上优势显著,但需前期语义治理投入;前三者适用固定场景,维护成本随业务扩张呈指数增长。选型关键不在技术优劣,而在匹配组织的数据复杂度、业务变化频率与治理能力。
|
15天前
|
人工智能 数据库 开发工具
从可观测到可理解:用 UModel 构建 Agent 原生的代码知识图谱
本文对比 Claude Code、Cursor 等主流方案,提出基于 UModel 的代码知识图谱如何让 Agent 从"找代码"到"懂结构"。
|
10天前
|
存储 人工智能 运维
深度回顾 | 阿里云携手 Elastic 定义 Agent 时代搜索新范式,解锁 Search AI 核心生产力
阿里云Elasticsearch升级为Agent Native搜索底座,推出Agentic Search、知识记忆湖、FalconSeek引擎及Hybrid Retrieval 2.0,实现面向AI智能体的毫秒级上下文检索,支持千亿级数据降本40%-70%,助力企业构建稳定、智能、低成本的下一代AI搜索基础设施。
149 0
|
15天前
|
SQL 人工智能 安全
Hologres CLI与Skills担当Agent-Ready 基础设施,共建数仓智能新生态
Hologres AI Plugins 是面向AI Agent时代的智能数据仓库插件,提供安全、结构化的CLI命令行与Agent Skills知识库,支持JSON输出、六层安全防护、敏感数据脱敏、Serverless隔离及自适应执行,让AI自主、可靠地操作Hologres。
|
12天前
|
人工智能 弹性计算 运维
OpenClaw 阿里云实战指南:保姆级部署+高效使用+避坑全解
OpenClaw(社区昵称“小龙虾”)是2026年备受关注的开源AI智能体执行网关,核心定位是让大模型从“对话”升级为“行动”,通过自然语言指令自动完成文件管理、浏览器操控、服务器运维、流程自动化等真实任务,成为个人与团队的24小时数字员工。其具备本地优先、完全开源、永久免费(仅需支付API调用成本)、高适配性等核心优势,完美兼容阿里云各类云服务,成为阿里云用户部署AI代理的首选方案。
212 0
|
5月前
|
存储 人工智能 自然语言处理
数字化转型中的知识管理新范式
2025年数字化浪潮下,企业知识管理成战略议题。Gartner预测,2026年采用AI知识管理系统的企业运营效率领先对手40%。但多数企业陷知识内耗:数据分散、员工日均切换8个系统;核心人员离职致年均损失$42,000;重复劳动耗30%资源,新员工3个月达产,传统工具成转型瓶颈。
286 0
|
6月前
|
人工智能 自然语言处理 搜索推荐
2025年企业如何选择合适的智能客服系统,适合中小企业的智能客服系统推荐
2025年,智能客服从“降本工具”升级为“增长引擎”。瓴羊Quick Service依托阿里云与大模型技术,具备高并发、全渠道、行业化适配等优势,助力企业实现服务智能化升级,是兼具性能与扩展性的优选方案。

热门文章

最新文章