Apache Doris + SelectDB:定义 AI 时代,实时分析的三大范式

简介: 我们正处数据与智能深度耦合时代,AI能力边界取决于实时数据获取速度与精度。Apache Doris是为实时而生的统一分析引擎,支持秒级更新、亚秒查询、多模数据(含向量)、AI增强(RAG/Embedding)及存算分离,大幅降本增效。SelectDB提供全托管云服务,助力企业实现内部分析、客户洞察与AI代理三大实时范式。

我们正处在一个数据与智能深度耦合的时代。当生成式 AI 重构着人机交互的边界,当大模型开始渗透每一个业务环节,一个根本性问题浮出水面:AI 究竟能跑多快、多准,这取决于它能多快、多准地获取实时数据

这正是我们今天强调实时分析的底层逻辑。它不再是加分项,而是企业在数字经济中生存与成功的必需品。实时分析的价值并非孤立存在,它紧密围绕三大核心驱动力,重塑着企业的竞争壁垒

  • 即时决策与快速响应:这是最直观、也最迫切的需求。在秒级定义胜负的市场中,企业必须在数据产生后的几秒钟内,从最新数据中提炼出可执行的洞察。数据的新鲜度,直接决定商业决策的时效性与准确性。
  • 卓越的客户体验:实时分析让我们能基于用户当下的行为,即刻提供超个性化的服务。当系统能够毫秒级感知客户意图并做出响应,这种体验便成为提升客户忠诚度、构建品牌粘性的战略武器。
  • AI 增强分析:这是面向未来的战略驱动力。实时分析不仅服务于人,更服务于新一代 AI 代理、推荐系统和自动化工作流。可以说,AI 的能力边界,最终取决于它能多快、多准确地获取实时数据。

Apache Doris:为实时而生的统一引擎

Apache Doris 并非简单地将多种能力堆砌,而是从底层开始,为应对上述三大范式的核心挑战而设计,为不同场景提供了坚实支撑。

  1. 实时数据更新与低延迟

    • LSM-Tree 存储引擎:专为高写入和快速更新设计,结合无锁冲突解决机制,实现数据从产生到可查的秒级延迟。

    • Unique Key 的 Upsert 能力:支持行级实时更新插入,彻底取代耗时数小时的批量 ETL,保证业务数据毫秒级同步。

  2. 极速查询与高并发处理

    • MPP 架构:计算节点分布式并行执行,性能随节点数线性扩展,轻松应对 PB 级数据。

    • CBO 优化器:基于成本模型生成最优查询计划,确保复杂查询的高效执行。

    • 分区与分桶裁剪:从物理层面大幅减少数据扫描量。

    • 运行时过滤(Runtime Filter):在 Join 执行中动态过滤数据,极大加速大规模多表关联查询。

    • 多样化索引:包括倒排索引、Bloom Filter、Bitmap 索引等,让全文检索与多维过滤达到极致。

      • 物化视图与多级缓存:预计算加速查询,缓存热数据降低延迟。
  3. 弹性架构与工作负载隔离

    • 存算分离:计算与存储独立弹性伸缩,资源利用率最大化。

    • 工作负载管理:通过资源组、工作负载组将 BI 报表、ETL 作业、即席查询有效隔离,确保高优先级任务稳定运行。

  4. 多模数据分析与可观测性

    • 多模数据支持:原生支持结构化数据、半结构化数据、文本、向量数据(自 4.0 起);支持 Map、Array、Bitmap 等复杂数据类型。其中,Variant 数据类型便于灵活接入与处理 JSON 数据;相较 JSONB 或文本模式具备更高压缩率,并可通过内部列展开等机制显著提升查询性能。
    • 生态集成:Doris 可与 Logstash Collector 集成实现数据直写;支持通过 Kibana 可视化 Doris 内的观测数据;同时支持 OpenTelemetry 等开放 Telemetry Exporter 直接写入 Doris。
  5. 极致成本效益

    • 超高存储压缩率:通过 ZSTD 压缩算法、智能编码优化及数据页大小调整,相同数据集的压缩率可提升 48% 以上,大幅降低存储成本。与 Elasticsearch 相比,存储空间占用可降低 50%-70%。

    • 存算分离降本:计算与存储解耦后,综合成本较存算一体模式可降低超 90%。数据仅需在低成本对象存储中保存单副本,热数据缓存于高性能本地盘,实现存储成本与性能的最佳平衡。

    • 统一引擎简化架构:支持日志、检索、分析等多种负载,帮助企业替换 Elasticsearch、ClickHouse、Snowflake 等多套系统,消除数据冗余,降低综合运维成本。

  6. AI 增强能力

    • 检索与分析:结合向量索引、关键词检索与语义检索,相较单一向量搜索提供更准确的结果:关键词检索保障召回准确性,向量检索保障语义关联性,两者结合可获得更高质量的检索结果。

    • 内置大模型函数:自 Doris 4.0 起集成并支持多类大模型函数,包括 Embedding、相似度计算与模型推理等。这意味着数据无需出库,可在入库或库内直接完成特征提取与模型应用,从而显著降低数据移动与维护成本。

实时分析的三大范式

实时分析的三大范式.png

范式 1:面向内部的分析

  1. 面向内部的分析是公司监控运营、绩效和决策的核心系统。其价值演进正经历一场质变:从回答“发生了什么”(描述性分析),跨越到回答“我们应该做什么”(规范性分析)。

范式 1:面向内部的分析.png

通过 Apache Doris 极速的即席查询毫秒级数据同步,让一线团队基于最新数据动态调整策略。而原生支持的高级分析功能(如窗口函数、时序分析)则直接将数据转化为可执行的行动建议,帮助企业在复杂多变的业务中抢占先机。

典型业务场景

Apache Doris 所支持的内部业务场景几乎覆盖了企业核心价值链,并深入众多行业:从金融的市场数据分析和风险控制,到电商零售的实时库存管理;从外卖打车的订单追踪和热力图监控,到媒体社交的用户参与度分析;再到网络安全流量分析、供应链实时路线调整、物联网传感器数据处理……有实时数据分析需求的地方,就有 Doris 的身影。

典型场景可归纳为以下几类

  • BI 与实时仪表板:以 Doris 高并发、低延迟的聚合查询,驱动运营、销售、财务等部门的实时监控与决策。确保各级部门看到同一份最新数据。例如在电商大促中,销售团队可秒级查看 GMV、转化率与库存变化,并进行动态调整预算投入。
  • 用户行为与产品分析:帮助产品团队跨维度分析用户点击、留存和转化漏斗,快速迭代产品功能。可通过 Doris 实时仪表盘立即看到各步骤流失率;若异常升高,可秒级回溯用户行为日志,实现从问题发现到根因定位的分钟级闭环。
  • 广告技术与推荐分析:实时聚合广告曝光、点击与转化数据,分钟级捕获新素材效果。若点击率低于预期,系统可自动停止投放避免预算浪费;若转化率提升,则动态增加预算,实现收益最大化。
  • 可观测性与日志分析:依托高性能倒排索引与向量化引擎,秒级别完成 TB 级日志的全文检索与运维分析。当服务报错,可实时关联多个服务的日志追踪 ID,快速定位到具体代码行与数据库操作,显著缩短故障平均恢复时间(MTTR),为 AIOps 奠定基础。
  • 欺诈与风险分析:在金融风控中,Doris 实时获取交易记录、登录 IP、设备指纹等多源数据,在百毫秒内完成多维关联查询。系统即时生成风险评估,高于阈值则实时拦截交易,有效防止欺诈。
  • 数据科学与特征聚合:Doris 为机器学习工作流提供快速特征计算,支持融合历史(如数天活跃数据)与实时(如分钟级操作频率)特征。Doris 支持快速增补特征,无需重算全量数据,大幅提升特征工程效率,加速模型构建与迭代。

客户声音

团队使用 SelectDB 进行电芯性能追溯,通过条形码完成追溯链路。该场景涉及多达 10 张表的复杂 JOIN,大表数据量可达 100 亿级。利用 Doris 的倒排索引及相关优化,查询性能相较原系统提升约 10 倍,显著提升供应链效率。

—— 比亚迪

面对大规模物流数据带来的分析挑战,Doris 的查询性能提升约 5–10 倍,并发能力翻倍;在仅使用约 1/3 资源的情况下,90% 的分析任务耗时由 10 分钟降至 1 分钟以内。这使申通快递能够更快发现并解决物流延迟问题。

—— 申通快递

Doris 在小米已广泛应用于广告增长分析、Dashboard 等场景,其中最大集群规模已扩展至 100 个节点,数据量达到 PB 级,稳定支撑核心业务。

—— 小米

范式 2:面向客户的分析

面向客户的分析,即通过服务化方式将实时洞察直接交付给客户,使其能自主感知业务状态与价值。这是 SaaS 平台实现数据能力产品化、驱动客户粘性增长的关键技术路径。

在该范式下,Doris 的实时分析优势直接转化为三大价值:提升客户体验与忠诚度、驱动营收增长,并构筑稳固的客户信任关系

典型业务场景

  • SaaS 分析仪表板:以营销自动化 SaaS 平台为例,其基于 Doris 构建实时仪表板,为数千家企业提供秒级刷新的邮件效果数据。相比过去 T+1 的延迟,如今可实时监测异常并快速响应,支撑高并发查询的同时,显著提升了客户数据体验与平台粘性。
  • 物联网设备监控:工业 IoT 平台基于 Doris 实时监控设备状态(温度、振动、能耗),每秒处理数百万传感器数据,支持多维下钻。异常时秒级告警,可追溯历史趋势并远程干预,有效避免生产事故。
  • 金融科技账户分析:一家金融科技公司基于 Doris 支持商户实时查询交易流水、对账单及风险分析,承载上万 QPS 高并发,确保余额与明细秒级刷新。风控拦截大额交易后,商户即时接收通知并在线处理,显著提升资金流转效率,强化平台竞争力。

客户声音

作为 Doris 的发源地,百度在其广告业务中主要用于支撑广告主仪表盘,使广告主可实时查看投放效果与消费数据。在该场景下,Doris 可承载上万 QPS 的查询,并实现亚秒级的数据新鲜度。

—— 百度

京东使用 Doris 替换 Flink 窗口计算系统,可处理每日约 100 亿行数据,并提供约 1 万 QPS 的查询能力,最低查询延迟约 150 毫秒。这表明在部分场景下,Doris 可通过标准 SQL 接口替代较复杂的流计算框架,帮助用户大幅度简化技术栈并提升数据开发效率。

—— 京东

范式 3:面向智能代理的分析

随着大语言模型和生成式 AI 的爆发,AI 代理(Agent)正从概念走向大规模落地。从智能客服、代码助手到自动化运维代理,它们正在重塑人与系统的交互方式。然而,AI 代理的智能边界,不仅取决于大模型本身,更取决于其感知环境、记忆历史与调用知识的能力。这正是实时分析的核心价值所在

在这一范式下,Apache Doris 作为实时数据底座,深度赋能每一个智能环节

  • 实时感知:依托 Doris 亚秒级的数据摄入与更新能力,代理可基于最新数据做出响应。
  • 记忆及知识增强:Doris 统一支持结构化数据、文本与向量,内置倒排索引与向量检索能力,使代理既能通过关键词检索历史交互(情景记忆),也能通过语义搜索企业知识库(语义记忆),在 RAG 链路中实现高效混合查询,从源头减少模型幻觉。
  • Agent 可观测:Doris 以高性价比的日志处理能力(10 倍性价比于 Elasticsearch)支撑代理的可观测性,通过调用链追踪、行为指标与错误日志的实时分析,持续驱动代理行为优化。

典型业务场景

  • 记忆场景:包括语义记忆与情景记忆。Doris 可存储文档与历史数据,作为知识库通过 RAG 方式检索并提供给模型。Doris 可存储 Agent 的历史行为经验与决策记录,用于改进后续决策,优化未来行为。
  • 可观测场景:代理的大规模部署,运维团队需要监控的不再只是服务器指标,还有代理的“行为健康”。不仅适用于 Agent 可观测,在整体可观测场景中同样具备显著优势。

客户声音

  1. 记忆场景

某企业建设 AI 客服代理。当客户询问“上个月发布的 3.0 版本中,向量搜索性能优化了多少,4.0 版本又如何”时,Agent 会先在 Doris 的情景记忆中检索该客户历史交互记录以获取上下文。随后 Agent 在 Doris 的语义记忆(知识库)中进行混合搜索,结合关键词检索(如“Doris 4.0”“向量搜索”“性能优化”)与向量检索(匹配语义相近但措辞不同的内部文档)。最终,Doris 将匹配到的文档及相关结构化数据返回给 Agent,Agent 基于这些信息将多模态融合数据提供给大模型,从而获得更准确的结果。

  1. AI 的可观测性

国内上市大模型企业 MiniMax 日志系统从 Loki 迁移至阿里云数据库 SelectDB 版,用于管理大规模日志数据,同时保障高可用性与查询性能,并获得更优的成本收益。

—— MiniMax

腾讯音乐使用 Doris 作为统一的 OLAP 引擎,替换 ClickHouse 与 Elasticsearch,并在 Doris 上承载 ChatBI 业务,使 Doris 成为更灵活的智能数据服务平台。

—— 腾讯音乐

Doris 的向量索引能力有较大部分由字节跳动贡献。字节跳动基于 Apache Doris 在内部构建了 PB 级向量存储与混合检索服务,主要对外提供 RAG 能力。

—— 字节跳动

结束语

从内部运营优化,到客户体验提升,再到 AI 代理赋能,实时分析正从技术选项演变为企业生存的必备能力。它不再是单纯的数据处理速度竞赛,而是企业构建数据飞轮、实现智能决策的核心引擎。

Apache Doris 及其官方商业化版本 SelectDB,正是为这一时代需求而生。它们以极致的性能、丰富的场景覆盖和面向未来的 AI 增强能力,帮助企业将数据转化为即时行动,将洞察沉淀为竞争优势。

目录
相关文章
|
3月前
|
存储 人工智能 Cloud Native
上市大模型企业数据基础设施的选择:MiniMax 基于阿里云 SelectDB 版,打造全球统一AI可观测中台
MiniMax 作为上市大模型企业,基于阿里云 SelectDB 打造 AI 可观测中台,实现“一个平台,全球覆盖”。这一成功实践足以表明:SelectDB 能够很好满足 AI 时代海量数据实时处理与分析的需求,为同样需求的 AI 大模型企业提供了一个高性能、低成本的可靠技术解决方案。
321 5
上市大模型企业数据基础设施的选择:MiniMax 基于阿里云 SelectDB 版,打造全球统一AI可观测中台
|
3月前
|
存储 人工智能 固态存储
构建 AI 数据基座:思必驰基于 Apache Doris 的海量多模态数据集管理实践
面对海量多模态数据管理困境,思必驰通过构建以 Apache Doris 为核心的数据集平台,实现了数据从“散、乱、滞”到“统、明、畅”的转变。在关键场景中,存储占用下降 80%、查询 QPS 提升至 3w,不仅实现可量化的效率提升和成本优化,更系统化地提升了 AI 研发效率与模型质量。
229 0
构建 AI 数据基座:思必驰基于 Apache Doris 的海量多模态数据集管理实践
|
4月前
|
存储 SQL 运维
Apache Doris 在小米统一 OLAP 和湖仓一体的实践
小米早在 2019 年便引入 Apache Doris 作为 OLAP 分析型数据库之一,经过五年的技术沉淀,已形成以 Doris 为核心的分析体系,并基于 2.1 版本异步物化视图、3.0 版本湖仓一体与存算分离等核心能力优化数据架构。本文将详细介绍小米数据中台基于 Apache Doris 3.0 的查询链路优化、性能提升、资源管理、自动化运维、可观测等一系列应用实践。
234 3
Apache Doris 在小米统一 OLAP 和湖仓一体的实践
|
5月前
|
SQL 人工智能 数据挖掘
Apache Doris AI 能力揭秘(三):AI_AGG 与 EMBED 函数深度解析
Apache Doris 推出 AI_AGG 与 EMBED 两大核心函数,实现文本智能聚合与语义向量化分析。AI_AGG 支持海量文本动态预聚合,EMBED 结合向量函数实现相似度检索、问答匹配等场景,原生集成 AI 能力至 SQL,让数据分析更智能高效。
339 7
Apache Doris AI 能力揭秘(三):AI_AGG 与 EMBED 函数深度解析
|
4月前
|
SQL 关系型数据库 Apache
Apache Doris 实时更新全解:从设计原理到最佳实践|Deep Dive
本文档将作为一份官方指南,系统性地阐述 Apache Doris 的数据更新能力,内容涵盖其核心原理、多样的更新与删除方式、典型的应用场景,以及在不同部署模式下的性能最佳实践,旨在帮助您全面掌握并高效利用 Doris 的数据更新功能。
402 0
Apache Doris 实时更新全解:从设计原理到最佳实践|Deep Dive
|
5月前
|
存储 druid BI
从 ClickHouse、Druid、Kylin 到 Doris:网易云音乐 PB 级实时分析平台降本增效
基于 Apache Doris 替换了早期架构中 Kylin、Druid、Clickhouse、Elasticsearch、HBase 等引擎,统一了实时分析架构,并广泛应用于广告系统、日志平台和会员报表分析等典型场景,导入性能提升 3~30 倍,机器成本整体降低 55%、部分场景下高达 85%,每年节省数百万成本,综合效能提升 3~7 倍等显著收益,本文将详尽介绍基于 Doris 架构升级及在这些场景中的应用实践。
500 0
从 ClickHouse、Druid、Kylin 到 Doris:网易云音乐 PB 级实时分析平台降本增效
|
2月前
|
人工智能 缓存 关系型数据库
Apache Doris 4.0.3 版本正式发布
亲爱的社区小伙伴们,**Apache Doris 4.0.3 版本已正式发布。**此版本新增了在 AI & Search、湖仓一体、查询引擎等方面的能力,并同步进行了多项优化改进及问题修复,欢迎下载体验!
198 8
|
2月前
|
存储 SQL 缓存
快手:从分散存储到统一分析,Apache Doris 在万亿规模广告场景的应用
面对日增 3 亿行、万亿规模存量广告数据,快手广告数据平台如何突破性能瓶颈、实现架构统一与体验跃升? 快手引入 Apache Doris 替换 ClickHouse、Elasticsearch,从分散存储到统一分析,实现查询性能提升 20~90%,单表写入吞吐 300 万行/秒,存储效率提升 60%!
371 1
快手:从分散存储到统一分析,Apache Doris 在万亿规模广告场景的应用
|
3月前
|
SQL 存储 运维
从 Greenplum 到 Doris:集群缩减 2/3、年省数百万,度小满构建超大规模数据分析平台经验
面对日益增长的业务体量与复杂多变的分析需求,选用一个高效、可靠的数据库系统,已成为支撑业务稳健发展与快速创新的关键。Apache Doris 以其出色的性能表现与高度灵活的架构,成为众多场景下的优选方案,详情阅读原文。
190 1
从 Greenplum 到 Doris:集群缩减 2/3、年省数百万,度小满构建超大规模数据分析平台经验