用友畅捷通基于阿里云 MaxCompute 搭建智能数仓的落地实践

简介: 本文根据《Data+AI融合趋势下的智能数仓平台建设》线下 meetup 演讲实录整理而成王龙强-畅捷通数据架构师今天非常荣幸能够与大家分享用友畅捷通基于阿里云 MaxCompute(以下简称 MC)构建智能数据仓库的落地实践经验。本次分享将从以下几个方面展开:一是业务背景,介绍我们在2017年启动数仓搭建时的技术选型背景;二是选择 MC 作为核心技术平台的原因及具体应用案例;三是对未来工作的展望。

一.业务背景


畅捷通信息技术股份有限公司成立于2010年3月,是用友集团旗下的核心成员企业,专注于为企业提供数字化转型解决方案。公司的发展历程可以概括为以下几个关键阶段:

  • 2005年至2012年:深耕传统软件服务领域,相继推出了T1、T3、T6和T+等经典产品。

  • 2013年:正式启动 SaaS 服务转型战略。

  • 2014年至2016年:数智财税板块取得突破性进展,成功推出“好会计”与“易代账”两款拳头产品。

  • 2018年至2019年:数智商业板块再攀高峰,“好生意”与“T+C”应运而生。

  • 2019年至今:全面构建云服务平台,不断完善云原生架构,并重磅推出“好业财”产品。

640 - 2025-07-09T104656.636.png


随着业务规模的迅速扩张,畅捷通在数据管理方面遇到了诸多挑战。经过深入分析,我们总结出以下六大痛点:

  • 数据孤岛现象严重:内部系统繁多,数据分散于各类数据库与文件系统中,亟需统一整合。

  • 数据规模大且复杂:自2017年起,随着 SaaS 服务转型,数据量呈指数级增长,传统关系型数据库难以承载如此海量的数据。

  • 要求较高的数据处理能力:面对庞大的数据量,我们需要一个具备极高处理能力的数据仓库。

  • Serverless 云原生能力:畅捷通的五个核心 SaaS 产品都是生在云上,长在云上,因此需要一个具有 Serverless 云原生能力,且生态友好的数据仓库。

  • 数据安全与可靠性:数据是企业的核心资产,数据的安全性和可靠性至关重要。企业需要确保数据在存储、处理和传输过程中的安全性和可靠性,防止数据泄露、丢失或被篡改。

  • 实时性要求不高:批计算因其严谨性和准确性,在我们的业务中占据重要地位。

基于以上考虑,我们最终选择了阿里云 MC 作为数据仓库的核心技术平台。

640 - 2025-07-09T104757.782.png


以下是畅捷通当前数据仓库的技术架构图,尽管该架构已经具备一定的成熟度,但我们仍在持续优化和改进。从整体架构来看,数据流从左侧的数据源端到右侧的数据应用端贯穿始终,并通过实时链路和离线链路两条链路实现数据处理。今天,我将重点聚焦于离线链路的设计与实现。在离线链路中,我们通过 DTS、DataHub、DataWorks、DataX 等数据集成工具将数据收集到 MC,再通过 MC 数仓分层对数据进行加工和抽象,最终为外部数据应提供了支持。


640 - 2025-07-09T104837.422.png


二.案例分析

1.指标计算

简单分析两个案例,首先是指标计算。我们的业务系统会生成业务数据,这些数据会通过 PolarDB 的 DTS 数据同步,同步到 DataHub,随后再通过 MC 的Connector 连接到 MC 中。尽管从技术实现的角度来看,完全可以省略中间的 DataHub 环节,直接将 PolarDB 的数据通过 DTS 同步至 MC,但我们在架构设计中引入了 DataHub 以满足部分系统对实时数据的需求,通过创建 Topic 方式创建 SubID,就可以获取数据用于实时业务研发。当数据进入 MC 后,我们会对其进行每日的日志合并操作,从而生成贴源层数据,在此基础上,进一步通过明细数据加工、汇总数据加工以及应用数据加工等操作,逐步形成 ADS 层数据,为后续的实时数仓(如 StarRocks 或 Hologres)提供数据支持。最终,服务于多样化的数据应用场景。


640 - 2025-07-09T105006.981.png


财务参谋就是一个最典型的指标计算案例。在大数据背景下,为了满足企业内外部数据分析的需要,我们推出了数字参谋产品,财务参谋是其中的一部分,重点突出经营成果、效果、风险,既普适仅购买财务系统的管理者,又适合买业务系统的管理者。我们提供的指标主要包括两方面,一是企业内的指标分析,另外就是对标行业的指标分析,将企业的财务相关经营指标与行业优秀指标对照,就可以识别企业的经营健康度与成长性。企业内指标分析主要是从以下五个维度:

  • 盈利分析:从盈利视角看待企业的经营,通过分析企业赚取利润的路径、达成盈利的能力来指引企业经营方向,帮助企业寻求科学有效的改进方向。

  • 费用分析:通过分析企业的费用构成、费用占比,挖掘降低费用的潜力,提高企业经济效益。

  • 资金分析:资金是企业经营的流动血液,资金的良性使用和循环,对企业正常运行起到保障作用,通过分析企业当前和未来资金状况,揭露企业经营中资金风险。

  • 资产分析:资产的规模直接、间接地反映企业的规模,通过分析企业的资产质量,看企业资产分布的合理性,揭露企业资产风险。

  • 税负分析:分析企业的税负情况,纳税风险与企业的综合税负率。

640 - 2025-07-09T105105.155.png


2.数据分析

第二个案例是数据分析。数据分析在数仓中的重要性不言而喻。从决策支持角度,数据分析帮助企业管理者进行战略决策制定,在面临重大业务转型或资源分配调整时,数据分析可以提供量化的依据,帮助企业进行业务决策优化。站在业务流程改进角度,数据分析为客户关系管理优化提供了强有力的支持。通过埋点方式,采集用户行为数据,并结合用户画像与行为路径分析,企业能够深入理解用户的偏好、需求及痛点。这些洞察不仅有助于优化产品设计和服务流程,还能指导精准营销策略的制定。例如,通过分析用户流失的关键节点,企业可以及时采取干预措施从而降低用户流失率。数据分析也是营销活动效果评估与优化的重要工具。例如进行广告投放时,通过投放结果数据分析,就可以评估活动效果,判断数据投放是否合理,从而更加科学地调整广告内容及投放策略。


640 - 2025-07-09T105218.566.png

640 - 2025-07-09T105300.190.png


数据分析整体流程就是通过 DataWorks 数据集成、DataX、SLS日志、Datahub 等工具,将来自各个数据源的数据统一收集到 MC,经历一系列的 数据清洗和数据计算后,形成一定的宽表和指标。随后,这些加工后的数据会根据具体需求保留在 MC 中、回写至业务库、或者加载至实时数仓支持数据应用。

下图罗列了畅捷通涉及数据分析的系统:

  • 北极星系统是公司的运营系统,存储了所有的渠道、运营、产品等部门相关的报表和数据,为管理者提供公司统一的运营数据。

  • 达尔文系统是伙伴客户管理系统,是所有伙伴的客户,运营,回访,代客下单,跟踪成单系统。

  • SCRM 是公司客户管理系统,运营和电商人员基于此系统对所有公司的客户进行定期回访跟进,然后直营部门成单,同时也支持电商人员查看统计报表。

  • 交付系统是客户成功部对已成单客户进行产品交付,包含交付客户的基础数据以及产品使用等数据。

  • 开放平台,对接生态平台数据,如第三方钉钉、企微等数据。

  • 标签系统是用户画像系统,为用户进行打标签计算,为更上层的应用服务,为用户提供更加个性化的服务与体验。

640 - 2025-07-09T105105.155.png


三.未来展望


1.数据湖探索实践


随着数据规模的持续增长以及业务复杂度的不断提升,传统的数据存储架构已难以满足日益增长的需求。因此,我们将在数据湖领域进行更深层次的探索,尤其是围绕湖仓一体展开技术实践。无论是采用“湖上挂仓”、“仓上建湖”,还是“大湖小仓”的架构模式,我们的目标是构建一个灵活、高效且可扩展的数据存储与计算体系。在数据湖之上,我们将部署离线计算和实时计算两套引擎。离线计算引擎首选 MC,同时积极探索 MC 最新的物化视图功能,尝试用其替代原有的 MC 部分计算算子。实时计算引擎则以 StarRocks 为核心,所有数据都会统一写到 StarRocks,由 StarRocks 对外提供支持。


640 - 2025-07-09T105536.551.png


2.指标平台

人工智能与大模型技术正在快速发展,我们也会紧跟这一技术趋势,深度融合 AI 原生技术。我们计划采购一款三方指标平台,利用语义模型、归因分析、血缘分析、影响分析等能力,实现业务与流程的智能化和自动化。


640 - 2025-07-09T105635.971.png

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
2月前
|
存储 人工智能 安全
拔俗AI临床大数据科研分析平台:让医学研究更智能、更高效
阿里云原生AI临床大数据科研平台,打通异构医疗数据壁垒,实现智能治理、可视化分析与多中心安全协作,助力医院科研提速增效,推动精准医疗发展。
|
2月前
|
存储 人工智能 OLAP
AI Agent越用越笨?阿里云AnalyticDB「AI上下文工程」一招破解!
AI上下文工程是优化大模型交互的系统化框架,通过管理指令、记忆、知识库等上下文要素,解决信息缺失、长度溢出与上下文失效等问题。依托AnalyticDB等技术,实现上下文的采集、存储、组装与调度,提升AI Agent的准确性与协同效率,助力企业构建高效、稳定的智能应用。
|
2月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
|
3月前
|
数据采集 自动驾驶 机器人
数据喂得好,机器人才能学得快:大数据对智能机器人训练的真正影响
数据喂得好,机器人才能学得快:大数据对智能机器人训练的真正影响
244 1
|
4月前
|
SQL 存储 运维
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
本文介绍了 Apache Doris 在菜鸟的大规模落地的实践经验,菜鸟为什么选择 Doris,以及 Doris 如何在菜鸟从 0 开始,一步步的验证、落地,到如今上万核的规模,服务于各个业务线,Doris 已然成为菜鸟 OLAP 数据分析的最优选型。
319 2
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
|
3月前
|
存储 人工智能 关系型数据库
阿里云AnalyticDB for PostgreSQL 入选VLDB 2025:统一架构破局HTAP,Beam+Laser引擎赋能Data+AI融合新范式
在数据驱动与人工智能深度融合的时代,企业对数据仓库的需求早已超越“查得快”这一基础能力。面对传统数仓挑战,阿里云瑶池数据库AnalyticDB for PostgreSQL(简称ADB-PG)创新性地构建了统一架构下的Shared-Nothing与Shared-Storage双模融合体系,并自主研发Beam混合存储引擎与Laser向量化执行引擎,全面解决HTAP场景下性能、弹性、成本与实时性的矛盾。 近日,相关研究成果发表于在英国伦敦召开的数据库领域顶级会议 VLDB 2025,标志着中国自研云数仓技术再次登上国际舞台。
386 0
|
4月前
|
存储 人工智能 分布式计算
数据不用搬,AI直接炼!阿里云AnalyticDB AI数据湖仓一站式融合AI+BI
阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL版(以下简称ADB)诞生于高性能实时数仓时代,实现了PB级结构化数据的高效处理和分析。在前几年,为拥抱大数据的浪潮,ADB从传统数仓拓展到数据湖仓,支持Paimon/Iceberg/Delta Lake/Hudi湖格式,为开放的数据湖提供数据库级别的性能、可靠性和管理能力,从而更好地服务以SQL为核心的大规模数据处理和BI分析,奠定了坚实的湖仓一体基础。
|
4月前
|
存储 人工智能 算法
Java 大视界 -- Java 大数据在智能医疗影像数据压缩与传输优化中的技术应用(227)
本文探讨 Java 大数据在智能医疗影像压缩与传输中的关键技术应用,分析其如何解决医疗影像数据存储、传输与压缩三大难题,并结合实际案例展示技术落地效果。
|
4月前
|
机器学习/深度学习 安全 Java
Java 大视界 -- Java 大数据在智能金融反洗钱监测与交易异常分析中的应用(224)
本文探讨 Java 大数据在智能金融反洗钱监测与交易异常分析中的应用,介绍其在数据处理、机器学习建模、实战案例及安全隐私等方面的技术方案与挑战,展现 Java 在金融风控中的强大能力。

相关产品

  • 云原生大数据计算服务 MaxCompute