DorisDB 叶谦:打造新一代企业数据驱动体系

简介: DorisDB 叶谦:打造新一代企业数据驱动体系
文章作者: 叶谦。现任鼎石纵横科技(DorisDB) COO,原友盟数据(后阿里收购)CEO,此前曾在“微软亚洲研究院”研究过互联网搜索引擎网页排序算法,后加入“百度”搜索新产品部,从事百度社区类产品的技术研发工作,2009年转调百度基础架构部,任项目经理,带领团队从事百度底层分布式系统、底层通用库和通用模块的研发。

近年来,数字化转型的重要性已经被越来越多的公司所认识。在十四五规划中数据已经成为和土地、劳动力、资本、技术所并列的六大要素。如何充分挖掘数据资产价值,运用各类大数据分析工具来驱动业务发展,已成为企业管理者所关注的最重要的问题之一。国际著名咨询公司麦肯锡认为,构建大数据及高级分析能力是撬动企业业务新增长最重要的杠杆之一。加大数据分析能力的建设,从企业业务的各环节入手,有助于企业整体运行效率提升。

  • 与此同时,随着产业互联网的不断升级,企业数据量的不断增长,企业的大数据分析也面临着前所未有的全新挑战:
  • 如何应对业务的快速迭代和变化,让数据分析人员更快更灵活地进行数据分析?
  • 越来越多的业务需要实时数据分析的支持,如何才能构建强大并可扩展的实时数据分析能力?
  • 随着数据驱动战略的落地,更多的业务人员需要经常查看数据报表,需要具备数据分析能力,如何才能有效支持这些业务人员的日常工作?

为了应对与日俱增的数据分析需求,数据系统不断膨胀,给后续的系统维护和升级,以及数据的统一管理带来了很大的隐患。如何才能打破这个局面,降低维护和管理的风险?

yy.png

以上这些都是当今企业管理层所面临的现实问题和挑战,本文将围绕着这些问题,和大数据分析未来的发展趋势,探讨新一代企业大数据分析体系所应具备的能力,以及如何构建这样一套现代化的大数据分析体系。


更快更灵活地分析

数据分析对于企业来说并不是新鲜的事物,但是对于数据分析“快”的追求却是近几年出现的重要趋势。这里所说的“快”包含以下两个层面的涵义:

首先,数据查询的速度要快。无论是企业的管理者还是业务的分析人员都会发现,如果一个数据报表加载展现的延时超过3秒钟,查看者就会产生一定的焦躁情绪;如果加载展现的延时超过半分钟,查看者一定不会再想看第二次。如果业务人员不愿意查看数据报表,那么数据驱动便无从谈起。很遗憾的是,绝大多数企业原有的数据分析系统,存在大量需要几分钟,甚至十几分钟才能打开的数据报表。这些报表极大降低了业务人员的工作效率和工作热情。

其次,数据报表的建设速度要快。这个特性对于高速发展的业务来说至关重要。对于这些快速迭代的业务,如何进行数据分析,从哪些维度进行分析是一个需要不断探索和改进的课题。在这个过程中,数据指标如果支持快速构建和变更,那就意味着能更快地试错,更快地找到合适的分析方式,进而加速业务的迭代,在竞争中占据先机。如果数据指标建设需要整条数据链路各个环节的修改,建设周期至少以周为单位来计算,那么数据分析必然是制约业务发展的重要因素。

另一方面,企业需要更灵活的数据分析方式来支持不断发展的业务。

传统的,基于预计算的数据分析模式已经不能满足多样化的数据分析场景。预计算模式要求业务方提前定义好分析的模式。对于没有预先定义好的分析模式无法执行。这种方式对数据分析的限制很大,对于发展变化迅速的业务,其数据分析模式经常会发生变化,如加减维度列(商品属性信息增加)、维度值发生变化(组织架构调整)等,使得预先定义好分析模式几乎是不可能的。预计算固然能够减少固定查询的计算复杂度,但是系统仅仅支持预计算模式显然是不够的。

只有能高效地支持各类型查询的现场计算,能在秒级返回结果的数据分析引擎,才能真正支持好快速发展的现代企业。


更实时地分析

随着产业互联网和移动互联网的兴起,越来越多的业务场景需要实时数据分析的支持。以往,企业的数据报表往往是“T+1”生产,大部分报表是在每一天的凌晨进行批量计算,然后在早晨8点前生成结果,以便运营人员和管理者在上班后能查看到前一天的数据。然而,这样的“隔日”数据分析模式,已经不能满足现代企业业务迭代速度的需求。

越来越多的业务场景需要对实时数据进行分析,如在线广告投放场景,业务人员需要即时了解所投放广告的效果,以及时调整投放策略,提高广告投放的ROI;实时推荐场景,业务系统需要根据用户的浏览行为,甚至地理位置等信息,以及时进行相关产品或服务推荐,提升用户体验和转化率;电商大促场景,在大促进行时,管理者需要实时了解交易量的情况,以确定下一步的促销计划;一线业务人员看报表的场景,很多企业已经给一线的业务人员配备了移动办公APP,业务人员可以通过移动APP实时查看自己的任务和业绩完成情况。

在以上这些场景中,管理者和业务人员往往不仅需要看统计后的宏观结果,也需要看各个方面的明细结果。能对实时数据进行分析,意味着管理者和业务分析人员可以更及时地了解业务情况,有机会做出更快,更准确的业务决策。整个企业的业务决策效率也会因此得到提升。


更多业务人员同时分析

当今时代的企业里,数据分析已经不再是管理层专有的能力,希望实现真正实践数据驱动业务,必须让一线的业务人员也能够高效地进行数据分析,这已经成为大量企业管理者之间的共识。

一线的业务人员在具备数据分析能力之后,能高效地根据业务数据调整自己的工作方式和工作重心。有助于一线运营效率的提升,进而提升整个公司的运营效率。而由于一线业务人员的数量远多于企业的管理层,新一代企业大数据分析体系必须是能支持多用户同时访问的。移动互联网的不断成熟,让业务人员可以很方便地使用移动APP查看业务数据。这一点对企业大数据分析体系提出了更高的要求。

真正贯彻企业数字化转型,让数据驱动业务发展,至少需要数据系统同时支撑数千人的数据分析。没有这样的能力,很难真正让数据很好的支持业务发展。


更统一的数据分析体系

对于现代企业而言,数据分析场景的多样化是一个无法回避的趋势。管理层需要功能强大的管理驾驶舱,业务人员和项目经理需要实时和丰富的报表,数据分析师需要灵活的交互式BI分析平台,审计人员希望查看全量的历史统计数据等。

为了满足这些不同场景的数据分析需求,企业的IT部门往往会引入多种不同的数据分析系统。从开源软件到商业化软件,从国内软件到国外软件,随着系统数目的增加,相关问题也会持续涌现。首先,不同的数据源会导致上层数据应用开发难度增大。由于不同场景需要对接不同的系统,开发人员和使用者的工作成本都变高了。其次,多系统必然会带来运维复杂度的指数级上升。不同系统的配置不同,扩容方式不同,日常运维的关注点也不同。系统设计到的产品越多,运维人员的压力越大。第三,不同系统必然会造成数据的冗余,并且存在数据不一致的隐患。为了规避数据不一致的问题,企业往往需要在应用层做额外的工作。

如果有一套系统能够满足多种数据分析场景的需求,那么对于企业来说,不仅能更好地支持业务发展,还能有效地降低运维和存储成本。


新一代企业数据驱动体系

通过上面的分析我们不难发现,构建新一代企业数据驱动体系的核心是:用一套统一的体系来满足企业多种数据分析场景的需求,让更多的企业成员能够同时更快、更灵活、更实时地分析数据。

从这个核心出发,DorisDB无疑是支持新一代企业数据驱动体系的较好选择。

极致的查询性能是DorisDB的第一个核心优势。绝大多数企业的数据分析查询,DorisDB都可以实现亚秒级返回结果。这将为每个查看报表的业务人员和管理者每天节省数十分钟等待时间,大大提升工作效率,全年累计可以为每位员工节省数周的工作时间!

另外,DorisDB既可以支持聚合数据查询,也能够支持明细数据查询。强大的分布式表聚合能力,使得客户的业务分析不再依赖大宽表模型。基于此搭建的数据驱动体系,可以高效地支持业务快速迭代,数据数据指标和报表的建设几乎都可以直接用SQL语句来实现,无需额外开发计算程序。报表建设时间可以缩短至小时级别,每张报表的建设成本可以从几万元降低至几百元,相对于传统方式效率可以提升几十倍!

DorisDB还可以高效地支持企业实时数据分析。DorisDB原生支持Kafka数据接入。聚合模型和现代化物化视图技术可以自动实现实时数据的预聚合,不需要单独开发任何外部程序即可实现从流式数据导入,到线上实时大屏展示的全链路逻辑。

同时,DorisDB还能支持每秒数万级别的查询并发量,帮助企业真正赋能一线的业务人员。DorisDB支持标准SQL语言,主流BI系统可以直接连接,这使得业务人员的学习成本更低,更容易上手。另外,DorisDB完善的高可用体系,极简的日常运维,智能简便的扩缩容方式,都是企业业务正常运转的有力保证。yy.png

基于DorisDB,企业可以打造一个架构简洁,但功能强大的大数据分析体系。相对于不少组件庞杂的数据中台方案,该体系更轻量,更易于维护和扩展。企业的业务数据和流量日志都可以进入该体系统一处理。

Hadoop作为大数据存储和批量处理的工业标准,用于原始数据的落地和存储。Kafka用于支持实时数据的传输。Hive,Spark,Flink作为数据加工和处理的设施,将经过清洗和处理的明细数据导入DorisDB。数据可以按照“T+1”的方式批量导入,也可以实时导入。DorisDB对明细数据进行进一步的计算,聚合,建立物化视图等处理后,便可以直接提供线上服务。上层应用可以根据自身需要,通过标准SQL语句,直接查明细数据,或者查聚合数据。查询的灵活性完全由SQL语句来提供,不需要再额外开发其他用于数据处理的程序模块。

yy.png

如果企业的数据规模不大,企业的大数据分析体系还可以进一步简化成如上图所示。企业不再需要搭建Hadoop平台,所有的原始数据都可以直接存放在DorisDB里。这样简洁的架构将极大降低企业的运维成本,并且让企业的数据分析体系更加简单。


总结

用一套统一的体系来满足企业多种数据分析场景的需求,让更多的企业成员能够同时更快、更灵活、更实时地分析数据。这已经成为企业数字化建设的一个必然趋势。只有能从小到大不断扩展,不断产出实际业务价值,并且能支持混合云方式部署的系统,才是企业真正需要的系统。DorisDB凭借其强大的性能,全面的功能和可控的总体持有成本,必将助力企业更好地支持数据驱动战略的落地,为客户实现更大的业务价值。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
1月前
|
前端开发 JavaScript API
前端组件库——shadcn/ui知识点大全(一)
教程来源 http://uklgy.cn/ shadcn/ui 是2026年React生态引领变革的UI方案:不提供npm黑盒包,而是通过CLI将可定制、带完整类型与无障碍支持的组件源码(如`button.tsx`)直接复制到项目中。基于Radix UI、Tailwind CSS与自研CLI,赋予开发者对样式、行为与API的完全控制权。GitHub星标超11万,周下载近200万。
|
6月前
|
消息中间件 Kubernetes Cloud Native
Go语言全栈实战指南:微服务架构+云原生部署,打造高并发系统
系统讲解Go语言全栈开发,从Web框架到微服务架构,涵盖云原生部署、Kubernetes编排等企业级技术。适合后端工程师转型和架构师学习分布式系统设计,通过实战项目掌握高并发场景的开发与优化。
cxa
|
Python
python实用技能之下载视频
如何使用python下载视频
cxa
3060 0
|
8月前
|
SQL 人工智能 数据可视化
高校迎新管理系统:基于 smardaten AI + 无代码开发实践
针对高校迎新痛点,基于smardaten无代码平台构建全流程数字化管理系统,集成信息采集、绿色通道、宿舍管理等七大模块,通过AI生成框架、可视化配置审批流与权限,实现高效、精准、可扩展的迎新服务,大幅提升管理效率与新生体验。
|
10月前
|
自然语言处理 算法 数据可视化
RFID资产管理系统解决方案—基于RFID技术的智能资产管理新范式
首码推出基于RFID技术的智能资产管理系统,助力企业实现资产全生命周期管理。系统支持批量读取、实时追踪、智能定位及多语言、多据点管理,大幅提升盘点效率与管理透明度。集成数据算法与高灵敏硬件,适应复杂环境,保障数据安全。适用于跨国集团及各类企业,助力数字化转型。
866 0
|
存储 弹性计算 人工智能
阿里云服务器2核8G/4核16G/8核32G配置热门实例规格对比与选购指南
如果我们是计划购买2核8G/4核16G/8核32G配置的阿里云服务器,在阿里云活动中一般会有经济型e、通用算力型u1、通用型g7、通用型g8i和通用型g8y几种常见的实例规格可选,尽管这些实例在配置上相似,但它们在性能、价格以及适用场景上存在显著差异。本文将深入解析这些实例规格的性能特点、价格差异及适用场景,为用户在阿里云服务器购买时提供详实的参考依据。
|
机器学习/深度学习 计算机视觉
RT-DETR改进策略【注意力机制篇】| WACV-2021 Triplet Attention 三重注意力模块 - 跨维度交互注意力机制优化
RT-DETR改进策略【注意力机制篇】| WACV-2021 Triplet Attention 三重注意力模块 - 跨维度交互注意力机制优化
423 1
RT-DETR改进策略【注意力机制篇】| WACV-2021 Triplet Attention 三重注意力模块 - 跨维度交互注意力机制优化
|
缓存 API PHP
PHP性能优化:从基础到高级策略####
深入探索PHP性能优化的多维度策略,本文旨在揭示通过代码优化、配置调整与现代最佳实践相结合的方式,显著提升PHP应用的响应速度和资源利用率。不涉及传统摘要细节,直接聚焦于技术深度与实用技巧,引领读者踏上PHP性能调优的高效之旅。 ####
|
边缘计算 运维 5G

热门文章

最新文章