大数据分析(数据建设)以后如何发展的思考?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据分析(数据建设)以后如何发展的思考?

image.png

一直在公司参与企业数字化、大数据、数据分析等方面的工作,阅读及研究过较多的资料,这个文章简单记录下对企业大数据建设的一些思考,及可能的发展,也是作为对各个数据分析平台及大数据的研究的一些总结。

经过二十多年的企业IT建设,很多企业从”无系统“发展到”系统太多“,不光有单独部署的内部系统,也有内容丰富的互联网系统,系统已经覆盖到企业经营的方方面面。企业的数据也从“无数据”发展到“数据丰富”的阶段,企业也从原来依靠手工记录,发展到依赖“信息和数据”来进行精细化运营,IT技术已经深入到企业运作的各个方面,为企业带来了便利,也为企业带来了新
image.png

在过去企业的IT建设过程中,都是按业务需要来建设系统(也是随着信息技术的发展及认知的深度决定),由于没有规划(也是办不到),逐渐形成了各种烟囱式的系统,虽然解决了很多企业信息化的问题,但也给企业带来了信息孤岛的问题。在过往信息化的建设过程中,也见到各种方法和工具,比如数据仓库(1980年开始提出)、报表工具、BI、商业智能BI、数据分析与挖握,到最近很火的大数据与智能决策,都是为了整合各个数据孤岛,给企业的管理人员/执行人员,提供各种维度的数据报表、数据指标,以支撑企业的运营人员,能可视化地看到数据,然后根据历史数据及当前的数据情况,对企业接下的运营提供决策帮助。

看似方法和工具都能较好地解决问题,但企业的经营者还是面临着一些其他方面挑战:企业在数字化的过程中,由于要整合已有的系统(如ERP、OA、WMS、CRM、SRM等),可能已有系统的数据表会有几百到几千的张,通过BI或者数据仓库的建设后,可能会产生到几百到几千张的报表,如果每张报表上有10个以上的数据指标,那就有几千到几万的业务指标,面对这么多的业务指标,查看及审核信息,将是每个企业运营者头痛的事情。另外一个,面对这么多的业务指标,它们的统计口径是否统一?是否全部都是在使用中?哪些是有价值的指标呢?这些问题正是数据分析与研究必然面对,也是推这个行业不断向前发展的动力。

通过对行业里现有的大数据分析平台及BI工具的调研与分析,再结合企业数据的建设过程,可以发现,数据化的建设过程,都是围绕数据源,数据ETL,数据可视化的方向来进行,数据只有可视化后(图表/excel/PDF/网页等),经营者才能接触到数据,才能拿到数据的价值。但是从发展过程来看,数据可视化配置越来越成为潮流,企业面对诸多的信息与数据,希望能做到所见即所得的效果,传统的报表开发模式已经不能满足当前需求,也与信息技术的发展相悖,而且传统报表的开发成本高,相当于是定制化开发,做不到通用性,面对不同的企业,会有不同的数据指标需求。灵活的可视化配置,支持企业按照自己的需求来配置自己的图表/报表。

在接触到大数据的建设过程,都会看到元数据,数据指标的建设,这些是为了解决业务指标统计口径不统一的问题,因为在传统的信息化系统中都会提供报表,它们都有各自的统计规则,如果照搬到BI或者大数据的数据仓库,那数据化的建设只是在堆积,会慢慢变成混乱的数据仓库,随着不同人员对数据项的需求,数据仓库会日益庞大,通过不同的原始表、宽表、维度表、分析表等加工后产生的结果表都有可能达到几十万到几百万,将需要消耗大量的IT资源。

那怎么去解决这种情况呢?在保持数据源不变的前提下,这里需要引入一个叫“指标平台”的概念,通过对元数据、数据指标的定义与提取的标准化,形成统一的基础指标,再交由一线业务去自由地进行组合,形成业务需要的业务指标,看似是一个技术问题,其实指标平台是一个管理系统,例如不同业务部门的指标归口不统一、指标使用情况、指标是否体现价值等,都属于管理的问题。观察指标平台的建设过程,它是一个收敛的方式,不会呈现爆发式增加,可以很大程度节省IT资源。另外一个指标平台建设的好处是,支撑可视化配置,实现DIY模式的图表/报表,以满足所见即所得的效果 。

回到前面的问题,大数据怎样才能更好地帮助企业的经营者呢?是像传统报表一样,提供丰富的图表/报表来满足呢?还是会有其他方式。我觉得数据在企业中主要发挥“发现异常”、“数据凭证”和“辅助决定”(从数据建设过程中可以看出)。如果不是这个,那可能就是一个普通的报表需求,而不是大数据中数据价值的体现。

“发现异常”:通过对业务指标(数据指标)的跟踪,结合指标预警的设置,发现重要经营业务指标的变动,来看企业的运营是好是坏,让经营者能及时作出调整。从这个角度出发,未来的数据分析平台的建设,未必要像现在行业里很多数据分析平台那样来建设(dataphin / quickBI/GrowingIO等),可能是提供业务指标自由组合的可视化配置,通过订阅及预警提醒机制,让不同职位的经营者来配置及订阅自己关注的业务指标,在业务指标发现变化或者定时的机制来提醒及发送指标的数据,而不是去面对一堆图表/报表,做到因人而异的数据驱动机制,让企业管理人员回归重点,随时掌握重点业务指标的动向。
这就好比在使用炒股软件的时候,可以对股票的关键指标进行设置,当股票的指标的波动达到预置的值时,会推送提醒,让投资可以及时看到波动,而不是时时盯着大盘/K线图看。

“数据凭证”:通过业务指标的数据,反映公司/部门/组织/个人的业绩,这里主要是提供数据的真实性验证,通过数据能看到公司/部门/组织的经营情况,并能通过数据的上下钻,了解到每个细项的数据,结合对比,发现好与坏的原因。对于个人也是一样,通过数据去了解个人在公司的效益(创造的价值/成本),如常见的企业营收、财务、业务员、月报季报分析等等。那么这块可以通过报表自助设计器来完成,达到按需及时调整的需要。

“辅助决策”:通过对业务指标的过往数据的分析,结合企业的内部因素与外部因素,来预测企业接下来的经营决策,但这块做起来没那么简单,需要通过不断的训练,及丰富规则来做。

企业数字化与数据的建设过程,是数据赋能企业的过程,是一个不断探索的过程。通过“指标平台”对指标的治理与建设,规范统一的指标定义,派生、衍生出复合指标,再由指标组织成模型。指标的标准化,实现指标的加工、计算、查询的口径统一。

当然,数据化的建设过程,需要结合企业的实际情况,不可能一步到位,这是一个慢慢的转变过程, 需要从管理层来进行带头,去深入试点,偿试后在进行铺开。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
8天前
|
存储 大数据 测试技术
用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
在大数据环境中,数据存储格式直接影响查询性能和成本。本文探讨了 Parquet、Avro 和 ORC 三种格式在 Google Cloud Platform (GCP) 上的表现。Parquet 和 ORC 作为列式存储格式,在压缩和读取效率方面表现优异,尤其适合分析工作负载;Avro 则适用于需要快速写入和架构演化的场景。通过对不同查询类型(如 SELECT、过滤、聚合和联接)的基准测试,本文提供了在各种使用案例中选择最优存储格式的建议。研究结果显示,Parquet 和 ORC 在读取密集型任务中更高效,而 Avro 更适合写入密集型任务。正确选择存储格式有助于显著降低成本并提升查询性能。
45 1
用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
|
22天前
|
分布式计算 Hadoop 大数据
Jupyter 在大数据分析中的角色
【8月更文第29天】Jupyter Notebook 提供了一个交互式的开发环境,它不仅适用于 Python 编程语言,还能够支持其他语言,包括 Scala 和 R 等。这种多语言的支持使得 Jupyter 成为大数据分析领域中非常有价值的工具,特别是在与 Apache Spark 和 Hadoop 等大数据框架集成方面。本文将探讨 Jupyter 如何支持这些大数据框架进行高效的数据处理和分析,并提供具体的代码示例。
35 0
|
5天前
|
存储 分布式计算 Hadoop
大数据分析的工具
大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军事监控,视频和图像档案,及大型电子商务。
20 8
|
15天前
|
存储 大数据 数据挖掘
【数据新纪元】Apache Doris:重塑实时分析性能,解锁大数据处理新速度,引爆数据价值潜能!
【9月更文挑战第5天】Apache Doris以其卓越的性能、灵活的架构和高效的数据处理能力,正在重塑实时分析的性能极限,解锁大数据处理的新速度,引爆数据价值的无限潜能。在未来的发展中,我们有理由相信Apache Doris将继续引领数据处理的潮流,为企业提供更快速、更准确、更智能的数据洞察和决策支持。让我们携手并进,共同探索数据新纪元的无限可能!
62 11
|
20天前
|
存储 分布式计算 大数据
MaxCompute 数据分区与生命周期管理
【8月更文第31天】随着大数据分析需求的增长,如何高效地管理和组织数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个专为海量数据设计的计算服务,它提供了丰富的功能来帮助用户管理和优化数据。本文将重点讨论 MaxCompute 中的数据分区策略和生命周期管理方法,并通过具体的代码示例来展示如何实施这些策略。
51 1
|
23天前
|
分布式计算 数据可视化 大数据
Vaex :突破pandas,快速分析100GB大数据集
Vaex :突破pandas,快速分析100GB大数据集
|
22天前
|
大数据 机器人 数据挖掘
这个云ETL工具配合Python轻松实现大数据集分析,附案例
这个云ETL工具配合Python轻松实现大数据集分析,附案例
|
22天前
|
数据采集 人工智能 安全
AI大数据处理与分析实战--体育问卷分析
本文是关于使用AI进行大数据处理与分析的实战案例,详细记录了对深圳市义务教育阶段学校“每天一节体育课”网络问卷的分析过程,包括数据概览、交互Prompt、代码处理、年级和学校维度的深入分析,以及通过AI工具辅助得出的分析结果和结论。
|
24天前
|
消息中间件 前端开发 安全
第三方数据平台技术选型分析
这篇文章分析了第三方数据平台的技术选型,涵盖了移动统计平台、自助分析平台和BI平台的不同代表厂商,讨论了它们的数据源、使用要求和适用场景。
33 2
|
20天前
|
存储 分布式计算 数据处理
MaxCompute 的成本效益分析与优化策略
【8月更文第31天】随着云计算技术的发展,越来越多的企业选择将数据处理和分析任务迁移到云端。阿里云的 MaxCompute 是一款专为海量数据设计的大规模数据仓库平台,它不仅提供了强大的数据处理能力,还简化了数据管理的工作流程。然而,在享受这些便利的同时,企业也需要考虑如何有效地控制成本,确保资源得到最优利用。本文将探讨如何评估 MaxCompute 的使用成本,并提出一些优化策略以降低费用,提高资源利用率。
17 0

热门文章

最新文章