从零到一建设数据中台 - 数据服务开发

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 从零到一建设数据中台 - 数据服务开发

image.png

一、数据开发流程

将业务数据汇聚到数据仓库中进行数据清洗、数据建模、算法开发、数据质量校验、最终将数据结果以服务化输出。

  1. 数据汇聚:创建数据清洗、加工任务并编排,将编排后的任务提交发布进行周期调度。
  2. 模型工厂:在数据仓库中,定义数据分层,虚拟ODS层、ODS层、DW层,ADS层等,并将集成的数据,进行分层打标签和数据粗出。
  3. 运维监控:将发布至生产环境的任务进行统一运维监控保证任务稳定运行。
  4. 数据质量:对数据加工全流程提供质量监管和校验及时发现问题,减少数据污染。
  5. 数据服务:将加工、融合后的数据表快速生成数据API、加速数据流动,对外部数据应用提供数据支持。

image.png

  • 数据集成:支持多种数据仓库引擎配置,包括oracle、mysql、sqlserver、hbase、es、hive等数十种,同时支持在线数据源连接配置,可以同时配置多种数据源连接。支持数据表采集、Excel文件数据采集、自定义SQL数据集采集功能。
  • 数据仓库:构建高效健全的大数据仓库管理功能,为用户提供数据分层分类管理功能,基础库、标准库、主题库的构建能力,同时提供给数据编目、数据接入、数据集管理、字段管理和数据预览等功能。
  • 数据资产:对数据资产进行统一管理,把数据采集、汇聚后的数据,对其数据进行统一编目,分层分类,形成数据资产目录;对已经发布的数据或者API支持按照数据分层管理和API分层管理进行展示数据和API,并提供数据预览、数据样例下载、API接口详情和API接口调用测试等功能。
  • 数据分析:包含模型算子、模型工厂、应用超市、应用管理、调度中心等功能模块,用户可通过模型工厂,完成模型分类、模型管理、模型设计等功能,整个操作过程都是可视化布局。
  • 数据大屏:提供平台化、场景化、定制化的数据应用服务工具,可实现针对多行业、多场景数据可视化的快速搭建,零门槛打造专业大屏数据展示。

二、数据挖掘

**数据挖掘(Data Mining)**就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

包括几层含义:

  1. 数据源必须是真实的、大量的、含噪声的;
  2. 发现的是用户感兴趣的知识;
  3. 发现的知识要可接受、可理解、可运用;
  4. 并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
  5. 这里的知识一般指规则、概念、规律及模式等。

image.png

从数据本身来考虑,数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示8个步骤。

数据挖掘过程是一个反复循环的过程,每一个步骤如果没有达到预期目标,都需要回到前面的步骤,重新调整并执行。

  1. 信息收集:根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。
  2. 数据集成:把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。
  3. 数据规约:如果执行多数的数据挖掘算法,即使是在少量数据上也需要很长的时间,而做商业运营数据挖掘时数据量往往非常大。数据规约技术可以用来得到数据集的规约表示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。
  4. 数据清理:在数据库中的数据有一些是不完整的(有些感兴趣的属性缺少属性值)、含噪声的(包含错误的属性值),并且是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。不然,挖掘的结果会差强人意。
  5. 数据变换:通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步。
  6. 数据挖掘过程:根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络、遗传算法的方法处理信息,得出有用的分析信息。
  7. 模式评估:从商业角度,由行业专家来验证数据挖掘结果的正确性。
  8. 知识表示:将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存放在知识库中,供其他应用程序使用。

三、数据集市与数据集

image.png

(一)、数据集市(Data Mart):

是数据仓库架构中的一个概念,它提供了一种更加集中和优化的方式来访问和分析特定业务领域的数据,数据集市主要拥有以下特点:

  1. 特定领域数据:数据集市通常专注于特定业务领域或部门的数据,如销售、财务或人力资源等。
  2. 数据优化:数据集市中的数据通常会经过优化,以支持快速查询和报告生成。
  3. 查询性能:由于数据集市中的数据量相对较小,且针对特定查询进行了优化,因此查询性能通常比在大型数据仓库中要快。
  4. 数据更新:数据集市的数据可以是实时更新的,也可以是定期更新的,这取决于业务需求。
  5. 报告和分析:数据集市通常与报告和分析工具集成,使得用户可以轻松地生成所需的报告和进行数据分析。
  6. 可扩展性:虽然数据集市专注于特定领域,但它们也可以设计成可扩展的,以便随着业务需求的变化而扩展。
  7. 成本效益:与大型数据仓库相比,数据集市可能更加经济,因为它们只需要存储和管理特定领域的数据。

image.png

(二)、数据集(Data Set):

是指一组数据的集合,这些数据可以是结构化的、半结构化的或非结构化的。数据集可以用于各种目的,包括数据分析、机器学习、研究以及教育等。以下是数据集的一些关键特点和功能:

  • 多样性:数据集可以包含不同类型的数据,如文本、数字、图像、音频和视频。数据集的大小可以从几个字节到数TB不等,取决于数据的复杂性和数量。
  • 结构:数据集可以是结构化的,如关系数据库中的表格数据;也可以是半结构化的,如XML或JSON文件;还可以是非结构化的,如自由文本或图像。
  • 来源:数据集可以来自多种来源,包括企业内部数据、公共数据集、在线数据服务、传感器数据等。
  • 访问和共享:数据集可以通过不同的方式访问和共享,包括数据接口、文件系统、云服务API等。
  • 元数据:数据集通常包含元数据,这是关于数据的描述性信息,如数据的来源、创建日期、格式等。
  • 清洗和预处理:在使用数据集之前,通常需要进行清洗和预处理,以去除错误、填补缺失值、标准化数据格式等。
  • 标注:对于机器学习应用,数据集可能需要进行标注,以提供训练模型所需的标签或分类。
  • 版本控制:在数据科学项目中,对数据集进行版本控制是很重要的,以跟踪数据的变化和更新。



相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
3天前
|
机器学习/深度学习 敏捷开发 存储
数据飞轮:激活数据中台的数据驱动引擎
数据飞轮:激活数据中台的数据驱动引擎
|
23天前
|
SQL 运维 Oracle
【迁移秘籍揭晓】ADB如何助你一臂之力,轻松玩转Oracle至ADB的数据大转移?
【8月更文挑战第27天】ADB(Autonomous Database)是由甲骨文公司推出的自动化的数据库服务,它极大简化了数据库的运维工作。在从传统Oracle数据库升级至ADB的过程中,数据迁移至关重要。
36 0
|
2月前
|
数据采集 存储 监控
从零到一建设数据中台 - 数据治理路径
从零到一建设数据中台 - 数据治理路径
94 6
|
2月前
|
存储 JSON Cloud Native
数据库ADB-PG问题之数据源处理如何解决
数据库ADB-PG问题之数据源处理如何解决
|
3天前
|
存储 机器学习/深度学习 数据管理
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
|
2天前
|
机器学习/深度学习 搜索推荐 算法
从数据中台到数据飞轮:企业升级的必然之路
在探讨是否需从数据中台升级至数据飞轮前,我们应先理解两者之间的关系。数据中台作为数据集成、清洗及治理的强大平台,是数据飞轮的基础;而要实现数据飞轮,则需进一步增强数据自动化处理与智能化利用能力。借助机器学习与人工智能技术,“转动”数据并创建反馈机制,使数据在循环中不断优化,如改进产品推荐系统,进而形成数据飞轮。此外,为了适应市场变化,企业还需提高数据基础设施的敏捷性和灵活性,这可通过采用微服务架构和云计算技术来达成,从而确保数据系统的快速扩展与调整,支持数据飞轮高效运转。综上所述,数据中台虽为基础,但全面升级至数据飞轮则需在数据自动化处理、反馈机制及系统敏捷性方面进行全面提升。
40 14
|
26天前
|
监控 数据安全/隐私保护 异构计算
借助PAI-EAS一键部署ChatGLM,并应用LangChain集成外部数据
【8月更文挑战第8天】借助PAI-EAS一键部署ChatGLM,并应用LangChain集成外部数据
51 1
|
1月前
|
存储 机器学习/深度学习 数据采集
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用
|
1月前
|
存储 自然语言处理 算法
【LangChain】如何本地部署基于chatGPT的实时文档和表格数据的助手,在自己的数据上构建chatGPT?
本文介绍了如何使用LangChain库和FAISS工具在本地部署一个基于chatGPT的实时文档和表格数据助手,详细阐述了项目原理、搭建步骤、环境配置、代码修改和运行流程,以及如何在自己的数据上构建和使用chatGPT。
37 1
|
23天前
|
关系型数据库 Serverless API
神秘的 ADB Serverless 模式,究竟是怎样实现数据共享的?答案等你来揭晓!
【8月更文挑战第27天】在数字化时代,数据共享至关重要。阿里云AnalyticDB for MySQL的Serverless模式提供了一种高效便捷的解决方案。它采用多租户架构,确保数据安全隔离的同时支持资源共享;具备自动弹性伸缩能力,优化资源利用;支持多样化的数据导入导出方式及丰富的API,便于集成到各类应用中,实现数据价值最大化。无论是初创企业还是大型组织,均可从中获益。
38 0

热门文章

最新文章