带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——3. 研发:高效建设,稳定运行

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——3. 研发:高效建设,稳定运行

3. 研发:高效建设,稳定运行


1) 全域数据汇聚,打破数据孤岛


企业在构建数据中台时,首先就是要将企业内部各个业务系统的数据同步集成到数据中台,然后进行后续的数据研发工作。一句话总结数据集成的能力,就是提供不同数据源之间的通道能力,解决异构数据源之间,读取、转换和写入三个流程。

 

Dataphin中的数据集成模块是一个简单高效的数据同步平台,通过组件拖拽式的方式,提供了丰富的异构数据源间高速稳定的数据同步能力,与强大的数据预处理能力,汇集全域数据,打破数据孤岛,为数据中台的建设打好坚实的数据基座。

 

image.png


a) 支持丰富的异构数据源


在企业信息化建设过程中,由于各业务系统建设和实施数据管理系统的阶段性、技术性以及其它经济和人为因素等因素影响,使得企业在发展过程中积累了大量不同存储方式的业务数据,采用的数据管理系统也大不相同。从简单的文件数据库到复杂的网络数据库,构成了企业的异构数据源。Dataphin数据集成支持丰富的异构数据源,包括关系型数据库、大数据存储、文件存储、消息队列、NoSQL、API、应用系统等40+数据库。并支持创建自定义数据源,灵活接入数据,提供了数据源的可扩展性与灵活性。

 

 

image.png

b)强大的数据预处理能力与传输配置


在数据集成过程中,对于数据安全、同步配置、数据预处理等都会存在一些诉求。Dataphin数据集成提供丰富的数据预处理能力以及任务中数据传输过程中的可配置项。

 

字段处理:提供字段选择、条件过滤,与字段计算的能力。帮助在同步过程中过滤掉冗杂数据,提高数据质量。

数据安全:对于敏感字段,比如个人隐私信息,在集成任务中可以结合安全模块,对敏感字段进行加密或解密,进一步保障数据在同步过程中的安全。

传输配置:支持限流配置,可根据数据库性能与任务并发数灵活配置;支持条件分发,一个来源数据源以某个条件,二分发到两个不同的目标数据库中,可避免任务的二次配置;支持容错配置,指定集成任务允许产生的脏数据上限;支持运行参数配置与数据库连接配置:可根据场景灵活调整,提升集成任务的成功率与运维效率。

 

image.png


c)产品易用性


进行数据中台建设时,汇集全域数据,需要集成的表体量较大,大量的任务配置与调试工作量会消耗大量人力与资源。Dataphin的数据集成提供任务配置、调试等各场景下的易用性功能,可提高任务配置与调试的效率。

 

组件化配置:可通过在画布界面中拖拉拽组件进行集成任务的配置,通过无代码化操作,降低任务配置门槛。


实时/离线整库迁移:支持通过配置化的方式进行实时或离线的整库迁移,高整库数据迁移场景下的配置效率。


运行日志智能诊断:将原始日志提取为结构化的信息,包括任务运行信息(运行时长、CPU负载等)、同步通道信息(读取/写入速度,脏数据条数等)。在任务运行报错后,自动提取日志内的错误信息,根据知识库进行相似度检索,提供可能的报错原因与可参考的解决方案,提高排查与调试的效率。


2) 设计即研发,保障数据模型与代码的一致性


传统的数据中台建设过程中,数据模型需要用限定详细的文档记录设计,再基于文档进行代码研发。经过多轮变更后设计文档与实际代码可能已南辕北辙。Dataphin通过规范化、模块化的低代码配置,在设计的同时生成代码,有效的保证了模型与代码的一致性,提升数据质量。

 

Dataphin 模型体系中,主题域模型和概念模型属于规划部分,逻辑模型和业务分析模型则属于研发部分。


a) 逻辑模型


在概念模型基础上,基于对业务的理解,可以对实体:


增加属性。属性是用来从各个方面描述实体,是纯粹的业务认知。属性的增减完全跟随业务本身的变化,而不是基于业务系统。


设置属性约束。对属性值的业务约束,如:鞋子的尺码有效范围是 10 码~45 码,颜色只有 白色和黑色等。


设置属性与来源业务表之间的关系。


逻辑模型设置完成后,系统将自动生成相应的调度任务。后续如果业务侧发生了变化,重新设计逻辑模型时,在 Dataphin 可以直接编辑逻辑模型,系统将自动生成任务,确保设计与代码的一致。


b) 业务分析模型


逻辑模型构建后之后,基于逻辑模型可以构建分析模型,即下图中的业务分析模型。

 

image.png

 

业务分析模型的目标是快速生成业务分析中的指标,称为派生指标,且保障这些指标的可靠性和可维护性。最终使用的指标拆解为四个基本组成部分:

 

统计周期,指标覆盖的时间范围,即该指标反映的是哪个时间段内的业务情况,本质上也是业务限定的一种,但由于它的通用性,将其独立出来作为一个单独的组成部分。


原子指标,针对某个业务事件的聚合统计分析,比如:求和、取平均


业务限定,指标计算时的业务约束(过滤)规则


统计粒度,指标的分析维度或者分析角度,指标是描述哪些业务对象或哪些实体属性的。

 

可以使用传统SQL视角来进一步解释:

 

image.png

 

业务分析建模的步骤是,统计周期设置 ->原子指标/业务限定配置->派生指标配置,所有配置完成后,系统将自动生成计算代码和周期调度任务。后续修改指标定义,也是通过修改统计周期,原子指标,业务限定等业务视角的对象,由系统自动来生成修改后的计算代码。

 

Dataphin通过规范化、模块化的低代码配置式研发,有效的保证了模型与代码的一致性。



3) 发布管控,数据安全生产


a) 发布


Dataphin提供两种项目模式:Basic简单模式和生产开发隔离的Dev-Prod模式。在数据权限管控严格的研发流程下,常常会使用生产开发环境隔离的研发模式。项目中,研发人员通常需要完成代码编写、任务基础属性和调度属性配置、并基于开发环境的数据执行补数据测试,通过后再将任务提交至发布中心。发布审核人员接到发布申请后,结合任务配置详情评估是否配置合理,是否存在数据生产风险等,之后执行发布操作。

 

Dataphin发布中心提供了待发布任务概览、批量发布、基于系统校验规则的自动审核,发布记录概览、发布详情查看、发布失败原因提示、一键重新发布、发布审批和发布管控等功能。

 

发布作为生产开发隔离的研发模式中必经的一道环节,为生产数据的正确性和生产环境稳定性提供了前置保障,可以减少人工操作失误或流程不规范引发的问题,降低了对生产业务产生影响的可能性,为数据建设撑起一道保护伞。

 

b) 发布管控


发布管控功能支持基于用户已经设定好的管控规则及生效策略,在任务发布前执行对应的检查,以判断任务是否符合发布条件。针对校验不通过的任务,根据规则配置详情,会阻断发布流程(强管控)或给出警告提示但不阻塞发布(弱管控),以增强平台的稳定性保障。

 

发布管控是变更管控的子功能之一(后续可逐步拓展研发管控、运维管控等),变更管控分为更规则和变更策略两部分。

 

变更规则:基于对象的基础属性、外部服务接口等来源抽象出来的元数据,结合系统内置规则或自定义代码编写的逻辑条件而组成的校验规则;规则校验不通过的对象即被纳入管控,结合变更策略判断管控方式。


变更策略:根据用户已经创建好的变更规则,设置其生效范围和管控方式。支持在单个变更策略中配置多个规则并给每个规则指定不同的管控方式。


发布管控常用但不限于以下几种场景:


时间节点管控:在某些特殊时间节点,禁止发布新的任务或更新历史任务,防止数据计算口径变更带来的影响,如财年末封账、财务审计、双11大促管控、集群切换保障等场景


研发规范管控:根据某些任务属性来进行判断,如ODS项目中没有以“ods_”为开头命名的任务不可发布等


账号管控:针对部分提交人或发布人进行限制,如已离职人员提交的任务不可执行发布操作等等


通过发布管控,灵活调整管控规则及策略配置,可以实现不同的管控效果,减少人工干预成本,进一步提升平台建设的规范性和稳定性。


c) 跨租户发布


使用开发生产隔离的模式,可以提供代码及数据的生产开发环境隔离。然而在某些对安全性要求更高的场景(比如金融场景),客户需要对生产和开发环境进行物理的隔离。为确保租户间的数据安全,Dataphin完全隔离租户间的数据。若有构建数据生态或强安全管控(例如,不同租户构建共同的开发、测试或生产环境)诉求,通常需要在新租户中重新开发所有数据,这将降低数据应用的效率。

 

Dataphin升级了数据的发布能力,旨在构建简单高效、安全可靠的跨租户发布,用于迁移租户间的规则数据的迁移,以满足不同数据的应用场景,帮助企业实现数据应用价值最大化。

跨租户发布支持全量导出、增量导出及指定对象导出,支持设置全局粒度的导入规则,支持批量发布文件中的对象,同时系统根据对象依赖关系自动控制发布至目标环境的顺序。


4) 灵活调度,满足多样化的开发场景


Dataphin自研的调度系统支持灵活的调度周期、上游依赖、调度类型、参数配置、公共日历和条件调度,可适配多样性的数据研发场景,满足各种个性化的调度需求。

 

a) 周期调度


在任务调度时通常需要根据任务运行频率和数据产出时效性判断该任务的调度类型,并针对不同类型的任务进行调度规则的配置。其中,周期调度是最常用的调度方式,对于周期调度的任务支持为其进行以下配置:

 

调度类型


支持正常调度、空跑调度、暂停调度三种方式。空跑调度的任务生成的所有实例直接空跑成功,不会真正运行;暂停调度的任务生成的实例均为暂停运行状态,常用于经常需要暂停某些链路上的数据更新、又不希望频繁下线任务或修改依赖的场景。

 

调度周期


支持分钟、小时、日、周、月调度,不同调度周期对应不同的运行频率,并支持配置每个实例的定时调度时间。如抽数任务,需要每小时从业务库抽取上一小时新增的订单数据,再进行销售总额的合并计算,则需要配置调度周期为“小时”,开始运行时间为每个整点,以保证数据时效性。

 

上游依赖


提供自动依赖解析能力,可以基于SQL详情解析出存在数据依赖的上游任务并自动添加。对于不存在数据依赖关系但是有调度依赖的上游(如用于检查数据变化情况的check任务),可以手动搜索添加。

 

依赖上周期


支持配置依赖任务自身或其他任务的上一周期实例。有时为了防止多个实例同时运行造成的数据冲突或重复,需要保证每个任务同一时间只有一个任务在运行,此时可以配置“自依赖”,如“截止当日销售总额”任务,计算口径为“前一日销售总额+当日销售总额”。另外一些场景下,任务运行完成时间较晚,对于数据时效性要求不严格的下游,可以配置依赖该任务的上周期

 

b) 公共日历&条件调度


任务调度主要是两个核心设置,一是依赖关系,二是日期时间。在日期时间的设置上,有非常多的场景,需要产品提供灵活个性化的设置项。

 

Dataphin提供租户级别的公共日历功能,支持自定义多个日历、自定义日期类型(工作日和假日)和灵活的自定义日历标签,支持在日历上灵活的设置标签,配合条件调度功能帮助用户在配置调度任务时,结合公共日历中的定义信息配置组合条件调度参数,进行灵活的调度。或在创建任务时引用公共日历,避免在创建任务时重复定义,减少开发和后期维护成本。

Dataphin调度系统提供灵活的配置方式,帮助用户根据实际业务场景梳理上下游数据的影响,通过给对应的任务配置依赖条件,确保数据依赖关系正确。


5) 智能运维,提升运维人员的满意度

 

“每个客户最近30天的平均消费金额指标需要基于汇总的门店订单表来分析,得等订单表的数据更新了才能运行指标”

“老板9点就要看报表,这个任务可一定要尽早跑完,优先级要设置成最最最最最高!”

“怎么又有任务报错了,我可不想一直盯着电脑屏幕呀”

“每天都要回刷历史数据,我每天都在做重复的工作,真的好麻烦呀”

......

 

以上是数据开发和运维人员日常工作中经常会遇到的问题,我们希望给重要的任务优先分配调度资源和运行资源,保证其顺利运行。这些无疑都给开发运维人员增加了工作难度。

 

运维中心是研发链路重要的保障,包括大盘概览、任务运维、实例运维和监控告警配置等功能,为您提供任务操作与运行查看、异常监控与及时告警等多方位的运维能力,从而维护生产任务有序、正确运行,数据正常产出。下面介绍运维中心如何解决问题。


a) 如何及时发现异常?


Dataphin支持为生产环境的任务配置监控告警规则,包括智能基线监控、离线任务监控及实时任务监控。帮助您及时了解任务运行动态,并监控异常任务,降低对下游业务的影响。

 

任务监控


Dataphin支持针对任务粒度的监控配置,可指定具体任务或通过“归属某个项目下的所有任务等”方式批量配置任务告警。不同类型的任务支持不同的告警原因,以离线监控为例,支持完成、出错、运行超时、未完成等。此外,Dataphin特有的逻辑运维能力,支持针对逻辑表任务以字段视角进行监控配置,可通过字段更快捷直观的分析异常任务对下游业务的影响。

 

为了支持不同接收人角色的区分告警,Dataphin支持给不同类型的接收人配置不同的告警方式,如:负责人电话告警、管理员邮件告警。同时,也支持根据任务优先级和运行时间,设置不同的监控时间段、告警频率等,以减少运维人员的人工操作成本,实现灵活的自动化告警。

 

智能基线监控


使用智能基线监控,只需配置要保障的末节点,即可根据依赖关系自动推算末节点依赖的所有上游节点,无需人工介入,大大降低复杂依赖场景下的配置成本。此外,被纳入基线保障范围的任务具有更高优先级,在同时满足运行条件时可优先下发到计算引擎执行,进一步保障重要任务运行稳定性,并在可能产生延迟风险的情况下发送预警通知,便于提前发现风险。智能基线主要提供以下能力:

 

自动推算需要纳入基线监控范围的任务:添加需要保障的任务或字段后,系统将基于依赖关系自动推算需要纳入监控范围的上游节点,这样一来,即使更新了任务依赖关系,也无需更新基线配置,大大降低了人工操作成本;同时也提升了监控准确性,避免因为配置不同步而导致的监控缺失。


关联路径与关键实例识别:基线上需要保障的任务,其依赖关系可能错综复杂,Dataphin提供甘特图功能以快速定位阻塞基线上数据产出的关键路径与关键实例,其中影响基线任务产出的多条路径中,耗时最长的路径为基线关键路径。


自动推算预计产出时间并触发相应告警:周期运行过程中,系统将根据基线链路上每个节点最近7天的历史运行概况,推算保障节点的预计运行完成时间。如果推算出的时间晚于配置的预警及承诺时间,则会发送基线告警,给开发人员和业务人员对应的通知。


 


b) 如何快速定位问题并快速恢复或修复数据?


智能诊断


Dataphin提供了实例运行诊断的能力,从上游依赖、定时时间、限流规则、调度资源及实例执行5个阶段分析实例运行过程中可能产生的异常,同时提供单个任务每次运行的执行日志,可快速定位异常信息进行进一步分析。通过查看诊断结果和日志进一步排查失败原因并一键定位到需要直接处理的异常实例,并根据诊断建议执行对应的操作。

 

数据回溯


面向不同的数据回溯场景,Dataphin提供灵活、可配置的重跑、强制重跑、补数据等功能,并提供基于列表的批量操作能力,可以帮助您快速执行相关操作,大大减少人工操作成本,快速恢复历史数据。

 

对于任务配置问题或网络环境问题导致的的运行失败,可以通过重跑快速恢复任务运行。某些特殊场景下,任务不满足运行条件时仍然需要强制运行任务,此时可以使用强制重跑功能来实现。 Dataphin支持针对单个实例或选中一个起点及其下游,按照依赖关系进行批量重跑或强制重跑(如整条链路计算逻辑修改等场景),以实现全链路数据更新。

 

补数据是为了解决数据仓库中存在的数据缺失、错误、不一致等问题,通过补录、修复、补充或更新数据来保证数据的准确性、完整性和一致性,满足业务需求和数据分析的需要。Datatphin支持多种灵活的补数据方式,能够满足多样化的业务需求,提高运维人员的工作效率。

 

列表模式补数据:按下游任务层级筛选任务。


海量模式补数据:直接输入需要补数据的任务 ID、或通过指定项目、指定节点输出名称、当前节点的全部下游、指定一级子节点及其全部下游、指定终点等多种方式来圈选下游节点的范围,系统将依据依赖关系对选中的任务进行自动编排生成补数据实例。


定时调度的补数据任务:Datatphin支持配置补数据任务并设置补数据实例的运行规则,系统将基于任务配置定时、自动地生成补数据实例,适用于周期规律性的数据回刷场景。此外,也支持手动临时运行补数据任务,实现临时性的补数据操作,大大降低重复性配置成本。


c) 如何进行有效的资源管控和并发控制?


限流管控


当计算引擎出现性能瓶颈、资源分配不足或需控制任务下发时间和顺序等场景时,通过配置开发或生产环境任务的限流规则,保障系统的稳定性以及业务数据按序及时产出。

 

Datatphin支持基于业务视角的调度限流功能,支持根据任务优先级和资源空闲情况,控制不同时间段内不同任务的下发数量。基于限流能力,不仅可以减少对底层计算引擎和上下游数据源的并发压力,保证高优任务优先分配调度及计算资源,任务能按序产出;同时也能实现故障异常场景下的快速止血,避免产生因为无法干预或介入较晚而产生严重的问题,增强整体稳定性。

 

例如:在更换底层引擎的场景下,我们可以通过配置全局限流来阻断任务的下发;迁移完成后,需要优先对核心任务进行补数据操作,再逐步恢复对日常任务的运行,则可以通过“所属项目”圈选出日常任务并将其并发度设置为1而核心任务不设置并发限制,来保障资源优先分配给核心任务。

 

调度资源管控


调度资源指任务生成的实例调度所消耗的资源,Dataphin的调度资源分组管理的功能,能够帮助您统一管理部署Dataphin实例的集群资源。支持将资源划分为不同的配额组,不同资源组之间的资源配额互相独立,并支持为不同租户、统一租户下不同项目内的任务单独指定调度时使用的自定义资源组,从而保障核心任务的资源不被抢占,同时也提升整体资源利用率。

 

Dataphin 的自定义资源组功能可为您提供以下场景的支持:

 

核心任务保障:通过资源组管理可为核心任务分配单独的调度资源组,防止低优先级任务优先运行时抢占大量调度资源而导致高优任务一直在等待调度资源状态。例如,希望保证核心业务库的集成任务按时运行,那么可以给对应的集成任务配置“集成专用资源组”,其他非核心任务使用项目默认资源组。


按需分配 :支持按照租户、项目、任务粒度分配资源,可实现不同业务部门使用的资源解耦,避免某个部门占用大量资源而影响其他业务部门的正常使用。


临时批量运维操作:大批量补数据场景下,可能会占用较多的资源,从而影响周期任务的正常运行。支持在批量补数据等临时运维操作时指定单独的资源组,仅对本次运行生效,从而保障任务日常调度不受影响。


6) 实时集成和实时研发,实现数据秒级响应


a) 应用场景


当下,实时数据的重要性在各行业日益凸显,实时数据的精细管理和优化运营对企业发展至关重要。通过实时监测和分析各项指标,企业能够快速发现问题和机会,及时调整决策以保持竞争力。例如,实时营销场景下,企业可以根据用户的实时行为偏好提供个性化推荐和服务,提升用户满意度;金融风控场景下,通过实时数据采集和分析,金融机构可以监控交易活动,检测异常交易模式和风险事件。

 

传统的批处理方式无法满足实时分析和决策的需求,因此需要实现实时数据的采集与研发至关重要,以保障数据的时效性,发挥其最大价值。


b) 解决方案


实时集成


Dataphin实时集成通过实时抽取数据库CDC(Change Data Capture,变更数据捕获),满足数据实时同步的需求。全配置化交互,一次任务配置实现整库数据实时同步;支持实时集成任务运行监控告警,降低运维成本。且目标库为Hive以及MaxCompute时,支持以表到表的形式同步数据,无需再进行后续的日志格式解析。实时集成适用于实时采集表量较大,且无需数据实时处理的场景。若需针对采集的实时数据进行进一步的实时加工处理,可以结合实时研发构建实时数据开发链路。

 

实时研发


Dataphin具备全链路实时研发、实时资产管理的能力。

 

实时研发数据架构


传统批处理、流处理割裂带来一定的问题和挑战,如流批底层数据模型不一致,导致应用层需要做大量的拼接逻辑(同比、环比、二次加工等),搭建效率低,且容易出错;流批存储系统隔离(面向不同写入场景),提供的数据服务不一致,维护成本高;手工建数据同步任务,开发成本/存储成本高(两份);一个业务逻辑,两个引擎两套代码,SQL逻辑不能复用,数据一致性和质量难以保障;不同平台和引擎间切换,开发体验割裂,容易出现变更遗漏;批处理&流处理集群无法做到错峰,资源利用率较低。

 

Dataphin支持全链路Flink流计算(Flink Stream)任务开发与运维能力,具备扩展批处理(Flink Batch)的产品基础,打通流批一体化,数据架构具有多方面优势:


效率层面:一套代码、两种时效;流批研发运维一致性体验;统一元数据管理。


成本层面:流批统一存储,减少资源浪费;流批计算错峰运行,提升资源利用率。


质量和资源层面:变更口径,可强一致性保障。


image.png

 

实时研发功能及优势    


Dataphin在Flink流批一体的能力之上额外提供了更多的平台能力,如数据源管理、元数据管理、资产血缘、资产质量控制、预编译、调试等能力:

 

强兼容性,支持多引擎多数据源


支持Apache Flink、阿里云实时计算Flink、MRS Flink等多种实时计算引擎.

 

支持Kafka、PostgresSQL、MySQL、Hive、Oracle、Microsoft SQL Server、TIDB、OceanBase、Mogondb、StarRocks、Hudi、Doris、SLS、Redis、ClickHouse、Elasticsearch、Apache  Hbase等多种丰富实时数据源;

 

支持自定义Flink实时数据源,扩展实时数据来源和输出可支持的源类型

 

开发生产隔离


开发环境和生产环境隔离,保证开发环境开发的业务代码和生产相互之间不干扰。

 

元数据管理


各系统组件包括数据源、元表、UDX等具备权限控制功能,敏感型配置信息加密保护。支持数据源敏感字段访问订阅。元表、函数、资源等全部单元化可视化的管理,支持元数据检索,作业依赖、字段血缘的可视化探查,支持跨项目鉴权(字段级)调用,让使用者聚焦业务逻辑。

 

元表使得元数据可显示化定义和可管理,安全可靠,支持一次建表,多次引用,承载了权限管控,上下游血缘资产可查可探。

 

流批一体


流批存储层的统一管理,实现模型层统一,流批代码统一、在一份代码上可同时进行流和批任务的各自专属配置,生产独立有协同的调度实例

 

研发运维提效


支持基于代码模板等多种开发方式、编辑器智能提示,任务资源及参数的灵活配置,全面的版本管理,对象的批量管理、容器化调试和开发环境多模式测试等功能

 

支持任务灵活启停、日志和异常信息分类分级查看、丰富的监控指标及灵活多样的告警配置

 

稳定性及质量保障


Dataphin实时数据质量主要面向开发者,针对产品中实时产出的数据表,通过对产出结果进行数据质量分析和校验,来保障数据的最终有效与准确。

 

支持流量阈值设置,防止计算资源过度竞争,避免下游系统过载。

 

支持实时元表质量监测,可配置统计趋势监测、实时多链路对比、实时离线数据核对。

相关文章
|
7月前
|
存储 供应链 安全
【区块链】智能交易模式下的数据安全流通模型
【区块链】智能交易模式下的数据安全流通模型
379 1
|
7月前
|
SQL JSON 数据库连接
Dataphin常见问题之报415错误如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
7月前
|
存储 数据采集 安全
瓴羊Dataphin数据安全能力再升级,内置分类分级模板、上线隐私计算模块
瓴羊Dataphin数据安全能力再升级,内置分类分级模板、上线隐私计算模块
211 0
|
5月前
|
安全 Java Apache
Java中的数据安全与隐私保护技术
Java中的数据安全与隐私保护技术
|
5月前
|
SQL 关系型数据库 MySQL
如何在Dataphin中构建Flink+Paimon流式湖仓方案
当前大数据处理工业界非常重要的一个大趋势是一体化,尤其是湖仓一体架构。与过去分散的数据仓库和数据湖不同,湖仓一体架构通过将数据存储和处理融为一体,不仅提升了数据访问速度和处理效率,还简化了数据管理流程,降低了资源成本。企业可以更轻松地实现数据治理和分析,从而快速决策。paimon是国内开源的,也是最年轻的成员。 本文主要演示如何在 Dataphin 产品中构建 Flink+Paimon 的流式湖仓方案。
7833 10
如何在Dataphin中构建Flink+Paimon流式湖仓方案
|
6月前
|
存储 SQL 多模数据库
多模数据库Lindorm再升级:对接Dataphin,打通数据治理“最后一公里”
Lindorm通过与Dataphin的深度整合,进一步解决了数据集成和数据治理的问题,为企业提供更加高效和更具性价比的方案。
多模数据库Lindorm再升级:对接Dataphin,打通数据治理“最后一公里”
|
6月前
|
数据采集 数据可视化 数据管理
【企业实践】台州银行携手瓴羊Dataphin共建数据平台,打造小微金融治理新标杆
台州银行数据治理项目携手瓴羊Dataphin,荣获中国信息通信研究院评为“2023年铸基计划高质量数字化转型典型优秀案例”、数字化研究机构沙丘社区选为“2024中国数据资产管理最佳实践案例”双重认可。
570 4
【企业实践】台州银行携手瓴羊Dataphin共建数据平台,打造小微金融治理新标杆
|
7月前
|
存储 人工智能 算法
数据安全与隐私保护在人工智能时代的挑战与应对
随着人工智能技术的快速发展,数据安全和隐私保护问题日益凸显。本文将探讨在人工智能时代下,数据安全面临的挑战以及如何有效应对,为保护用户数据和维护信息安全提供新思路。
1145 13
|
7月前
|
监控 安全 网络安全
云端防御策略:在云计算中确保数据安全与隐私
【4月更文挑战第6天】 随着企业和个人日益依赖云服务,数据安全性和隐私保护成为不容忽视的挑战。本文探讨了云计算环境中面临的主要网络安全威胁,并提出了综合性的安全措施来加强防护。我们将从云服务的基础知识出发,分析安全风险,并深入讨论如何通过加密技术、身份验证、访问控制以及持续监控等手段来提高数据的安全性。文章的目标是为读者提供一套实用的策略框架,以便在享受云计算带来的便利时,能够有效地保障信息安全。
|
7月前
|
存储 边缘计算 安全
边缘计算中的数据安全与隐私保护:挑战与应对策略
边缘计算中的数据安全与隐私保护:挑战与应对策略