2018盘点之数据治理——企业数字化转型的基础

简介: 2018盘点之数据治理——企业数字化转型的基础

image.png


一转眼,2018年就快要成为历史了。回顾2018年中国IT界最热的词汇是什么?“人工智能”、“物联网”、“企业数字化转型”应该能够占据三甲。值得一提的是,无论是人工智能还是物联网也都以数据为核心,因此无论如何,数据已经成为IT的核心,成为中国企业转型升级的核心。

然而,人工智能行业的从业者有一句名言:“有多少人工,就有多少智能”——背后的意思大致是要获得智能,首先需要人工来治理数据

换句话说,数据的治理,已经成为IT发展和企业发展的瓶颈之一。如今到底数据治理的市场是一个怎样的情况,是本文探讨的重点。


数据治理的本质是协调和服务


根据Gartner的定义,“数据治理”(Data Governance)是“一种技术支持的学科,其中业务和IT协同工作,以确保企业共享的主数据资产的一致性、准确性、管理性、语义一致性和问责制”。

举个例子,企业中经常能看到这样的现象:几个部门的主管在汇报工作时,同一指标的数据不尽相同,甚至可能截然相反,到底哪个数据是正确的数据?无从确认。造成这种现象的原因很多,比如统计口径问题、数据质量问题等等。

什么是治理?治理本身是源自于拉丁文的“掌舵”一词,强调协调而不是控制,是一个联合行动的过程,因此治理存在着权力依赖的多元主体之间的自治网络;另一层含义:治理的本意是服务,通过服务来实现管理的目的,这和云计算的模式十分吻合

事实上,在云计算、大数据时代,业界公认的全球数据年复合增长率近似于摩尔定律的增幅,即每18个月数据量会翻一番;即便是传统的主数据,Gartner的预测是未来的年复合增长率至少在17%以上。

不仅如此,各类数据中共享和开放的数据量会越来越多,因此共享管理规则和数据方案的实施,以及安全与隐私保护,都将是企业数字化过程中的核心问题。


数据治理正进入智能化阶段


说到数据治理的技术问题,我们有必要先来看一下Gartner的魔力象限。

在2017年10月发布的主数据管理解决方案的魔力象限中,处于领导者象限的是Informatica和Orchestra Networks(TIBCO),SAP、IBM等紧随其后;

image.pngimage.gif

而在2018年8发布的元数据管理解决方案的魔力象限中,Informatica和Collibra、IBM、Oracle等位于领导者象限,SAP、Infogix等紧随其后。

应该说,Informatica、IBM、SAP、Oracle等老牌数据治理和数据管理软件厂商,一直是这一领域的核心玩家。而近些年,随着云计算的大规模普及,AWS、微软、谷歌和阿里云等云计算IaaS提供商,也加入了数据治理的主流厂商行列。

在传统定义里,主数据(Master Data)是描述企业核心实体的共享数据,例如客户、供应商、账户和组织部门的相关数据,需要保持一致和统一的标识符和扩展属性。与记录业务活动、波动较大的交易数据相比,主数据(也称基准数据)变化缓慢。主数据管理一般称之为MDM。

而元数据(Metadata)主要是指中继数据,即描述数据的数据,主要是描述数据属性的信息,具备支持资源查找、文件记录、历史数据、存储位置等功能,比如文本标注也是一种元数据。

image.png

今天的大数据中80%都是非结构化数据,实际上主要是文本、图像、视频、音频这样的数据。对于企业来说,大量的非结构化数据比如视频、音频或者文字文件存留下来,如何变现价值,非常重要的一点就是要进行文本标注,而文本标注的一大难点,其实是实体和关系的标注,最终为行业知识图谱打好基础。这个标注过程如今仍然是费时费力的工作,但市场上也有IBM等大厂和明略数据等众多创新公司推出的文本数据标注抽取工具。


数据治理的智能化程度,

决定了企业数字化转型的加速度


事实上,即便像Informatica这样一家传统的ETL专家,而今也不再单纯谈ETL,而是更多关注企业的业务方向,帮助企业做数字化的转型。因为,无论是EIC、数据治理,还是面向客户信息的MDM、面向产品信息的PIM,这些都不再仅仅是面向技术人员使用的,而是要推荐给客户整体解决方案——比如通过CLAIRE这样的数据集成的人工智能引擎,自动化地来为客户提供服务。

国内在数据治理和知识图谱领域也出现了越来越多的准独角兽企业,譬如明略数据近日签约陕西农信,落地农信系统首个信贷知识图谱;助推华南区首个公安知识图谱成功落地——在公安场景中,通过对大量笔录做实体、事件、关系的智能化标注,可迅速构建笔录中的人、事、地、物、组织的关联关系,从而从文本数据角度快速构建公安知识图谱,提高研判效率。

image.png

应该说,在今天以数据驱动数字化转型的Data 3.0时代,数据治理的智能化程度,决定了企业数字化转型的加速度——只有具备了智能化数据治理解决方案和专业服务能力的厂商,才能帮助企业加速实现以数据为驱动的数字化转型。

与此同时,治理的本意是服务,数据治理更应该通过服务来实现管理的目的。值得一提的是,明略数据日前推出了基于深度学习模型的文本数据标注抽取的SaaS工具——Raptor,明略数据成为目前极少数具备数据治理云服务能力的厂商之一,在数据治理平台化、智能化的道路上迈出了关键一步。

在笔者看来,相较于传统的用于特定业务应用的Data 1.0时代和支持业务流程的Data 2.0时代,今天的Data 3.0时代已经进入到了数据驱动企业数字化转型的新时代——数据成为了发动机,成为了主角。这时候,不仅数据价值比以往任何时候都更具有颠覆力,成为了经济发展的新动能;而且,助力企业挖掘数据价值的数据治理厂商,同样处于风口浪尖,或将迎来市场重新洗牌的2019年。

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
相关文章
|
Java
图文并茂教你使用 IDEA 进行远程调试
图文并茂教你使用 IDEA 进行远程调试
507 0
|
4月前
|
人工智能
2025数字人短视频工具TOP5榜单:从入门到进阶的必备神器 
随着人工智能技术的快速发展,数字人短视频工具正成为内容创作领域的重要助力。从入门级简单操作到进阶专业应用,各类工具功能各异。本文将为您揭晓2025年最值得关注的五款数字人工具,助您轻松选择最适合的创作伙伴。
|
7月前
|
人工智能 自然语言处理 API
AI与Web3.0时代:API如何定义下一代企业数据交互?
简介: 2025年,API作为企业数据交互的“通用语言”,正推动各行各业的智能化与自动化变革。从技术架构到商业价值,CTO如何把握API浪潮,构建开放生态、提升安全合规、驱动业务增长?本文深入探讨API的战略意义与实战策略,助力企业抢占未来竞争制高点。
|
4月前
|
存储 机器学习/深度学习 人工智能
46_LLM幻觉问题:来源与早期研究_深度解析
大型语言模型(LLM)在自然语言处理领域展现出了令人惊叹的能力,能够生成连贯的文本、回答复杂问题、进行创意写作,甚至在某些专业领域提供见解。然而,这些强大模型的一个根本性缺陷——幻觉问题,正成为限制其在关键应用中广泛部署的主要障碍。幻觉(Hallucination)指的是LLM生成的内容与事实不符、上下文矛盾、逻辑错误,或者完全虚构信息的现象。
|
9月前
|
人工智能 JavaScript 安全
【HarmonyOS NEXT+AI】问答05:ArkTS和仓颉编程语言怎么选?
本文针对学员关于“鸿蒙主推开发语言是ArkTS,为何课程使用仓颉语言”的疑问进行解答。文章回顾了鸿蒙编程语言的发展历程:从早期支持JS和C/C++,到HarmonyOS 2引入Java,再到HarmonyOS 3推出ArkTS,直至HarmonyOS 5(NEXT)引入仓颉语言。仓颉作为华为自研的现代编程语言,具备高效编程、安全可靠、轻松并发和卓越性能等特性,适用于高性能高并发场景及未来AI原生应用开发。文章还探讨了仓颉与ArkTS的关系、应用场景以及是否需要重写现有应用等问题,为开发者选择编程语言提供了参考依据。
691 13
【HarmonyOS NEXT+AI】问答05:ArkTS和仓颉编程语言怎么选?
|
11月前
|
机器学习/深度学习 算法 数据挖掘
量子计算:揭示气候预测的未来
量子计算:揭示气候预测的未来
325 20
|
存储 人工智能 自然语言处理
OpenScholar:华盛顿大学联合艾伦研究所开源的学术搜索工具
OpenScholar是由华盛顿大学和艾伦AI研究所联合开发的开源学术搜索工具,旨在通过检索和综合科学文献中的相关论文来回答用户问题。该工具利用大规模科学论文数据库、定制的检索器和重排器,以及一个优化的8B参数语言模型,生成基于实际文献的准确回答。OpenScholar在提供事实性回答和准确引用方面超越了现有的专有和开源模型,所有相关代码和数据均已开源,支持并加速科学研究。
836 1
OpenScholar:华盛顿大学联合艾伦研究所开源的学术搜索工具
|
负载均衡 容灾 安全
Docker Swarm总结+基础、集群搭建维护、安全以及集群容灾(1/5)
Docker Swarm总结+基础、集群搭建维护、安全以及集群容灾(1/5)
564 2
|
人工智能 算法 PyTorch
【Hello AI】AIACC-ACSpeed-AI分布式训练通信优化库
AIACC-ACSpeed(AIACC 2.0-AIACC Communication Speeding)是阿里云推出的AI分布式训练通信优化库AIACC-Training 2.0版本。相比较于分布式训练AIACC-Training 1.5版本,AIACC-ACSpeed基于模块化的解耦优化设计方案,实现了分布式训练在兼容性、适用性和性能加速等方面的升级。
|
存储 数据可视化 数据管理
Google Earth Engine谷歌地球引擎GEE外部栅格矢量数据导入管理与下载及数据与代码共享
Google Earth Engine谷歌地球引擎GEE外部栅格矢量数据导入管理与下载及数据与代码共享
518 1