关于人工智能在数据质量管理中的应用

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介: 说实在的,人工智能这个概念有些过于高大上,从大的方面包括深度学习、机器学习、强化学习等等,而深度学习又包括图像识别、语音识别、自然语言处理、预测分析;机器学习则包括监督学习、无监督学习、半监督学习,监督学习又细分为回归、分类、决策树等等。理论上人工智能什么都能做,什么都能迎合的上。关键数据质量管理实在太接地气了,以至于大家都理解为数据质量检查规则定义、数据质量检查规则脚本、检查规则执行引擎、数据质量检查规则执行情况监控,数据质量检查报告;而数据质量校验规则无非就是一致性、准确性、唯一性、真实性、及时性、关联性、完整性的一堆校验,再大白话一些无非就是SQL语句。而本人面临的还不是基于数据仓库

说实在的,人工智能这个概念有些过于高大上,从大的方面包括深度学习、机器学习、强化学习等等,而深度学习又包括图像识别、语音识别、自然语言处理、预测分析;机器学习则包括监督学习、无监督学习、半监督学习,监督学习又细分为回归、分类、决策树等等。理论上人工智能什么都能做,什么都能迎合的上。
关键数据质量管理实在太接地气了,以至于大家都理解为数据质量检查规则定义、数据质量检查规则脚本、检查规则执行引擎、数据质量检查规则执行情况监控,数据质量检查报告;而数据质量校验规则无非就是一致性、准确性、唯一性、真实性、及时性、关联性、完整性的一堆校验,再大白话一些无非就是SQL语句。
而本人面临的还不是基于数据仓库的数据质量管理,数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策,数据仓库的集成性和面向主题两个特性决定了数据是有天然血缘关系的,血缘关系的存在是数据质量追溯的前提,能够抽丝剥茧一层层梳理,简而言之,目的性就是为了保障端到端的数据准确性。
刚入职电信运营商的时候,主要负责经营分析系统的流量业务和数据业务,初步统计过经分系统有七八千张表、几千个存储过程,从接口层到存储层到中间表再到汇总层再到报表层,设计上倒也很合理,在不懂业务的情况下,为了快速上手,曾经花了3个月时间去阅读一百来张中间表的数百个存储过程,形成了几份人肉血缘关系文档,再过一年基本就可以设计数据模型了,这是个笨方法,但也是最快速的办法。
入职新公司后,每年推陈出新一大堆新概念,但基本上落地的很少,数据中心、数字平台、数据平台、数据中台、数据湖、物联网、人工智能平台,云化重构,昨天阅读到一篇文章,说数据湖就是懒人数据仓库,公司非常想挖掘现有和历史的业务数据,但是还没有详细的规划如何分析。所以需要先保存数据,在考虑以后的分析,毕竟对于很多公司来说,数据就是巨大的资产。毕竟数据湖既新潮又解决不了实际问题,而且hadoop、mpp既廉价容量又大,关键是规避了数据质量和企业数据模型,我想大概就是这个原因吧。
本人要面临的是什么呢,一大堆业务系统,一些半集中化的报表系统,ETL工具五花八门,有ETL工具,有DBLink抽取的,有ogg同步的,业务系统之间靠主数据和SOA进行数据协作,就像任何早期系统一样,初衷设计是好的,实际落地都会大打折扣,于是出现了数据质量问题,数据质量问题又分解为技术问题和数据问题,技术问题当然是追究系统建设的原因了,当然也无法追究,毕竟上线那么多年了,数据问题要追究业务部门录入人员和使用人员的责任,就涉及到数据认责,数据认责又牵涉到各方利益,所以巴拉巴拉的。
但是工作还得做啊,尽人事听天命嘛,个人认为数据质量问题短期内解决数据同源问题,长期目标是为了解决企业数据模型问题,毕竟数据质量核查过程是了解数据的过程,了解数据的过程就是不断熟悉业务的过程,熟悉业务自然就会站在业务人员的角度去考虑企业数据模型问题。
前面是讲了数据质量问题的目标,当然要数据质量问题不可避免要涉及到制度机制、平台工具、运营团队。

    一、基于数据管理能力成熟度和公司数据管理过程中的问题制定一系列实际可操作可落地的数据管理制度。

    二、关于数据认责,要基于业务场景开展尝试,而不是胡子眉毛一把抓

    三、建立一套综合数据质量平台,为数据质量提供自动、自助、智能化的平台支撑,数据还是要集中的,不集中什么都治不了

    四、搭建一套数据闭环管理流程,自下而上收集问题处理问题

    五、有一套数据治理组织架构,这个一般雷声大雨点小,那就从自我做起吧,一个数据运营团队和相关分工还是要的。

搞到最后,还是少不了钱,有钱不是万能的,没钱是万万不能的,制度、平台、团队都是靠钱的。
前面讲了一堆数据质量的事情,怎么解决人工智能的问题呢?其实也借鉴了一些网上的部分,当然自己也反复思考,为了工作夜不能寐。
数据质量的问题主要发生在源端、传输过程和目标端,这话说起来容易,实施起来难,几万张表上百万字段估计一辈子耗进去都脱身不出来,怎么办,靠人工智能和专家经验。
一、确定数据质量范围

 1、基于表热度分析、引用对象分析、血缘关系分析,选择一些重要的<a rel="dofollow" href="https://www.fgba.net/" title="QQ拍卖平台"><span style="color:rgba(38,38,38,1);">QQ拍卖平台</span></a>表和数据项进行数据质量核查,再跟业务部门进行确认,一般来说大差不差。
 2、那些基本没啥人用的表或没数据的表,可以无视了。
 3、本来想基于自然语言处理的文本相似度计算数据库表相似度匹配,判断表之间是否高度重复,相似度高的也可以做排除法,结果一条SQL就能搞定了,又和人工智能没啥关系了。

二、数据质量检查规则

 1、针对少量核心检查规则,从大数据中选取训练数据样本,利用机器学习算法进行深度分析,提取公共特征和模型,可以用来定位数据质量原因,进行数据质量问题的预测,并进一步形成知识库,进而增强数据质量管理能力。说实在的这个有点虚,啥规则都没有能挖掘个屁出来。
 2、基于正态分布、长尾分布的数据质量监控,通过机器学习训练,确定数据阈值,判断数据是否为异常数据,可做事前研判、事后监控,针对数据质量;当然这个范围极其有限。
 3、更多的还是自动生成SQL脚本好了,当然是最简单的规则了,最不济的是靠人肉阅读代码生成校验规则。

三、数据模型管理

 1、过机器学习技术分析数据库中数据实体的引用热度,通过聚类算法自动识别数据模型间的内在关系,同时也可对数据模型质量的检测和评估,这个是抄的,不过和我写的有点类似。
 2、基于知识图谱的元数据管理-进行数据链路、血缘关系分析,进行应用场景聚合。

四、数据传输监控

 1、利用机器学习技术对数据历史到位情况分析,预测数据的到位时间,为保证数据处理的及时性和应对数据晚到的影响提供支撑。这个适合在数据仓库中。
 2、我面临的问题有些复杂,暂时还没想好。

五、数据问题发现

 就是定位在具体的非值域数据环节,例如身份证、地址、单位名称、有规则的业务编号上进行词性、句式、语义分析,增强数据质量和数据安全管理能力。

能想到的暂时就这些了,人工智能可以在数据质量管理的小部分范围内发挥作用,但更多的还是靠人和人肉代码吧

相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
目录
相关文章
|
3天前
|
存储 XML 人工智能
深度解读AI在数字档案馆中的创新应用:高效识别与智能档案管理
基于OCR技术的纸质档案电子化方案,通过先进的AI能力平台,实现手写、打印、复古文档等多格式高效识别与智能归档。该方案大幅提升了档案管理效率,确保数据安全与隐私,为档案馆提供全面、智能化的电子化管理解决方案。
69 48
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
【10月更文挑战第31天】2024年,AI大模型在软件开发领域的应用取得了显著进展,从自动化代码生成、智能代码审查到智能化测试,极大地提升了开发效率和代码质量。然而,技术挑战、伦理与安全问题以及模型可解释性仍是亟待解决的关键问题。开发者需不断学习和适应,以充分利用AI的优势。
|
3天前
|
人工智能 安全 测试技术
探索AI在软件开发中的应用:提升开发效率与质量
【10月更文挑战第31天】在快速发展的科技时代,人工智能(AI)已成为软件开发领域的重要组成部分。本文探讨了AI在代码生成、缺陷预测、自动化测试、性能优化和CI/CD中的应用,以及这些应用如何提升开发效率和产品质量。同时,文章也讨论了数据隐私、模型可解释性和技术更新等挑战。
|
1天前
|
机器学习/深度学习 人工智能 搜索推荐
深度探索人工智能在医疗影像诊断中的应用与挑战####
本文深入剖析了人工智能(AI)技术,特别是深度学习算法在医疗影像诊断领域的创新应用,探讨其如何重塑传统诊断流程,提升诊断效率与准确性。同时,文章也客观分析了当前AI医疗影像面临的主要挑战,包括数据隐私、模型解释性及临床整合难题,并展望了未来发展趋势。 ####
|
1天前
|
机器学习/深度学习 人工智能 算法
探索AI在医疗诊断中的应用及其未来趋势
【10月更文挑战第34天】随着人工智能技术的飞速发展,其在医疗领域的应用也日益广泛。本文将探讨AI技术在医疗诊断中的具体应用案例,分析其对提升诊断效率和准确性的积极影响,并预测未来AI在医疗诊断中的发展趋势。通过实际代码示例,我们将深入了解AI如何帮助医生进行更精准的诊断。
|
2天前
|
机器学习/深度学习 人工智能 算法
AI在医疗影像诊断中的应用与未来展望####
本文深入探讨了人工智能(AI)在医疗影像诊断领域的最新进展、当前应用实例及面临的挑战,并展望了其未来的发展趋势。随着深度学习技术的不断成熟,AI正逐步成为辅助医生进行疾病早期筛查、诊断和治疗规划的重要工具。本文旨在为读者提供一个全面的视角,了解AI如何在提高医疗效率、降低成本和改善患者预后方面发挥关键作用。 ####
|
1天前
|
人工智能 自然语言处理 API
探索AI在自然语言处理中的应用
【10月更文挑战第34天】本文将深入探讨人工智能(AI)在自然语言处理(NLP)领域的应用,包括语音识别、机器翻译和情感分析等方面。我们将通过代码示例展示如何使用Python和相关库进行文本处理和分析,并讨论AI在NLP中的优势和挑战。
|
2天前
|
机器学习/深度学习 人工智能 搜索推荐
AI在金融领域的应用:智能投资顾问
【10月更文挑战第31天】随着AI技术的快速发展,智能投资顾问在金融领域的应用越来越广泛。本文介绍了智能投资顾问的定义、工作原理、优势及未来发展趋势,探讨了其在个人财富管理、养老金管理、机构风险管理及量化交易中的典型应用,并分析了面临的挑战与机遇。智能投资顾问以其高效、低成本、个性化和全天候服务的特点,正逐步改变传统投资管理方式。
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
AI在医疗领域的应用及其挑战
【10月更文挑战第34天】本文将探讨人工智能(AI)在医疗领域的应用及其面临的挑战。我们将从AI技术的基本概念入手,然后详细介绍其在医疗领域的各种应用,如疾病诊断、药物研发、患者护理等。最后,我们将讨论AI在医疗领域面临的主要挑战,包括数据隐私、算法偏见、法规合规等问题。
7 1
|
1天前
|
机器学习/深度学习 人工智能 算法
人工智能在医疗诊断中的应用与挑战
【10月更文挑战第34天】人工智能(AI)技术正在改变医疗行业的面貌,为诊断过程带来前所未有的效率和准确性。通过深度学习、神经网络等技术,AI能够分析大量数据,辅助医生做出更快速、更准确的诊断决策。然而,AI在医疗领域的应用也面临着数据隐私、算法透明度和医疗责任等一系列挑战。本文将探讨AI在医疗诊断中的具体应用案例,分析其面临的挑战,并提供对未来发展方向的思考。