《大数据管理概论》一2.4 数据融合技术

简介:

本节书摘来自华章出版社《大数据管理概论》一书中的第2章,第2.1节,作者 孟小峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看

2.4 数据融合技术

数据融合需要用动态的方式统一不同的数据源,将离散的数据转化为统一的知识资源。另外,大数据的关联性使得融合步骤之间相互影响,传统的流水线式融合不再满足现有融合需求。面对新的融合需求,反馈迭代机制显得极为重要。为此,我们给出数据融合的新的实现步骤:①对齐本体、模式,加速融合效率;②识别相同实体、链接关联实体;③甄别真伪、合并冲突数据,并将处理结果反馈给实体识别阶段,提高识别效率;④动态更新知识库、保持知识的与时俱进。

2.4.1 模式/本体对齐

模式/本体对齐是大数据融合的前提,用于提高融合效率,重点解决对齐演化引起的不一致性。大数据的海量性和演化性导致事后补救难度大,所以需要采用“以防为主,防治结合”的策略。此外,还可以变相思维,利用模板[33,34]在捕捉经验方面的优势为频繁错配的本体建立对齐模板以便重复使用。所以,我们认为本体演化对齐应该分三步完成,即本体的演化管理、不一致性的预防和补救、对齐模板的挖掘。本体演化重点需要关注原子本体的变化和描述,而本体演化的形式化方法可以借鉴类型化的图语法(Typed Graph Grammars,TGG)和代数图变换(Algebraic Graph Transformations,AGT)。TGG是一种数学形式体系,用于表达和管理图。
此外,本体依赖于实体和合作方式,当领域表示发生演变频繁或有新的要求必须考虑时,本体也会频繁和连续地变化,并且通常本体较大且构建代价大。因此,本体必须能够适应演化、修改和改进,从而保持本体一致。然而,这个过程是极具挑战性的,因为它往往很难理解本体变化部分所受的影响。所以,需要对本体进行建模,那么也就不可避免地涉及了本体语言,通用的本体语言是Ontology Web Language (OWL),它能有效地捕捉静态语义但不能满足本体实体之间交互变化的一致性检查,因此不足以用于形式化变化。目前文献大多是对本体变化的量化,并没有对不一致性进行充分研究。即便给出了解决不一致性问题的方法,也是不一致发生以后的解决方法,需要执行变化并使用额外的资源监测本体的一致性,因此缺乏预防措施来避免不一致发生。

2.4.2 实体链接

实体链接是数据融合的基础,BDF@DB中实体以记录的形式表示,实体链接也即记录链接,实现步骤包括分块、两两匹配和聚类;BDF@C&A中实体链接的实现步骤包括实体识别、实体消歧和共指识别。由2.3.3节的分析可知实体识别与两两匹配、共指识别与聚类作用相当;而实体消歧包含在BDF@DB中的冲突解决中。所以我们将大数据融合中的实体链接步骤分为分块、实体识别和共指识别。它的不同之处在于如下几方面。
第一,实体的属性特征以及所在的语境信息、冲突实体的解决结果和共指识别结果都可能对实体识别产生影响。但是现有的实体链接基本是实体识别、冲突解决(重点是实体消歧)、共指识别串行化执行,不感知彼此的相互影响。这样做有3方面的弊端:实体识别过程中产生的错误会依次向后续过程传播,这种错误不可恢复;共指识别和冲突解决的结果不能向前反馈;实体识别过程和冲突解决过程可能会产生不一致的输出。但实际中这三者相互影响,前者为后两者提供更多的特征,后两者为前者提供已消歧的链接信息辅助聚类。所以,识别实体应该是实体识别、冲突解决、共指识别三者迭代优化、逐步求精的过程。
第二,实体之间的语义关联性较强,并且存在演化性,这对共指识别提出了挑战,已有方法没有考虑可靠性和更新程度、局部决策对与之关联表象的影响,并且直接面向动态数据,演化模型依赖于训练数据集和演化证据的质量,匹配精度高,但时间代价不是大数据能够承受的。
第三,需要识别新实体和新关系,这是知识库扩充的必要手段。此外,推演出的新知识、发现的深度知识,以及得到的普适机理都有可能对实体识别起到启发作用,所以,反馈结果极为重要,所以,大数据中的实体识别不仅需要与数据融合中的冲突解决、共指识别形成内部反馈迭代优化,还需要与知识融合中的深度知识发现形成跨环启发。
第四,复杂实体关联方法在适用范围、准确率等方面都存在一定的不足,主要挑战性在于:非结构化数据中一般不显式包含属性名,其实体属性也不一定都完全出现在结构化数据中,反之亦然。并且,两类实体之间是需要进行近似匹配还是精确匹配也需要区别;新实体的发现也是目前的一大难点,关键在于相似性判定阈值的确定没有有效的解决办法。
第五,大数据融合向短文本、跨语言、跨领域融合迈进,所以需要相关实体跨语言、跨文档的关联,目前研究成果不多。其中,未知链接的处理对于跨语言、跨文档的链接更加复杂;实体链接中存在隐喻情况,一个实体在多个文档中出现的情况,提及的边界重叠的情况,嵌套提及、嵌套链接的情况,以及实体的相关性,这些情况都没有得到有效的解决,都是目前亟待解决的问题。

2.4.3 冲突解决

冲突解决是大数据融合的必要条件,它的第一要务是消歧。大数据的真实性和演化性是引发冲突的导火索,如数据本身的新鲜度和贡献给特定查询的价值量等,这就引发了新鲜度和价值量不同的多真值问题,需要评估信息质量,合并不确定性信息。此外,知识融合中推演出的关系也可能对其起到启发作用,需要将这种新知识动态地引入冲突解决过程,并保持这种知识的演化。所以,冲突解决应该经历真假甄别、不确定性合并和演化建模三个步骤。此外,所有冲突解决技术都有一个假定前提,即假定模式对齐和实体识别已完成,并且数据也已经对齐。但这个假设在大数据环境下过于理想化,所以冲突解决需要在数据融合内部与实体链接形成
反馈。
目前,冲突解决的侧重点在于知识的真假甄别,并假设假值服从均匀分布,不匹配即为完全不同。但这个假设在现实中过于绝对,以至于已有方法不能很好地处理错误产生的不确定性。此外,消歧方法依赖于实际参照数据的可用性(如数据标注),参照数据一般源于维基百科,缺乏领域性和针对性,这使得实用性变窄。对于其他领域,如新闻,仅有一小部分标注样本可用,所以必须采取超越维基百科的消歧策略。
对于不确定因素,主要难点在于针对新鲜度和价值量不同的多真值问题,如何设计质量评估函数。演化行为也是引起不确定性的一个因素,对于演化建模,虽然现有方法捕获了实体属性值的改变,但未考虑属性值变化的复杂模式,如用属性的再现概率建模实体演化,当一个属性值在后续时间内不再出现,则所有情况下记录表示同一实体的可能性相同,但这个说法与实际相悖。如一个讲师在两年后成为副教授是可能的,但一年后变为助教的可能性是不存在的,明显前一种表示同一实体的可能性远大于后一种,而现有方法则认为这种概率相同。这说明,建模变化需要考虑属性本身的变化模式,如语义相关度等。

2.4.4 知识库自适应发展

知识库是数据融合的结果,也是大数据融合的中转站。随着数据的产生、信息的传播,会有源源不断的知识扩充到知识库。知识库包含三种知识,即从数据源抽取的直接知识,由现存知识库、关系数据库和以半结构化形式存储的历史数据(如XML、JSON、CSV等)直接转化来的转化知识,以及知识融合反馈来的深度知识。知识库的生命周期分为3个阶段:第1阶段是自适应抽取策略抽取直接知识构建基本知识库或扩充知识库;第2阶段用转化知识和深度知识通过自动化增量更新扩展知识库;第3阶段定位事实和溯源知识库。
自适应抽取首先需要设定语法-语义的抽取模式,然后采用自调整和反馈调整调整抽取策略。自调整通常采用模糊本体技术识别并以概率方式检测可能性,反馈调整主要是借助抽取结果信息以及知识融合过程中反馈回来的信息调整抽取模式。对于更新策略,目前大多采用人工干预的增量更新方法,但是随着知识库的不断积累,依靠人工制定更新规则和逐条检测将不能满足需求,所以需要自动化、批量更新(比如子图到子图的更新策略),这样就必须确保自动化更新的有效性。此外知识库的自适应发展需要动态的方式统一不同的数据源,这个过程对用户透明,缺乏可解释性和可操作性,并且大数据的海量性和动态演化加大了错误恢复的难度,所以需要建立知识库的可溯源机制。
对于新获取的3种知识所包含的实体、关系以及实体属性信息中可能包含大量冗余信息和错误信息,所以需要通过实体链接技术和冲突解决技术对实例和关系进行统一化处理以减少数据冗余;并且直接抽取的关系都是扁平化的关系,缺乏层次性和逻辑性,需要对概念表达方式进行统一化处理,并将新本体融入本体库。3种知识中转化知识属于高质量知识,可以使用现成的转换工具直接转换;而直接知识质量较低,还需要对齐以进行验证和评估,以确保知识库内容的一致性和准确性,通常采用的方法是在评估过程中为新加入的知识赋予可信度值,据此进行知识的过滤和融合。

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
相关文章
|
3月前
|
存储 数据可视化 容灾
开发PACS系统的技术难点解析:从数据管理到性能优化
开发PACS系统面临多重技术与合规挑战:海量影像数据的高效存储与分层管理、高并发下的实时调阅性能、DICOM标准的深度兼容、专业级图像处理与Web化可视化、与HIS/RIS/EMR系统的无缝集成、7×24小时高可用与数据安全,以及严格的医疗设备注册与网络安全认证。需融合存储架构、协议解析、临床流程与法规合规,构建稳定可靠的临床级系统,技术壁垒极高。
248 3
|
2月前
|
存储 人工智能 大数据
云栖2025|阿里云开源大数据发布新一代“湖流一体”数智平台及全栈技术升级
阿里云在云栖大会发布“湖流一体”数智平台,推出DLF-3.0全模态湖仓、实时计算Flink版升级及EMR系列新品,融合实时化、多模态、智能化技术,打造AI时代高效开放的数据底座,赋能企业数字化转型。
681 0
|
4月前
|
数据采集 人工智能 分布式计算
ODPS在AI时代的发展战略与技术演进分析报告
ODPS(现MaxCompute)历经十五年发展,从分布式计算平台演进为AI时代的数据基础设施,以超大规模处理、多模态融合与Data+AI协同为核心竞争力,支撑大模型训练与实时分析等前沿场景,助力企业实现数据驱动与智能化转型。
403 4
|
5月前
|
存储 分布式计算 Hadoop
Hadoop框架解析:大数据处理的核心技术
组件是对数据和方法的封装,从用户角度看是实现特定功能的独立黑盒子,能够有效完成任务。组件,也常被称作封装体,是对数据和方法的简洁封装形式。从用户的角度来看,它就像是一个实现了特定功能的黑盒子,具备输入和输出接口,能够独立完成某些任务。
|
2月前
|
数据可视化 大数据 关系型数据库
基于python大数据技术的医疗数据分析与研究
在数字化时代,医疗数据呈爆炸式增长,涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展,结合Python、MySQL与B/S架构,推动医疗系统高效实现。
|
4月前
|
SQL 分布式计算 大数据
我与ODPS的十年技术共生之路
ODPS十年相伴,从初识的分布式计算到共生进化,突破架构边界,推动数据价值深挖。其湖仓一体、隐私计算与Serverless能力,助力企业降本增效,赋能政务与商业场景,成为数字化转型的“数字神经系统”。
|
4月前
|
存储 人工智能 算法
Java 大视界 -- Java 大数据在智能医疗影像数据压缩与传输优化中的技术应用(227)
本文探讨 Java 大数据在智能医疗影像压缩与传输中的关键技术应用,分析其如何解决医疗影像数据存储、传输与压缩三大难题,并结合实际案例展示技术落地效果。
|
4月前
|
机器学习/深度学习 算法 Java
Java 大视界 -- Java 大数据在智能物流运输车辆智能调度与路径优化中的技术实现(218)
本文深入探讨了Java大数据技术在智能物流运输中车辆调度与路径优化的应用。通过遗传算法实现车辆资源的智能调度,结合实时路况数据和强化学习算法进行动态路径优化,有效提升了物流效率与客户满意度。以京东物流和顺丰速运的实际案例为支撑,展示了Java大数据在解决行业痛点问题中的强大能力,为物流行业的智能化转型提供了切实可行的技术方案。
|
5月前
|
数据采集 自然语言处理 分布式计算
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
|
5月前
|
存储 分布式计算 算法
Java 大视界 -- Java 大数据在智能教育在线考试监考与作弊检测中的技术创新(193)
本文探讨了Java大数据技术在智能教育在线考试监考与作弊检测中的创新应用。随着在线考试的普及,作弊问题日益突出,传统监考方式难以应对。通过Java大数据技术,可实现考生行为分析、图像识别等多维度监控,提升作弊检测的准确性与效率。结合Hadoop与Spark等技术,系统能实时处理海量数据,构建智能监考体系,保障考试公平性,推动教育评价体系的数字化转型。