《大数据管理概论》一2.4　数据融合技术-阿里云开发者社区

《大数据管理概论》一2.4　数据融合技术

2017-05-02 3074

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章出版社《大数据管理概论》一书中的第2章，第2.1节，作者孟小峰，更多章节内容可以访问云栖社区“华章计算机”公众号查看

2.4　数据融合技术

数据融合需要用动态的方式统一不同的数据源，将离散的数据转化为统一的知识资源。另外，大数据的关联性使得融合步骤之间相互影响，传统的流水线式融合不再满足现有融合需求。面对新的融合需求，反馈迭代机制显得极为重要。为此，我们给出数据融合的新的实现步骤：①对齐本体、模式，加速融合效率；②识别相同实体、链接关联实体；③甄别真伪、合并冲突数据，并将处理结果反馈给实体识别阶段，提高识别效率；④动态更新知识库、保持知识的与时俱进。

2.4.1　模式/本体对齐

模式/本体对齐是大数据融合的前提，用于提高融合效率，重点解决对齐演化引起的不一致性。大数据的海量性和演化性导致事后补救难度大，所以需要采用“以防为主，防治结合”的策略。此外，还可以变相思维，利用模板［33,34］在捕捉经验方面的优势为频繁错配的本体建立对齐模板以便重复使用。所以，我们认为本体演化对齐应该分三步完成，即本体的演化管理、不一致性的预防和补救、对齐模板的挖掘。本体演化重点需要关注原子本体的变化和描述，而本体演化的形式化方法可以借鉴类型化的图语法（Typed Graph Grammars，TGG）和代数图变换（Algebraic Graph Transformations，AGT）。TGG是一种数学形式体系，用于表达和管理图。
此外，本体依赖于实体和合作方式，当领域表示发生演变频繁或有新的要求必须考虑时，本体也会频繁和连续地变化，并且通常本体较大且构建代价大。因此，本体必须能够适应演化、修改和改进，从而保持本体一致。然而，这个过程是极具挑战性的，因为它往往很难理解本体变化部分所受的影响。所以，需要对本体进行建模，那么也就不可避免地涉及了本体语言，通用的本体语言是Ontology Web Language (OWL），它能有效地捕捉静态语义但不能满足本体实体之间交互变化的一致性检查，因此不足以用于形式化变化。目前文献大多是对本体变化的量化，并没有对不一致性进行充分研究。即便给出了解决不一致性问题的方法，也是不一致发生以后的解决方法，需要执行变化并使用额外的资源监测本体的一致性，因此缺乏预防措施来避免不一致发生。

2.4.2　实体链接

实体链接是数据融合的基础，BDF@DB中实体以记录的形式表示，实体链接也即记录链接，实现步骤包括分块、两两匹配和聚类；BDF@C&A中实体链接的实现步骤包括实体识别、实体消歧和共指识别。由2.3.3节的分析可知实体识别与两两匹配、共指识别与聚类作用相当；而实体消歧包含在BDF@DB中的冲突解决中。所以我们将大数据融合中的实体链接步骤分为分块、实体识别和共指识别。它的不同之处在于如下几方面。
第一，实体的属性特征以及所在的语境信息、冲突实体的解决结果和共指识别结果都可能对实体识别产生影响。但是现有的实体链接基本是实体识别、冲突解决（重点是实体消歧）、共指识别串行化执行，不感知彼此的相互影响。这样做有3方面的弊端：实体识别过程中产生的错误会依次向后续过程传播，这种错误不可恢复；共指识别和冲突解决的结果不能向前反馈；实体识别过程和冲突解决过程可能会产生不一致的输出。但实际中这三者相互影响，前者为后两者提供更多的特征，后两者为前者提供已消歧的链接信息辅助聚类。所以，识别实体应该是实体识别、冲突解决、共指识别三者迭代优化、逐步求精的过程。
第二，实体之间的语义关联性较强，并且存在演化性，这对共指识别提出了挑战，已有方法没有考虑可靠性和更新程度、局部决策对与之关联表象的影响，并且直接面向动态数据，演化模型依赖于训练数据集和演化证据的质量，匹配精度高，但时间代价不是大数据能够承受的。
第三，需要识别新实体和新关系，这是知识库扩充的必要手段。此外，推演出的新知识、发现的深度知识，以及得到的普适机理都有可能对实体识别起到启发作用，所以，反馈结果极为重要，所以，大数据中的实体识别不仅需要与数据融合中的冲突解决、共指识别形成内部反馈迭代优化，还需要与知识融合中的深度知识发现形成跨环启发。
第四，复杂实体关联方法在适用范围、准确率等方面都存在一定的不足，主要挑战性在于：非结构化数据中一般不显式包含属性名，其实体属性也不一定都完全出现在结构化数据中，反之亦然。并且，两类实体之间是需要进行近似匹配还是精确匹配也需要区别；新实体的发现也是目前的一大难点，关键在于相似性判定阈值的确定没有有效的解决办法。
第五，大数据融合向短文本、跨语言、跨领域融合迈进，所以需要相关实体跨语言、跨文档的关联，目前研究成果不多。其中，未知链接的处理对于跨语言、跨文档的链接更加复杂；实体链接中存在隐喻情况，一个实体在多个文档中出现的情况，提及的边界重叠的情况，嵌套提及、嵌套链接的情况，以及实体的相关性，这些情况都没有得到有效的解决，都是目前亟待解决的问题。

2.4.3　冲突解决

冲突解决是大数据融合的必要条件，它的第一要务是消歧。大数据的真实性和演化性是引发冲突的导火索，如数据本身的新鲜度和贡献给特定查询的价值量等，这就引发了新鲜度和价值量不同的多真值问题，需要评估信息质量，合并不确定性信息。此外，知识融合中推演出的关系也可能对其起到启发作用，需要将这种新知识动态地引入冲突解决过程，并保持这种知识的演化。所以，冲突解决应该经历真假甄别、不确定性合并和演化建模三个步骤。此外，所有冲突解决技术都有一个假定前提，即假定模式对齐和实体识别已完成，并且数据也已经对齐。但这个假设在大数据环境下过于理想化，所以冲突解决需要在数据融合内部与实体链接形成
反馈。
目前，冲突解决的侧重点在于知识的真假甄别，并假设假值服从均匀分布，不匹配即为完全不同。但这个假设在现实中过于绝对，以至于已有方法不能很好地处理错误产生的不确定性。此外，消歧方法依赖于实际参照数据的可用性（如数据标注），参照数据一般源于维基百科，缺乏领域性和针对性，这使得实用性变窄。对于其他领域，如新闻，仅有一小部分标注样本可用，所以必须采取超越维基百科的消歧策略。
对于不确定因素，主要难点在于针对新鲜度和价值量不同的多真值问题，如何设计质量评估函数。演化行为也是引起不确定性的一个因素，对于演化建模，虽然现有方法捕获了实体属性值的改变，但未考虑属性值变化的复杂模式，如用属性的再现概率建模实体演化，当一个属性值在后续时间内不再出现，则所有情况下记录表示同一实体的可能性相同，但这个说法与实际相悖。如一个讲师在两年后成为副教授是可能的，但一年后变为助教的可能性是不存在的，明显前一种表示同一实体的可能性远大于后一种，而现有方法则认为这种概率相同。这说明，建模变化需要考虑属性本身的变化模式，如语义相关度等。

2.4.4　知识库自适应发展

知识库是数据融合的结果，也是大数据融合的中转站。随着数据的产生、信息的传播，会有源源不断的知识扩充到知识库。知识库包含三种知识，即从数据源抽取的直接知识，由现存知识库、关系数据库和以半结构化形式存储的历史数据（如XML、JSON、CSV等）直接转化来的转化知识，以及知识融合反馈来的深度知识。知识库的生命周期分为3个阶段：第1阶段是自适应抽取策略抽取直接知识构建基本知识库或扩充知识库；第2阶段用转化知识和深度知识通过自动化增量更新扩展知识库；第3阶段定位事实和溯源知识库。
自适应抽取首先需要设定语法-语义的抽取模式，然后采用自调整和反馈调整调整抽取策略。自调整通常采用模糊本体技术识别并以概率方式检测可能性，反馈调整主要是借助抽取结果信息以及知识融合过程中反馈回来的信息调整抽取模式。对于更新策略，目前大多采用人工干预的增量更新方法，但是随着知识库的不断积累，依靠人工制定更新规则和逐条检测将不能满足需求，所以需要自动化、批量更新（比如子图到子图的更新策略），这样就必须确保自动化更新的有效性。此外知识库的自适应发展需要动态的方式统一不同的数据源，这个过程对用户透明，缺乏可解释性和可操作性，并且大数据的海量性和动态演化加大了错误恢复的难度，所以需要建立知识库的可溯源机制。
对于新获取的3种知识所包含的实体、关系以及实体属性信息中可能包含大量冗余信息和错误信息，所以需要通过实体链接技术和冲突解决技术对实例和关系进行统一化处理以减少数据冗余；并且直接抽取的关系都是扁平化的关系，缺乏层次性和逻辑性，需要对概念表达方式进行统一化处理，并将新本体融入本体库。3种知识中转化知识属于高质量知识，可以使用现成的转换工具直接转换；而直接知识质量较低，还需要对齐以进行验证和评估，以确保知识库内容的一致性和准确性，通常采用的方法是在评估过程中为新加入的知识赋予可信度值，据此进行知识的过滤和融合。

《大数据管理概论》一2.4　数据融合技术

本节书摘来自华章出版社《大数据管理概论》一书中的第2章，第2.1节，作者孟小峰，更多章节内容可以访问云栖社区“华章计算机”公众号查看

2.4　数据融合技术

2.4.1　模式/本体对齐

2.4.2　实体链接

2.4.3　冲突解决

2.4.4　知识库自适应发展

华章出版社

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《大数据管理概论》一2.4 数据融合技术

本节书摘来自华章出版社《大数据管理概论》一书中的第2章，第2.1节，作者 孟小峰，更多章节内容可以访问云栖社区“华章计算机”公众号查看

2.4 数据融合技术

2.4.1 模式/本体对齐

2.4.2 实体链接

2.4.3 冲突解决

2.4.4 知识库自适应发展

华章出版社

热门文章

最新文章

相关课程

相关电子书

《大数据管理概论》一2.4　数据融合技术

本节书摘来自华章出版社《大数据管理概论》一书中的第2章，第2.1节，作者孟小峰，更多章节内容可以访问云栖社区“华章计算机”公众号查看

2.4　数据融合技术

2.4.1　模式/本体对齐

2.4.2　实体链接

2.4.3　冲突解决

2.4.4　知识库自适应发展