题外话
之前没有了解过知识图谱,同样也是第一次参加研讨会。
总体而言,研讨会能够快速,高效地了解到学术界目前的研究方向。
Background
知识图谱,简而言之,就是以三元组代表(HeadEntity, Relationship, TailEntity)头实体,尾实体以及它们之间的关系。
知识图谱(Mapping Knowledge Domain)也被称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
具体来说,知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。
其他代表知识库:
- WordNet
- Freebase
目前研究方向
分布式表示学习(distributed representation, embeddings)
主要研究思路: 将知识图谱嵌入到低维向量空间
- 实体和关系都表示为低维向量
- 有效表示和度量实体、关系间的语义关联
知识表示代表模型:
对每个事实(head, relation, tail),将relation看做从head到tail的翻译操作。
训练的优化目标为: h + r = t
此外还有Neural Tensor Network(NTN)以及Energy Model。
表示学习在处理一对多、多对一、多对多的关系时,不能较好的处理。当出现多个结果时,每个结果的权重相当。
在TransE的基础上考虑关系对实体的影响。
有以下两个典型的算法:
- TransH
- TransR
Path Ranking
关系路径的表示学习: Recursive Neural Network(RNN)
考虑了关系路径的TransE算法为PTransE:
relation之间的组合语义,通常包括 ADD, MULTIPLY, RNN
通常关系之间的每个组合,需要单独训练一个目标函数。
在大规模复杂的知识图谱中,目标函数也会呈现指数级增长。
Probabilistic Graphical Models
这个算法,由于落地难的问题,大家都没有讲=.=
王志春-讲解了规则学习的几个方法:
- 归纳逻辑程序设计 ILP
- 类似数据挖掘中的关联规则
- 关系路径
- 分布式表示
韩先培-介绍了相关无监督语义关系抽取:
- bootstrapping
- distant supervision
- Open IE(Stanford OpenIE)
写在最后
刘知远讲解的TransE非常的Solid,而且开源了算法实现https://github.com/thunlp/KG2E
王泉研究员,我只能献上我的膝盖了,语速很快,思路无敌清晰。简简单单的一个slide就能把当前知识图谱的研究方向洋洋洒洒的讲出来。
最后附上 刘知远的 ppt 大规模知识图谱的表示学习