如何利用知识图谱进行破案

简介: 知识图谱是典型的多学科交叉领域,涉及到图数据库,知识工程,机器学习,大数据等多个领域,同时又可以在多个业务场景中进行应用,比如基于知识图谱+大数据可以对警方破案提供帮助。我们可以使用阿里云的GDB图数据库产品,帮我们快速搭建知识图谱的应用。

利用知识图谱进行破案的业务逻辑

利用知识图谱进行破案需要有强大的反欺诈识别能力,需要将人工业务逻辑和大数据引擎结合起来。
通常数据源会来自不同的维度,对于操作的人员,比如警方来说,需要允许他们通过多种方式快速浏览,查找和分析自己想要的信息。此外,在产品设计中还需要对考虑到各种高度敏感的安全问题。

基于知识图谱技术,大数据平台需要集成数据集成、搜索、知识管理、协作、发现这五大板块。下面,我来一一给你讲解下:

数据集成:可以从不同的数据源中获取数据,并且可以基于语义网(Ontology)来创建实体

搜索:需要为分析师提供了多种搜索机制,使他们能够找到匹配的数据,并且挖掘出数据间的关系,从而发挥数据的价值。
最常用是快速搜索(Quick Search),这一切的基础是需要一个很好的本体。此外,基于知识图谱,我们还可以生成复杂的搜索查询(布尔逻辑,变音位,模糊值),甚至是环形检索(Search Around)

知识管理:所有数据都可以根据其授权级别赋权给其他用户。
协作:允许分析师在私人调查中开始调查,也可以将调查结果共享给其他用户。同样,分析师可以选择接受其他用户的更新,以便进一步开展工作。
发现:反欺诈是许多企业面临的共性需求,这里可以通过寻找趋势的算法来进行聚类预测

以上的五大模块是同性的,但是用户的需求往往是个性化的,包括案件的内容以及破案的逻辑,因此需要人类智慧和大数据产品的结合。我们可以用下面的流程图代表大数据运作的基本原理。
Step1,首先需要有数据,这里就需要有数据采集、清洗、集成。
Step2,然后是建模,建模是高度依赖于任务的,因此也是依赖于人的经验总结,比如犯罪分子可能存在的行为特征。
Step3,最后指导任务的完成,这个过程,当我们把各种数据集成,建立各种模型后,就可以自动化的执行任务。
当然我们知道,需求非常多样化,因此也需要多样化的任务处理模型,来处理不同的任务。而且任务和任务之间往往是有关联的。所以基于知识图谱来完成破案,是个非常庞大复杂的系统,但是基本原理也离不开下面的流程图

2.png

如何使用知识图谱进行破案的?

知识图谱技术可以让我们从完成从数据端到智慧端的过程,具体实现途径如下图所示。
在数据端,一般数据量巨大,我们采用分布式数据采集系统,可以支持文档、网页、视频、传感器等采集的数据,先进行清洗存储,输出为基础数据。
在信息端,我们对数据进行语义处理,比如特征提取、事件识别、文本挖掘等,然后通过实体识别、角色识别、关系识别输出语义结构化数据。
在知识端,我们对知识进行建模,需要对本体进行建模、映射、存储,构建知识体系,输出知识库。
在智慧端,我们需要业务规则,包括进行图分析等计算,最后转化为人机可视化的交互方式方便用户进行可视化关联分析、问答、语义搜索等。

我们以安然破产的数据分析案例为例。首先面临的问题是:安然公司破产,指控其CEO(David Delaney)与Mariner公司发生内幕交易,缺乏证据。但是基于知识图谱,我们可以挖掘出更多有价值的信息:
1.png

在数据层:司法将安然内部的30万封邮件进行了公开
在信息层:我们需要对文本进行分类,实体抽取,事件抽取,并对文本中的角色、关系进行识别。发现邮件中指导的人员都是在哪个公司担任什么样的角色。并且对邮件中提到的内容及事件进行识别。
在知识层:可以发现有近千条提及Mariner公司的邮件中,David发出的3封邮件对其公允价值进行计算。并通过进一步的关联挖掘,得到相应的知识:
1)David对Mariner公司的公允价值计算虚假高估
2)邮件发出的时间 vs. David出售Mariner公司股票时间同轴匹配
3)全部邮件中的人名抽取,关联分析David关联人员
在智慧层:综合以上的知识,可以得出:
1)David 发出虚估Mariner公司公允价值的邮件时间节点与其出售该公司股票的时间吻合
2)David邮件关联人员中,有多人在Mariner公司重要部门担任要职

知识图谱是个非常有用的技术,它可以将数据转化为信息,进一步处理加工为知识,最后通过更高级别的综合和预测能力转化为智慧,对知识进行具体的应用。在技术使用中,我们可以使用阿里云的图数据库GDB,帮我们搭建知识图谱的应用,它可以把知识抽取和清洗出来,然后存入GDB中提供查询。这样当用户进行查询时,就可以直接把答案告诉用户。比如人物之间的关系是怎样的。此外,在GDB产品中,还可以结合多种数据分析方法,比如label propagation algorithms(LPA) 、LabelRank等社区发现算法,可以帮我们识别欺诈行为,这些都已经广泛应用到信用卡欺诈,电子商务欺诈,保险欺诈等场景中。

相关实践学习
阿里云图数据库GDB入门与应用
图数据库(Graph Database,简称GDB)是一种支持Property Graph图模型、用于处理高度连接数据查询与存储的实时、可靠的在线数据库服务。它支持Apache TinkerPop Gremlin查询语言,可以帮您快速构建基于高度连接的数据集的应用程序。GDB非常适合社交网络、欺诈检测、推荐引擎、实时图谱、网络/IT运营这类高度互连数据集的场景。 GDB由阿里云自主研发,具备如下优势: 标准图查询语言:支持属性图,高度兼容Gremlin图查询语言。 高度优化的自研引擎:高度优化的自研图计算层和存储层,云盘多副本保障数据超高可靠,支持ACID事务。 服务高可用:支持高可用实例,节点故障迅速转移,保障业务连续性。 易运维:提供备份恢复、自动升级、监控告警、故障切换等丰富的运维功能,大幅降低运维成本。 产品主页:https://www.aliyun.com/product/gdb
目录
相关文章
|
存储 自然语言处理 搜索推荐
Machine Learning机器学习之文本分析的知识图谱(详细讲解)
Machine Learning机器学习之文本分析的知识图谱(详细讲解)
|
存储 NoSQL Linux
VLDB顶会论文Async-fork解读与Redis在得物的实践(1)
VLDB顶会论文Async-fork解读与Redis在得物的实践
381 0
|
12月前
|
机器学习/深度学习 人工智能 数据可视化
AI开源框架:让分布式系统调试不再"黑盒"
Ray是一个开源分布式计算框架,专为支持可扩展的人工智能(AI)和Python应用程序而设计。它通过提供简单直观的API简化分布式计算,使得开发者能够高效编写并行和分布式应用程序 。Ray广泛应用于深度学习训练、大规模推理服务、强化学习以及AI数据处理等场景,并构建了丰富而成熟的技术生态。
1826 102
AI开源框架:让分布式系统调试不再"黑盒"
|
7月前
|
前端开发 安全 测试技术
Postman Mac 版安装终极指南:从下载到流畅运行,一步到位
Postman 是 API 开发与测试的高效工具,支持各类 HTTP 请求调试与团队协作。本文详解 Mac 版下载、安装步骤,助你快速上手。同时推荐一体化 API 协作平台 Apifox,集文档、调试、测试于一体,提升开发效率与团队协同能力。
|
5月前
|
人工智能 安全 API
FastMCP 入门:用 Python 快速搭建 MCP 服务器接入 LLM
MCP协议为大语言模型连接外部工具与数据提供标准化方案,FastMCP是其Python最佳实践框架。本文详解MCP核心概念,演示如何用FastMCP快速搭建支持工具调用、资源访问与身份认证的MCP服务器,并集成至LLM应用,实现AI智能体与真实世界的高效交互。
2032 2
FastMCP 入门:用 Python 快速搭建 MCP 服务器接入 LLM
|
存储 弹性计算 运维
2024阿里云服务器经济型e实例规格云服务器性能介绍
2024阿里云服务器经济型e实例规格云服务器性能介绍,阿里云服务器ECS推出经济型e系列,经济型e实例是阿里云面向个人开发者、学生、小微企业,在中小型网站建设、开发测试、轻量级应用等场景推出的全新入门级云服务器,CPU采用Intel Xeon Platinum架构处理器
|
人工智能 监控 开发者
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
324 0
|
Kubernetes 开发工具 Docker
使用 Docker Desktop进行 BPF 开发
Docker Desktop 是 Windows 和 Mac 上最为流行 Docker 开发环境。是否有办法在Docker Desktop中,利用容器来使用eBPF呢?
2837 103
使用 Docker Desktop进行 BPF 开发
|
存储 IDE Java
程序员基本功,为什么你一定要懂16进制?
其实计算机需要的只是二进制,需要十六进制的是我们人
3321 1
程序员基本功,为什么你一定要懂16进制?
|
JavaScript 前端开发 Go
8 大博客引擎 jekyll/hugo/Hexo/Pelican/Gatsby/VuePress/Nuxt.js/Middleman 对比
探索各类博客引擎:Jekyll、Hugo、Hexo、Pelican、Gatsby、VuePress、Nuxt.js和Middleman的对比,包括语言、模板引擎、速度、社区活跃度等。了解每种引擎的优缺点,助你选择合适的博客构建工具。查看详细文章以获取更多实战和安装指南。

热门文章

最新文章