如何利用知识图谱进行破案

简介: 知识图谱是典型的多学科交叉领域,涉及到图数据库,知识工程,机器学习,大数据等多个领域,同时又可以在多个业务场景中进行应用,比如基于知识图谱+大数据可以对警方破案提供帮助。我们可以使用阿里云的GDB图数据库产品,帮我们快速搭建知识图谱的应用。

利用知识图谱进行破案的业务逻辑

利用知识图谱进行破案需要有强大的反欺诈识别能力,需要将人工业务逻辑和大数据引擎结合起来。
通常数据源会来自不同的维度,对于操作的人员,比如警方来说,需要允许他们通过多种方式快速浏览,查找和分析自己想要的信息。此外,在产品设计中还需要对考虑到各种高度敏感的安全问题。

基于知识图谱技术,大数据平台需要集成数据集成、搜索、知识管理、协作、发现这五大板块。下面,我来一一给你讲解下:

数据集成:可以从不同的数据源中获取数据,并且可以基于语义网(Ontology)来创建实体

搜索:需要为分析师提供了多种搜索机制,使他们能够找到匹配的数据,并且挖掘出数据间的关系,从而发挥数据的价值。
最常用是快速搜索(Quick Search),这一切的基础是需要一个很好的本体。此外,基于知识图谱,我们还可以生成复杂的搜索查询(布尔逻辑,变音位,模糊值),甚至是环形检索(Search Around)

知识管理:所有数据都可以根据其授权级别赋权给其他用户。
协作:允许分析师在私人调查中开始调查,也可以将调查结果共享给其他用户。同样,分析师可以选择接受其他用户的更新,以便进一步开展工作。
发现:反欺诈是许多企业面临的共性需求,这里可以通过寻找趋势的算法来进行聚类预测

以上的五大模块是同性的,但是用户的需求往往是个性化的,包括案件的内容以及破案的逻辑,因此需要人类智慧和大数据产品的结合。我们可以用下面的流程图代表大数据运作的基本原理。
Step1,首先需要有数据,这里就需要有数据采集、清洗、集成。
Step2,然后是建模,建模是高度依赖于任务的,因此也是依赖于人的经验总结,比如犯罪分子可能存在的行为特征。
Step3,最后指导任务的完成,这个过程,当我们把各种数据集成,建立各种模型后,就可以自动化的执行任务。
当然我们知道,需求非常多样化,因此也需要多样化的任务处理模型,来处理不同的任务。而且任务和任务之间往往是有关联的。所以基于知识图谱来完成破案,是个非常庞大复杂的系统,但是基本原理也离不开下面的流程图

2.png

如何使用知识图谱进行破案的?

知识图谱技术可以让我们从完成从数据端到智慧端的过程,具体实现途径如下图所示。
在数据端,一般数据量巨大,我们采用分布式数据采集系统,可以支持文档、网页、视频、传感器等采集的数据,先进行清洗存储,输出为基础数据。
在信息端,我们对数据进行语义处理,比如特征提取、事件识别、文本挖掘等,然后通过实体识别、角色识别、关系识别输出语义结构化数据。
在知识端,我们对知识进行建模,需要对本体进行建模、映射、存储,构建知识体系,输出知识库。
在智慧端,我们需要业务规则,包括进行图分析等计算,最后转化为人机可视化的交互方式方便用户进行可视化关联分析、问答、语义搜索等。

我们以安然破产的数据分析案例为例。首先面临的问题是:安然公司破产,指控其CEO(David Delaney)与Mariner公司发生内幕交易,缺乏证据。但是基于知识图谱,我们可以挖掘出更多有价值的信息:
1.png

在数据层:司法将安然内部的30万封邮件进行了公开
在信息层:我们需要对文本进行分类,实体抽取,事件抽取,并对文本中的角色、关系进行识别。发现邮件中指导的人员都是在哪个公司担任什么样的角色。并且对邮件中提到的内容及事件进行识别。
在知识层:可以发现有近千条提及Mariner公司的邮件中,David发出的3封邮件对其公允价值进行计算。并通过进一步的关联挖掘,得到相应的知识:
1)David对Mariner公司的公允价值计算虚假高估
2)邮件发出的时间 vs. David出售Mariner公司股票时间同轴匹配
3)全部邮件中的人名抽取,关联分析David关联人员
在智慧层:综合以上的知识,可以得出:
1)David 发出虚估Mariner公司公允价值的邮件时间节点与其出售该公司股票的时间吻合
2)David邮件关联人员中,有多人在Mariner公司重要部门担任要职

知识图谱是个非常有用的技术,它可以将数据转化为信息,进一步处理加工为知识,最后通过更高级别的综合和预测能力转化为智慧,对知识进行具体的应用。在技术使用中,我们可以使用阿里云的图数据库GDB,帮我们搭建知识图谱的应用,它可以把知识抽取和清洗出来,然后存入GDB中提供查询。这样当用户进行查询时,就可以直接把答案告诉用户。比如人物之间的关系是怎样的。此外,在GDB产品中,还可以结合多种数据分析方法,比如label propagation algorithms(LPA) 、LabelRank等社区发现算法,可以帮我们识别欺诈行为,这些都已经广泛应用到信用卡欺诈,电子商务欺诈,保险欺诈等场景中。

相关实践学习
阿里云图数据库GDB入门与应用
图数据库(Graph Database,简称GDB)是一种支持Property Graph图模型、用于处理高度连接数据查询与存储的实时、可靠的在线数据库服务。它支持Apache TinkerPop Gremlin查询语言,可以帮您快速构建基于高度连接的数据集的应用程序。GDB非常适合社交网络、欺诈检测、推荐引擎、实时图谱、网络/IT运营这类高度互连数据集的场景。 GDB由阿里云自主研发,具备如下优势: 标准图查询语言:支持属性图,高度兼容Gremlin图查询语言。 高度优化的自研引擎:高度优化的自研图计算层和存储层,云盘多副本保障数据超高可靠,支持ACID事务。 服务高可用:支持高可用实例,节点故障迅速转移,保障业务连续性。 易运维:提供备份恢复、自动升级、监控告警、故障切换等丰富的运维功能,大幅降低运维成本。 产品主页:https://www.aliyun.com/product/gdb
目录
相关文章
|
存储 自然语言处理 搜索推荐
Machine Learning机器学习之文本分析的知识图谱(详细讲解)
Machine Learning机器学习之文本分析的知识图谱(详细讲解)
|
存储 NoSQL Linux
VLDB顶会论文Async-fork解读与Redis在得物的实践(1)
VLDB顶会论文Async-fork解读与Redis在得物的实践
329 0
|
3月前
|
前端开发 安全 测试技术
Postman Mac 版安装终极指南:从下载到流畅运行,一步到位
Postman 是 API 开发与测试的高效工具,支持各类 HTTP 请求调试与团队协作。本文详解 Mac 版下载、安装步骤,助你快速上手。同时推荐一体化 API 协作平台 Apifox,集文档、调试、测试于一体,提升开发效率与团队协同能力。
|
8月前
|
机器学习/深度学习 人工智能 数据可视化
AI开源框架:让分布式系统调试不再"黑盒"
Ray是一个开源分布式计算框架,专为支持可扩展的人工智能(AI)和Python应用程序而设计。它通过提供简单直观的API简化分布式计算,使得开发者能够高效编写并行和分布式应用程序 。Ray广泛应用于深度学习训练、大规模推理服务、强化学习以及AI数据处理等场景,并构建了丰富而成熟的技术生态。
1507 102
AI开源框架:让分布式系统调试不再"黑盒"
|
1月前
|
人工智能 安全 API
FastMCP 入门:用 Python 快速搭建 MCP 服务器接入 LLM
MCP协议为大语言模型连接外部工具与数据提供标准化方案,FastMCP是其Python最佳实践框架。本文详解MCP核心概念,演示如何用FastMCP快速搭建支持工具调用、资源访问与身份认证的MCP服务器,并集成至LLM应用,实现AI智能体与真实世界的高效交互。
752 2
FastMCP 入门:用 Python 快速搭建 MCP 服务器接入 LLM
|
7月前
|
人工智能 自然语言处理 前端开发
Trae插件Builder模式深度测评:从编程助手到AI工程师的进化
Trae插件最新推出的Builder模式标志着AI辅助编程工具从简单的代码补全向“AI工程师”角色的转变。该模式允许开发者通过自然语言描述项目需求,自动生成完整的项目结构、代码文件和开发流程,支持VSCode、JetBrains IDE及在线Web版本。Builder模式的核心功能包括自然语言项目初始化、智能项目架构设计和多文件协调代码生成,显著提升了开发效率,降低了技术门槛。然而,它在处理复杂业务逻辑和高度定制化需求方面仍有局限。未来,Builder模式将集成云部署、测试套件生成和DevOps流水线等功能
1674 2
|
4月前
|
运维 Dubbo Cloud Native
Dubbo 云原生重构出击:更快部署、更强控制台、更智能运维
Apache Dubbo 最新升级支持云原生,提供一键部署微服务集群与全新可视化控制台,提升全生命周期管理体验,助力企业高效构建云原生应用。
377 25
|
5月前
|
NoSQL JavaScript Java
基于 RuoYi-Vue-Pro 定制了一个后台管理系统 , 开源出来!
从职业生涯伊始,我一直是微服务架构的坚定拥趸,这很大程度上源于长期深耕互联网行业,习惯了高并发、分布式架构下的开发模式。 然而,去年在优化某航空公司核心用户中心系统时,我的技术认知受到了不小的冲击。 因为航空公司用户中心是一个典型的单体应用——尽管业务量不小,但稳定的业务模型和有限的扩展需求,使得单体架构反而比微服务更高效、更经济。
基于 RuoYi-Vue-Pro 定制了一个后台管理系统 , 开源出来!
|
数据可视化 NoSQL 数据库
Neo4j和Nebula的相同点、不同点、如何进行选择
【8月更文挑战第14天】Neo4j和Nebula的相同点、不同点、如何进行选择
1964 1
|
12月前
|
JSON 前端开发 Java
【SpringMVC】基础入门实战(3)
SpringMVC获取Header,返回静态页面,返回数据(Controller),返回数据@ResponseBody,返回HTML代码片段,返回JSON,设置状态码,设置Header