公安大数据应用研究

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

信息技术革命与经济社会活动的交融催生了大数据。2015年8月,国务院印发了《促进大数据发展行动纲要》,把大数据作为基础性资源,全面实施数据强国战略,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。与此同时,我国公安信息化建设发展迅猛,公安市场大规模的信息化和装备投资产生了海量的结构化和非结构化数据,包括轨迹信息、工作信息、多媒体信息等。据不完全统计,截至2015年底,全国公安机关掌握的数据资源已达数百类、上万亿条、EB级的大数据规模。同时,数据产生汇集的速度越来越快,数据呈阶梯式增长。目前,公安数据的年增长率超过50%,增长速度远超以往任何时期。公安数据既有传统的结构化数据,也有大量文档、图片、视频、栅格、矢量、文本等非结构化数据,数据结构、存储方式多种多样。公安数据中蕴藏着人、事、物、组织和案件等丰富的信息,充分利用这些信息,挖掘海量数据背后隐藏的关联关系,对于维护社会大局稳定、预防和打击犯罪、辅助指挥决策都具有重要的价值。

各级公安机关快速积累并不断增长的信息数据已成为继警力资源、装备资源之后的新一类核心资源。如何有效利用海量信息并挖掘内在更大的价值,成为提升公安实战应用能力、建立立体化综合防控体系面临的重大难题。政法委书记孟建柱同志指出“谁率先拥有、善于利用大数据,谁就能掌握主动、赢得未来”,郭声琨部长也强调“要大力加强大数据时代公安基层基础工作,不断提高维护公共安全和服务人民群众的能力水平”。公安信息化“十三五”规划已将云计算、大数据等新技术应用作为优化基础性技术设施、提升信息化支撑能力的重要建设内容。

二、大数据相关概念

大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数据巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息计算和服务业态。

大数据的特点可以用4个V来概括:第一,Volume,数据体量巨大,从TB级别,跃升到PB级别;第二,Variety,数据类型繁多,包括网络日志、视频、图片、地理位置信息等等;第三,Value,价值密度低,以视频为例,连续不间断监控过程中可能有用的数据仅仅有一两秒;第四,Velocity,处理速度快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后这一点也是和传统的数据挖掘技术有着本质的不同。这4个V对应了大数据领域中核心的4类技术,即大数据存储、大数据治理、大数据挖掘、大数据计算。随着近年来技术的发展,为大数据的处理提供了可能,也为公安工作思路创新提供了新机遇。

三、公安大数据平台架构

公安大数据应用是基于云计算平台构建基于全警采集、全警共享的统一的大数据平台,为实现智慧警务提供核心支撑能力。公安大数据平台架构如图1所示。

公安大数据平台分为接口数据层、数据汇聚层、数据库资源池、共享服务层、数据应用层、门户层六大层次。

接口数据层:提供公安内部数据、社会采集数据的接口引进管理。

数据汇聚层:提供社会数据、公安内部数据的采集交换、加工整合和数据治理功能。

公安大数据应用研究
图1 公安大数据应用研究

数据库资源池:建立各类数据资源整合加工的成果存储管理机制,提供临时缓冲库、数据标准化库、细节沉淀库,以及衍生数据库和资源应用库。

共享服务层:提供数据资源的统一共享和服务管理功能,包括服务接口、接口配置功能、服务资源目录、资源服务总线和服务资源监控等功能。

数据应用层:资源应用层主要包括:综合查询、搜索引擎、数据比对、布控预警、分类统计等常用功能,以及趋势分析、异常分析、相关性分析等挖掘功能。

门户层:提供单点登录、应用导航、信息发布、交流反馈等功能,并实现与外界的统一交互。

四、公安大数据建设主要内容

(一)公安大数据资源规划

当前,经过金盾工程建设与应用积累,公安已经沉淀了海量数据资源,建立了多个实战业务应用系统,以资源整合共享理念为基础,建立了资源服务平台,形成了公安八大资源库。由于业务需求和业务理解不同,各业务应用系统中存在同名数据项实际业务含义不同,同业务含义的数据项名称不同,同义数据项的数据类型、长度等格式定义存在差异等情况,造成公安信息资源共享、关联应用的困难。

制定统一的公安信息资源目录体系和公安元数据标准,搭建信息资源服务平台,从源头上规范数据采集、整合和共享服务;基于业务属性开展人员、物品、案件、地址、组织、服务标识等主题域模型的细化设计,对数据进行科学、合理、标准的规划;建立数据逻辑集中、物理分布,全景逻辑一体化应用的公安大数据体系,是公安大数据发展的基石。

公安大数据应用研究
图2 主题域划分图

(二)公安大数据汇集

依托公安云计算环境的建立,通过公安内部数据接口实现与网综平台、警综平台、PGIS平台、情报综合平台、治安防控平台、三台合一接处警系统、监所系统、出入境系统、卡口数据库、视频数据库以及其他相关警种部门业务系统的数据交换。另一方面,通过公共信息共享交换平台接入社会外部单位的业务系统数据,如民航铁路订票系统、酒店旅店住宿系统、公路客运系统、通信运营商系统、工商税务系统、民政司法系统、社交媒体系统、电商系统、教育宗教等系统的外部数据。通过数据资源共享机制为各类情报应用系统提供数据资源支持。

(三)公安大数据管理

构建端到端、可视化的数据采集汇集和整合加工体系,并基于元数据技术,实现结构化数据、非结构化数据的一体化管理,涵盖数据采集、数据加工流程调度、数据质量管控等数据处理环节。

元数据管理:通过统一的平台元数据管控,实现对平台各类数据标准、定义、关系及规则等的集中管理和统一服务,确保平台数据运行的规范化、标准化、可视化。

数据质量管理:通过标准化的规则管理和调度控制,建立各类数据稽核手段、数据质量分析体系,确保平台数据一致性、完整性、合规性。

提供端到端的加工流程管控体系,采用体系化、标准、可重复的监管机制和执行流程,保证数据加工的统一及数据流程的透明性,保障数据质量及数据可用性,实现管理数据从采集、加工、存储、应用、归档到最终删除等一系列处理环节中的可视化、配置化、易调控,完成端到端的数据透明管控。

利用业务流程驱动机制,使各个数据处理节点的控制要素有机实现链式触发,提升平台数据管控的运营能力和效率,实现平台与内部系统及外部环境的信息数据共享。

(四)公安大数据服务

公安大数据平台对外发挥价值的核心是提供种类丰富、类型多样的服务接口和服务能力。从服务类型来看,可分为通用类服务、研判类服务和智能类服务。

通用类服务:在大数据平台提供的数据资源基础上,结合分布式计算、可视化分析和展现等技术,可实现综合查询、搜索引擎、数据比对、布控预警、分类统计等常用功能,以及趋势分析、异常分析、相关性分析等挖掘功能。

研判类服务:基于大数据分析挖掘,实现各类战法集市、积分预警模型、全要素分析工具、社交网络分析、隐性重点人挖掘、治安态势分析等综合情报研判功能。

智能类服务:综合情报研判功能,实现案件多维分析、人流激增预警、犯罪预测模型、人员智能画像、涉恐系数分析、人员亲密度模型分析等功能。

五、公安大数据关键技术

(一)公安资源融合技术

采用分布式大数据协同技术,实现“物理分布、逻辑统一”的数据管理,解决数据资源分布在多个地理分布的数据中心开展数据资源综合应用的问题;通过批处理和流处理引擎,实现对离线批处理的复杂处理和对流式数据的高速处理,为警务分析提供实时/准实时的快速处理能力;通过存储技术、分布式文件系统技术实现对复杂多结构数据的管理与分析,支持传统的Schema数据、Schema-free数据和视频/音频/图像数据的分析与管理。

(二)数据治理技术

数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到机构全业务范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。

公安大数据平台建设引入数据治理的核心思想和技术,从制度、标准、监控、流程几个方面提升数据信息管理能力,解决数据标准问题、数据质量问题、元数据管理问题和数据服务问题。

(三)数据挖掘技术

数据挖掘是从数据中自动地抽取出模式、关联、变化、异常和有意义的结构。根据数据挖掘的任务可分为多种类型,比较典型的有关联分析、分类分析、聚类分析、序列分析等。

关联分析:是在关系数据中,发现存在于项目集或对象集之间的关联规则,包括关联、相关性、因果结构或频繁出现的模式。常用的关联分析算法有Apriori算法及它的各种改进或扩展算法。

分类分析:分类是实现定义好类别,属于有指导学习范畴。分类分析是根据数据的特征为每个类建立一个模型,根据数据的属性将数据分配到不同的组中。常用分类算法有决策树、神经网络、贝叶斯分类等。

聚类分析:是按照某种相近程度度量方法将数据分成互不相同的一些分组,实现每一聚类内部的相似性很高、各聚类之间的相似性很低。常用的聚类算法有K均值、最近邻、神经网络等。

预测模型分析:是从数据库或数据仓库中已知的数据推测位置的数据或对象集中某些属性的值分布。建立预测模型的常用方法包括回归分析、线型模型、支持矢量集、决策树预测、遗传算法、随机森林算法等。

文本挖掘:文本是无结构或半结构化的数据,文本挖掘是从文本数据中推导出模式,其过程是通过文本分析、特征提取、模式分析的过程来实现。主要技术包括文本结构分析、文本特征提取、文本检索、文本自动分类/聚类、文档自动摘要、话题检测与追踪、文本过滤、文本情感分析等。

(四)可视化分析技术

可视化分析主要应用于海量数据关联分析,由于所涉及的信息比较分散、数据结构不统一,分析过程存在非结构性和不确定性,不易形成固定的分析流程或模式,很难将数据调入应用系统中进行分析挖掘。借助可视化数据分析平台,辅助人工操作将数据进行关联分析,并做出完整的分析图表。图表中包含所有事件的相关信息,也完整展示数据分析的过程和数据链走向。

六、公安大数据应用

——以涉恐等为例

(一)涉恐系数

涉恐系数应用以部级信息资源服务平台汇集的数百亿条数据作为数据基础,应用机器学习等大数据技术,提炼反恐业务特征数据项,学习已掌握的涉恐人员数据,提出人员刻画六维模型,即从身份特质、行为偏好、关系网络、不良记录、时空轨迹、经济状况六个维度描述和刻画一个人。每一个维度上又包含了大量具体的特征。在此基础上,构建形成涉恐人员标签体系和涉恐系数综合计算模型,通过大数据分析处理实现对千万级目标群体的涉恐概率计算。

某市公安局根据涉恐系数计算结果,对23人进行落地核查和跟进管控,核查出涉恐人员7人,取得了较好的预警效果。

公安大数据应用研究

(二)犯罪预测

犯罪预测应用利用大数据技术,自动抽取警综平台内案事件、人口、地理、天气、房价等数据进行智能建模分析,预测当天辖区案件的高发区域及发案概率,把需要重点防控的区域以简明扼要的图形界面直观地凸显出来,科学引导一线巡防。

犯罪预测应用使用的数据集包括了警务综合平台的接处警、案事件、人口等39类公安业务数据,以及地理、天气、房价等11类社会时空地理信息,共约8亿条数据。与传统数据分析采用抽样数据不同,大数据预测是用全量数据。通过机器学习,发现各类因子与警情的相关性,形成预测模型,不断用数据检验预测结果,修正完善形成最佳的预测模型。

某市公安局下辖各派出所采用犯罪预测系统三个月后,统计入室盗窃类违法犯罪警情由2814起下降至2520起,同比下降10.5%。

公安大数据应用研究
图4 犯罪预测应用截图

(三)警务监督管理

警务监督管理应用利用大数据技术,构建预防腐败工作“1+3+X”大数据技战法模型,通过抽取有关业务系统高风险项目监测点数据,对业务工作、队伍管理等信息开展关联碰撞、分析研判、预警提示,重点解决传统监督手段进不了系统、系统之间信息关联不够、违纪违法苗头难以及时发现等问题,达到预防腐败工作抓早抓小、防患未然的目的。

某市公安局纪委针对近年来查办的民警利用职务之便,违规将户口迁入拆迁地区以非法获利的案件,围绕人口系统“办理常驻户口登记”权力运行中容易发生问题的风险点,关联派出所综合信息系统、警力资源信息系统、执纪办案信息系统、投诉举报信息系统的信息资源,对2013年以来某派出所办理户口数据进行分析,发现了18名民警将本人户籍由原来的城镇居民户口(楼房),迁入农村重点拆迁地区的异常情况。

公安大数据应用研究

七、结论

随着公安信息化建设与应用的不断深化,公安机关掌握的数据资源的广度和深度正在快速扩大,各警种业务对大数据的依赖性越来越强,对大数据定制服务、模型研发的需求越来越多,要求越来越高。实施公安大数据战略可以顺应信息化条件下公安实战需求,加强对公安内外部数据资源的汇聚、清洗、管理、挖掘分析等工作,为各警种提供更高质量、更有针对性的大数据定制服务,为公安中心工作提供更有力的支持和保障。本文主要对此进行了分析和描述,介绍了大数据的概念、平台架构和重点内容,为公安大数据应用提供借鉴。


本文作者:佚名

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
218 1
|
1月前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
2月前
|
机器学习/深度学习 存储 大数据
云计算与大数据技术的融合应用
云计算与大数据技术的融合应用
|
3月前
|
存储 分布式计算 druid
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
84 1
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
ly~
|
3月前
|
供应链 搜索推荐 安全
大数据模型的应用
大数据模型在多个领域均有广泛应用。在金融领域,它可用于风险评估与预测、智能营销及反欺诈检测,助力金融机构做出更加精准的决策;在医疗领域,大数据模型能够协助疾病诊断与预测、优化医疗资源管理和加速药物研发;在交通领域,该技术有助于交通流量预测、智能交通管理和物流管理,从而提升整体交通效率;电商领域则借助大数据模型实现商品推荐、库存管理和价格优化,增强用户体验与企业效益;此外,在能源和制造业中,大数据模型的应用范围涵盖从需求预测到设备故障预测等多个方面,全面推动了行业的智能化转型与升级。
ly~
288 2
ly~
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
大数据在智慧金融中的应用
在智能算法交易中,深度学习揭示价格波动的复杂动力学,强化学习依据市场反馈优化策略,助力投资者获取阿尔法收益。智能监管合规利用自然语言处理精准解读法规,实时追踪监管变化,确保机构紧跟政策。大数据分析监控交易,预警潜在违规行为,变被动防御为主动预防。数智化营销通过多维度数据分析,构建细致客户画像,提供个性化产品推荐。智慧客服借助 AI 技术提升服务质量,增强客户满意度。
ly~
176 3
ly~
|
3月前
|
供应链 搜索推荐 大数据
大数据在零售业中的应用
在零售业中,大数据通过分析顾客的购买记录、在线浏览习惯等数据,帮助零售商理解顾客行为并提供个性化服务。例如,分析网站点击路径以了解顾客兴趣,并利用历史购买数据开发智能推荐系统,提升销售和顾客满意度。此外,大数据还能优化库存管理,通过分析销售数据和市场需求,更准确地预测需求,减少库存积压和缺货现象,提高资金流动性。
ly~
584 2
ly~
|
3月前
|
供应链 监控 搜索推荐
大数据的应用场景
大数据在众多行业中的应用场景广泛,涵盖金融、零售、医疗保健、交通物流、制造、能源、政府公共服务及教育等领域。在金融行业,大数据用于风险评估、精准营销、反欺诈以及决策支持;零售业则应用于商品推荐、供应链管理和门店运营优化等;医疗保健领域利用大数据进行疾病预测、辅助诊断和医疗质量评估;交通物流业通过大数据优化物流配送、交通管理和运输安全;制造业则在生产过程优化、设备维护和供应链协同方面受益;能源行业运用大数据提升智能电网管理和能源勘探效率;政府和公共服务部门借助大数据改善城市管理、政务服务及公共安全;教育行业通过大数据实现个性化学习和资源优化配置;体育娱乐业则利用大数据提升赛事分析和娱乐制作水平。
ly~
891 2
|
4月前
|
存储 数据可视化 大数据
大数据管理与应用
大数据管理与应用是一门融合数学、统计学和计算机科学的新兴专业,涵盖数据采集、存储、处理、分析及应用,旨在帮助企业高效决策和提升竞争力。核心课程包括数据库原理、数据挖掘、大数据分析技术等,覆盖数据处理全流程。毕业生可从事数据分析、大数据开发、数据管理等岗位,广泛应用于企业、金融及互联网领域。随着数字化转型加速,该专业需求旺盛,前景广阔。
211 5
|
4月前
|
人工智能 分布式计算 大数据
超级计算与大数据:推动科学研究的发展
【9月更文挑战第30天】在信息时代,超级计算和大数据技术正成为推动科学研究的关键力量。超级计算凭借强大的计算能力,在尖端科研、国防军工等领域发挥重要作用;大数据技术则提供高效的数据处理工具,促进跨学科合作与创新。两者融合不仅提升了数据处理效率,还推动了人工智能、生物科学等领域的快速发展。未来,随着技术进步和跨学科合作的加深,超级计算与大数据将在科学研究中扮演更加重要的角色。