《Apache Flink 案例集(2022版)》——3.机器学习——众安保险-Flink 在 众安保险金融业务的应用(4)

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 《Apache Flink 案例集(2022版)》——3.机器学习——众安保险-Flink 在 众安保险金融业务的应用(4)

《Apache Flink 案例集(2022版)》——3.机器学习——众安保险-Flink  在 众安保险金融业务的应用(3) https://developer.aliyun.com/article/1228198



3. 反欺诈

image.png


上图是实时反欺诈特征应用的数据流图,它和金融实时特征服务的数据流图有些类似的一面,但也存在一些差异。这里的数据源除了会使用业务数据外,更关注的是用户行为数据和用户设备的数据。当然这些设备数据和行为数据都是在用户许可的前提下进行采集。  


这些数据经过 Kafka之后,也会进入 Flink 进行处理。反欺诈的数据主要是用一个图数据库来存储用户关系数据,对于需要历史数据的复杂特征计算,我们会在 Flink 里面用 bitmap 作为状态存储,结合 timerService 进行数据清理,使用 Redis 进行特征计算结果存储。  


GPS 的反欺诈特征是使用 TableStore 的多元索引和 lbs 函数的能力来进行位置识别的特征计算。反欺诈的关系图谱和关系社群会通过数据可视化的能力来提供给反欺诈人员进行个案调查。


image.png


我们把反欺诈特征归为 4 大类:  


第一类是位置识别类型,主要是基于用户的位置信息,加上 GeoHash 的算法,实现位置集聚特征的数据计算。举个例子,我们通过位置集聚特征,发现了一些可疑用户,然后再通过反欺诈调查查看这些用户的人脸识别的照片,发现了他们的背景很相似,都是在同一家公司进行业务申请。所有我们就可以结合位置类的特征,加上图像识别的 AI 能力来更精准地定位类似的欺诈行为;


第二类是设备关联类,主要是通过关系图谱来实现。通过获取同一个设备的关联用户的情况,可以比较快速地定位到一些羊毛党和简单的欺诈行为;


第三类是图谱关系,比如用户的登录、注册、自用、授信等场景,我们会实时抓取用户在这些场景的一些设备指纹、手机号、联系人等信息,来构造关系图谱的邻边关系。然后通过这样的邻边关系和用户关联的节点度数判断是否关联到一些黑灰名单用户来进行风险的识别;


第四类是基于社群发现算法实现的统计类的社群特征,通过判断社群的大小、社群里面这用户行为的表现,来提炼统计类的规则特征。


未来规划

未来众安保险首先会夯实时计算平台,实现实时数据的血缘关系的管理,并尝试 Flink + K8s 的方式实现资源的动态扩缩容。  


其次,众安保险希望能够基于 Flink + NubelaGraph 进行图谱平台化的建设,目前实时计算和离线计算是 Lambda 架构实现的,未来计划通过 Flink + Hologres 实现流批一体来尝试解决这个问题。  


最后,众安保险会尝试在风控的反欺诈业务场景使用 Flink ML 来实现在线机器学习,提升模型开发效率,快速的实现模型的迭代,赋能智能实时风控。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
2月前
|
存储 人工智能 大数据
The Past, Present and Future of Apache Flink
本文整理自阿里云开源大数据负责人王峰(莫问)在 Flink Forward Asia 2024 上海站主论坛开场的分享,今年正值 Flink 开源项目诞生的第 10 周年,借此时机,王峰回顾了 Flink 在过去 10 年的发展历程以及 Flink社区当前最新的技术成果,最后展望下一个十年 Flink 路向何方。
378 33
The Past, Present and Future of Apache Flink
|
4月前
|
SQL Java API
Apache Flink 2.0-preview released
Apache Flink 社区正积极筹备 Flink 2.0 的发布,这是自 Flink 1.0 发布以来的首个重大更新。Flink 2.0 将引入多项激动人心的功能和改进,包括存算分离状态管理、物化表、批作业自适应执行等,同时也包含了一些不兼容的变更。目前提供的预览版旨在让用户提前尝试新功能并收集反馈,但不建议在生产环境中使用。
997 13
Apache Flink 2.0-preview released
|
4月前
|
存储 缓存 算法
分布式锁服务深度解析:以Apache Flink的Checkpointing机制为例
【10月更文挑战第7天】在分布式系统中,多个进程或节点可能需要同时访问和操作共享资源。为了确保数据的一致性和系统的稳定性,我们需要一种机制来协调这些进程或节点的访问,避免并发冲突和竞态条件。分布式锁服务正是为此而生的一种解决方案。它通过在网络环境中实现锁机制,确保同一时间只有一个进程或节点能够访问和操作共享资源。
164 3
|
4月前
|
分布式计算 监控 大数据
大数据-131 - Flink CEP 案例:检测交易活跃用户、超时未交付
大数据-131 - Flink CEP 案例:检测交易活跃用户、超时未交付
112 0
|
4月前
|
消息中间件 关系型数据库 MySQL
大数据-117 - Flink DataStream Sink 案例:写出到MySQL、写出到Kafka
大数据-117 - Flink DataStream Sink 案例:写出到MySQL、写出到Kafka
332 0
|
2月前
|
消息中间件 JSON 数据库
探索Flink动态CEP:杭州银行的实战案例
本文由杭州银行大数据工程师唐占峰、欧阳武林撰写,介绍Flink动态CEP的定义、应用场景、技术实现及使用方式。Flink动态CEP是基于Flink的复杂事件处理库,支持在不重启服务的情况下动态更新规则,适应快速变化的业务需求。文章详细阐述了其在反洗钱、反欺诈和实时营销等金融领域的应用,并展示了某金融机构的实际应用案例。通过动态CEP,用户可以实时调整规则,提高系统的灵活性和响应速度,降低维护成本。文中还提供了具体的代码示例和技术细节,帮助读者理解和使用Flink动态CEP。
472 2
探索Flink动态CEP:杭州银行的实战案例
|
2月前
|
机器学习/深度学习 传感器 运维
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
本文探讨了时间序列分析中数据缺失的问题,并通过实际案例展示了如何利用机器学习技术进行缺失值补充。文章构建了一个模拟的能源生产数据集,采用线性回归和决策树回归两种方法进行缺失值补充,并从统计特征、自相关性、趋势和季节性等多个维度进行了详细评估。结果显示,决策树方法在处理复杂非线性模式和保持数据局部特征方面表现更佳,而线性回归方法则适用于简单的线性趋势数据。文章最后总结了两种方法的优劣,并给出了实际应用建议。
114 7
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
|
2月前
|
数据处理 数据安全/隐私保护 流计算
Flink 三种时间窗口、窗口处理函数使用及案例
Flink 是处理无界数据流的强大工具,提供了丰富的窗口机制。本文介绍了三种时间窗口(滚动窗口、滑动窗口和会话窗口)及其使用方法,包括时间窗口的概念、窗口处理函数的使用和实际案例。通过这些机制,可以灵活地对数据流进行分析和计算,满足不同的业务需求。
224 27
|
3月前
|
监控 Cloud Native BI
8+ 典型分析场景,25+ 标杆案例,Apache Doris 和 SelectDB 精选案例集(2024版)电子版上线
飞轮科技正式推出 Apache Doris 和 SelectDB 精选案例集 ——《走向现代化的数据仓库(2024 版)》,汇聚了来自各行各业的成功案例与实践经验。该书以行业为划分标准,辅以使用场景标签,旨在为读者提供一个高度整合、全面涵盖、分类清晰且易于查阅的学习资源库。
|
4月前
|
SQL 分布式计算 NoSQL
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
57 1
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细

相关产品

  • 实时计算 Flink版
  • 推荐镜像

    更多