日交易笔百万级,Ping++的大数据平台架构

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 当前日交易笔数为百万级,目前已经积累了海量交易数据。如何在经过客户授权的情况下利用数据为客户赋能,并带来额外附加价值,从而提高客户黏性,Ping++亟需搭建可靠、稳定的大数据平台。
11+大数据行业应用实践请见 https://yq.aliyun.com/activity/156 ,同时这里还有流计算、机器学习、性能调优等技术实践。 此外,通过 Maxcompute及其配套产品 ,低廉的大数据分析仅需几步,详情访问 https://www.aliyun.com/product/odps ;更多精彩内容参见 云栖社区大数据频道 https://yq.aliyun.com/big-data  。

Ping++ 是上海简米网络科技有限公司旗下的聚合支付品牌,国内领先的第三方支付解决方案SaaS服务商。Ping++ 成立于2014年4月,2016年初获得由宽带资本领投的千万美元 B 轮融资。Ping++ 为零售、电商、O2O、教育、旅游、SaaS 服务等众多领域的商户提供定制化支付解决方案,累计帮助15000多家商户解决支付问题。

从安全可靠的聚合支付平台到简单无忧的聚合支付云服务,Ping++不仅极大地简化了企业与移动支付渠道和消费分期渠道的对接过程,还将日常交易管理、账务管理、大数据分析、多级商户、用户账户等功能集成到统一的管理平台。从支付接入、交易处理、业务分析到业务运营、大数据营销,Ping++以定制化全流程的解决方案来帮助企业应对在商业变现环节可能面临的诸多问题。

Ping++的百万级交易挑战

Ping++ 通过搭建在云端的支付处理平台为商户集中处理所需第三方支付渠道的交易请求并提供统一的SDK接口供商户调用,当商户的用户发起交易时,就会调用这个SDK,此时这些数据记录会存储到数据库中,包括时间、金额、渠道等信息。当前日交易笔数为百万级,目前已经积累了海量交易数据。如何在经过客户授权的情况下利用数据为客户赋能,并带来额外附加价值,从而提高客户黏性,Ping++亟需搭建可靠、稳定的大数据平台。在Ping++搭建大数据平台的过程中,存在以下挑战:

1.一站式大数据平台,可以帮助降低数据创新与创业成本,需同时具有存储、计算、BI和机器学习等功能需求:
  • 存储: 利用数据仓库存储海量支付订单数据。
  • 计算: 批处理进行 ETL 数据清洗、统计汇总、数据分析。
  • BI: 产出数据的监控指标,以图形化方式反映数据质量和趋势。
  • 机器学习: 各类场景下模型的训练及预测。
2.Ping++作为一个创业公司,前期尽可能以最低的成本去实现业务创新。但是,自己搭建符合上述4种所有要求的大数据平台,需要投入大量硬件投资、时间成本和人力成本。作为互联网创业公司,唯快不破,需要跟时间赛跑,如何快速、高效、低成本的搭建大数据平台也是亟需的。

3.安全是金融行业永远的话题,作为互联网支付服务提供商,Ping++非常重视大数据平台的安全性、稳定性和可靠性,并需要平台具有多角色多权限的账户体系。同时,Ping++ 使用严格的数据隐私保护机制,商户的数据只用于分析商户自己的生意。

Ping++的公有云供应商考量

如上所述,自建符合要求的大数据平台成本过高、周期过长,而且Ping++是做第三方服务的,秉承专业的人做专业的事情的理念,希望能够通过第三方服务去解决问题,因此一开始就决定考虑采用公有云大数据平台。“我们认为,对于初创公司和小规模团队来讲,利用云服务更加省时和经济,可以将更多精力投入于应用和业务开发。”Ping++大数据总监夏苏敏表示。

Ping++大数据技术团队对主流的公有云大数据平台进行了试用和对比,尤其是跟某国际化云计算大公司的大数据平台去进行比较,当时发现此公司在国内提供的服务并不是非常的好,而且服务器也不是非常的稳定。另外,Ping++的整个交易系统架构在阿里的金融云上,其稳定性、安全性均进行了前期的验证,而且如果大数据平台也采用阿里云在数据传输、兼容性和成本上均有很大优势。鉴于以上考虑,Ping++最后选定了阿里云的数加平台。

Ping++的解决方案及架构

Ping++围绕积累下来海量的交易数据,主要基于阿里云数加平台进行以下业务场景创新:

1.BI营销业务系统。基于用户交易行为数据进行用户画像,在用户画像的基础上提供精准营销方案,在老客户激活、提高客单价、潜客获取、转化率提升等方面对客户赋能。

2.内部监控。基于阿里云数加平台进行数据监控赋能内部管理,包括交易信息汇总、异常交易提醒、数据质量分析等。

6202a13b07f92a372ed5db895a3101ba2d484e67

数据源:来源于支付业务系统,分别使用了阿里云RDS、DRDS以及MongoDB,DRDS和RDS主要用来存储用户交易信息,MongoDB主要用来存储商品维度信息。

大数据平台:通过阿里云数加平台搭建,包含的组件及功能为:

  • 大数据计算服务(MaxCompute ,原名 ODPS): 用于数据仓库。目前有包括原始基础表、ETL 结果表、上层 ADM 应用数据集市表在内的共计 630+ 张数据表。
  • 大数据开发套件(DataIDE): 使用其中的 DAG 调度系统支撑每天例行化运行 140+ 个节点;利用提供的日志功能、报警机制、重跑补数据等多种工具进行运维工作;通过阿里云子账号和数加平台的权限体系实现了多角色多权限的账户体系。
  • Quick BI: 用于指标的图表展示。目前有 10+ 张图表以监控数据质量和辅助决策。
  • 机器学习: 利用提供的算法库解决大数据量的图模型问题、机器学习分类问题、文本分词问题等。
结果存储及检索:通过阿里云数加产品分析型数据库(AnalyticDB)同步经过DataIDE处理过的存储在MaxCompute中的数据集市表,主要是汇总后的脱敏数据,使用分析型数据库的主要原因是基于其强大的实时计算功能,可实现实时检索分析。机器学习的预测分析结果存放于MySQL进行检索分析。

应用:BI营销业务系统及内部监控。

收益:
  1. 阿里云数加为Ping++大数据实施提供了一套完整的一站式大数据解决方案,覆盖了企业数仓、商业智能、机器学习、数据可视化等领域,助力Ping++在DT时代更敏捷、更智能、更具洞察力。数加平台从数据导入、查找、开发、ETL、调度、部署、建模、BI报表、机器学习,到服务开发、发布,以及外部数据交换的完整大数据链路,一站式集成开发环境,降低Ping++数据创新与创业成本。
  2. 通过阿里云数加平台,Ping++快速搭建了大数据平台,节省了大量成本,因此可以将更多的人力、物力投入到业务创新上来。“现在我们已经开始向客户提供大数据的服务了,如果自己建的话,可能现在才刚刚把这个平台搭好,业务上的事情还没有开始做呢,整体上来讲,可以为我们节省六到八个月的时间。”夏苏敏说到。
  3. 阿里云及其数加平台提供金融企业级的安全机制,保证了Ping++业务应用的安全、可靠、稳定运行。核心产品MaxCompute更是提供多种安全机制为DT时代的企业数据资产保驾护航,如采用业界标准的API认证协议、没有超级管理员的角色、提供了丰富的项目空间内的用户管理及授权功能、将用户作业在运行时隔离、作业运行时使用最小权限、数据访问审计以及安全监控系统等。“我们曾经也遭受过一次DDos攻击,阿里云也成功的帮助我们防御了这样一次攻击。” 夏苏敏回忆道。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3月前
|
分布式计算 大数据 数据处理
经典大数据处理框架与通用架构对比
【6月更文挑战第15天】本文介绍Apache Beam是谷歌开源的统一数据处理框架,提供可移植API,支持批处理和流处理。与其他架构相比,Lambda和Kappa分别专注于实时和流处理,而Beam在两者之间提供平衡,具备高实时性和数据一致性,但复杂性较高。选择架构应基于业务需求和场景。
163 3
经典大数据处理框架与通用架构对比
|
29天前
|
存储 监控 安全
大数据架构设计原则:构建高效、可扩展与安全的数据生态系统
【8月更文挑战第23天】大数据架构设计是一个复杂而系统的工程,需要综合考虑业务需求、技术选型、安全合规等多个方面。遵循上述设计原则,可以帮助企业构建出既高效又安全的大数据生态系统,为业务创新和决策支持提供强有力的支撑。随着技术的不断发展和业务需求的不断变化,持续优化和调整大数据架构也将成为一项持续的工作。
|
1月前
|
存储 分布式计算 大数据
大数据架构管理规范
8月更文挑战第18天
40 2
|
1月前
|
消息中间件 存储 大数据
大数据-数据仓库-实时数仓架构分析
大数据-数据仓库-实时数仓架构分析
88 1
|
2月前
|
分布式计算 大数据 数据处理
「大数据」Kappa架构
**Kappa架构**聚焦于流处理,用单一处理层应对实时和批量数据,消除Lambda架构的双重系统。通过数据重放保证一致性,简化开发与维护,降低成本,提升灵活性。然而,资源消耗大,复杂查询处理不易。关键技术包括Apache Flink、Spark Streaming、Kafka、DynamoDB等,适合需实时批量数据处理的场景。随着流处理技术进步,其优势日益凸显。
59 0
「大数据」Kappa架构
|
2月前
|
存储 监控 算法
「AIGC算法」大数据架构Lambda和Kappa
**Lambda与Kappa架构对比:** Lambda提供批处理和实时处理,保证数据最终一致性,但维护复杂。Kappa简化为单一流处理,易于维护,适合实时场景,但可能增加实时处理压力,影响稳定性。选择时考虑数据一致性、系统维护、成本和实时性需求。
69 0
「AIGC算法」大数据架构Lambda和Kappa
|
2月前
|
存储 数据可视化 大数据
大数据平台架构设计与实施
【7月更文挑战第3天】本文探讨了大数据平台的关键技术,包括数据采集(如Kafka、Flume)、存储(HDFS、HBase、Cassandra)、处理(Hadoop、Spark)、分析挖掘及可视化工具。架构设计涉及数据收集、存储、处理、分析和应用层,强调各层次的协同与扩展性。实施步骤涵盖需求分析、技术选型、架构设计、系统部署、数据迁移、应用开发测试及上线运维,旨在为企业决策提供强有力的数据支持。
|
2月前
|
存储 分布式计算 Hadoop
阿里巴巴飞天大数据架构体系与Hadoop生态系统的深度融合:构建高效、可扩展的数据处理平台
技术持续创新:随着新技术的不断涌现和应用场景的复杂化,阿里巴巴将继续投入研发力量推动技术创新和升级换代。 生态系统更加完善:Hadoop生态系统将继续扩展和完善,为用户提供更多元化、更灵活的数据处理工具和服务。
|
2月前
|
分布式计算 运维 大数据
混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践。
除了资源效率和成本的优势外,混合云模式还为斗鱼带来了可量化的成本、增值服务以及额外的专业服务。阿里云的专业团队可以为斗鱼提供技术咨询和解决方案,帮助斗鱼解决业务难题。此外,计算资源的可量化也使得斗鱼能够清晰地了解资源使用情况,为业务决策提供依据。
|
2月前
|
数据采集 大数据 关系型数据库
数据架构问题之什么是传统大数据架构的数据源
数据架构问题之什么是传统大数据架构的数据源

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute