鲁肃:蚂蚁金服的三个梦想

简介: 4月15日,在清华大学举办的,阿里巴巴技术含量最高的技术盛典“阿里技术论坛”上,蚂蚁金服的技术天团首次集体亮相。本文将分享的是蚂蚁CTO程立入职11年来的心路历程,干货满满“蚂蚁金服的三个梦想”,即刻奉上。

4月15日,在清华大学举办的,阿里巴巴技术含量最高的技术盛典“阿里技术论坛”上,蚂蚁金服的技术天团首次集体亮相。本文将分享的是蚂蚁CTO程立入职11年来的心路历程,干货满满“蚂蚁金服的三个梦想”,即刻奉上。




程立,花名鲁肃,2005年加盟支付宝。作为支付宝首席架构师,支付宝第一代架构设计者,支付宝停机发布17小时的救火大队长,程立在公司已然是“神一般的存在”。尽管衣品有待提高,但丝毫不妨碍集技术与颜值于一身的他称为公司众女同学心目中的“男神”。

“蚂蚁金服的三个梦想”


在座各位同学大家好,很高兴跟大家做一个分享,分享我在蚂蚁金服的经历和其中的感悟。我个人经历非常简单,2004年的时候,我踏出校园,应该说我跟行癫一起,我们开始参与当时淘宝网初期建设过程中。到2004年下半年,加入到一个秘密项目组,打造一个平台,这个平台的名字就叫做支付宝,后来加入到支付宝创业很小的团队中。


在支付宝刚刚创立的时候,我印象非常深刻,团队是有三个梦想。


第一个梦想,就是让支付如何简单快速,我们怎么打造一个平台,让全世界每一个人在这个平台上简单快速地支付,这个平台每天处理十亿笔、一百亿笔甚至更多的交易,这是我们当时的第一个梦想,可以支撑一个交易的平台。


第二个梦想,我们拍了一个广告片《天下无贼》,我们说要让每一笔支付安全、让用户的每一分钱都安全,我们怎么打造一套安全体系,让我们整个资金处理,让我们的账户、我们的信息非常安全,这是我们当时的第二个梦想。


第三个梦想,让信用等于财富,怎么通过我们的平台,让社会上的每一个人、诚信的人、诚信的企业获得财富,我们支付宝的发展,都是围绕这三个梦想前进,直到现在我们也是在实现这个梦想的路上。


第一个梦想


我分享一下在这三个梦想的过程中,我们的一些经历,先从第一个梦想开始,怎么让支付简单快速,怎么打造每天处理百亿笔交易的平台。


刚开始我们做业务创新的时候,对于技术并没有很多的了解,最早的支付宝系统,是由还不太会开发的人做的,我刚从学校出来就做支付宝了,那个系统特别简单,估计在座的我们每一位同学都能做,就是一个简单的应用,可以装在一台应用服务器上,使用一个数据库,服务我们一个大客户淘宝,后来我们慢慢走出淘宝,就这么一个简单的系统,支撑支付宝从2004年、2005年、2006年早期的发展,早期的系统架构也有好处,就是特别的快,我们的产品经理说什么,我们改一下代码就实现了,比如说支付宝红包,从需求提出到上线就四天的时间,但是到后面,不能支撑更多的交易量,不能支撑更加复杂的业务。


在2006年的时候,我们团队做一个选择,我们未来用什么样的技术去实现我们让支付简单快速,当时有两派意见,第一派意见向我们的老大哥银行去学习,老大哥已经走了十几年,这条路一定是安全的。


第二条路,我们走一条新的路,过去没有人走过,但是我们可以更加代表未来,我们用分布式的架构去支撑一个未来不一样的交易的支付系统。经过差不多大概一年左右的讨论和思考之后,我们做了一个决定,我们做一条过去没有人走过的路,我们启动了支付宝第二代架构的建设,怎么能够把支付宝分布化,2007年开始,我们对于支付宝整个的交易系统,整个的商户系统、整个的会员系统,整个的支付清算系统进行了改造。


在这个过程中,我们开始有了自己的技术,我们沉淀出自己整个分布式服务的一个处理平台,处理分布式数据库的体系,然后把数据分布化的时候,怎么来通过访问和调度整个分布式数据这样一套能力。


大概从2007年一直做到2010年,我们把当时第二代架构差不多做成了,那个时候我们觉得很骄傲了,我们已经有一套可以支撑未来的交易系统了。那个时候,我们每天能处理的交易量是多少呢,刚刚刘振飞说过,每秒钟能够处理500笔的交易。


2010年发生了一件事情,11月11日,那实际上是第一次真正意义上的大促,当时我也在,提前三天得到通知,说“双11”我们要搞大促了,技术人员你们加一下班,可能用户访问量比较大,我们也没当回事,就去值班了。零点刚过,第一波高峰,让我们所有人紧张了一下,几乎就超出了我们当时每秒钟500笔的能力,这样一个用户量过来了,扛过高峰之后,我们没有睡,所有人盯着系统,为第二天来的洪峰做准备,到早上六七点钟,我们看到交易量往上涨了,而且上涨的幅度是我们日常的好几倍,远远超出我们的支付系统的成长,我们明白一个事实,我们当时的系统是没法支撑出这个交易量的。


所有的整个技术团队全部在一起,我们要为度过这一天而想办法,这一天怎么度过的,就是不断地去把我们认为可能富余的机器,我们往这些稀缺的地方去移动,我们把可以降级的服务去降级掉,我们整天盯着这些数据,去做调拨,然后杀死一些可以杀死的服务。直到23点59分,快结束的时候,我们的核心账户顶不住了,我们做了一件事情,把同样做帐务系统的一个系统干掉了,然后撑过了。


撑过了之后,我们一个同学说你们这天把一个杠铃举在头上,举了整整一天,了不起。我们的CTO说我们在做一件事情,在做人肉云计算,这句话把我们点醒了,我们的二代架构做完之后,认为已经可以了,但是还是不行。我们决定启动第三代架构,我们要把整个支付系统架构在云计算上面,分布式数据库只是第一步,拥抱云计算的基础。我们要把真正的系统架在云计算上面,我们的三代架构,2010年到2013年,又把它完成了,这个过程当中,每年的大促对我们的架构进行考验,整个的数字我不说了,刚才已经显示过了。


到2013年,我们差不多把整个第三代云支付架构完成, 我们敢不敢用自研的数据库去支撑交易,这是2013年我们做的一个决策,最早的时候,支付宝核心数据库,用的是商业数据库,经过那么多大型机构的验证,然后经过这么多牛逼的公司去打造,OceanBase就是三四十人的小团队,一个学校的老师带着这么一个小团队,打造的这么一个数据库,用这个数据库处理金融交易行不行,很多人都怀疑,凭什么你们三四十个人做的比人家一个大公司做得更好,我们要不要用OceanBase去替换原来的数据库,当时我们团队给予OceanBase团队非常大的信任,2013年、2014年OceanBase承载了核心交易,2015年,我们整个大促,OceanBase承担100%的交易,我们的分布化到下一个阶段,我们可以在千公里之外做异地多活,我们可以用阿里云计算弹性处理交易,这个时候我们差不多实现了第一个梦想。


在这个过程当中,我们发现不但实现了我们的梦想,我们还实现了我们的技术,OceanBase打造真正分布式的金融级数据库,金融云计算的服务,把整个分布式处理,通过云计算的平台来提供。这样的技术做出来的价值,超出我们第一个梦想的价值本身,当我们要打造第一家银行网商银行的时候,我们非常有信心,我们要把这家银行打造成一个用云计算,用OceanBase数据库支撑的银行。网商银行是全球第一家完全用云计算、OceanBase支撑的系统,我们实现了,这是我们作出的贡献。


第二个梦想



第二个梦想,怎么让天下无贼,怎么让交易安全,安全问题第一天就伴随着支付宝,作为用户可能不太能够理解,但是作为我们做支付平台的人能够理解,处理一笔支付,只有1%的工作量,解决转钱的问题,99%的工作量是这个钱怎么转,能不能转,安全是成为我们整个最复杂的环节。我们第一代的支付安全系统也是2005年当时去建的,当时建的时候,第一代系统非常简单,就是几个规则,我们通过一个引擎运算,运算之后,告诉前端系统,这个支付安全不安全,不安全的,怎么样处理,这是第一代风控系统。


伴随着这个风控系统,背后有一个团队,他是专家,制定各种各样的专家规则,保护系统的安全,这一代系统保障了我们从2005年到2006年整个支付宝平台的安全。但是到2007年之后,我们可以发现规则越来越多,安全形势越来越复杂,靠人的大脑其实已经很难去想清楚所有的规则,而且很难去管理成千上万条规则了,这个时候我们面临怎么样一种技术挑战,就是怎么用机器代替专家,去想出更好的规则。


所以当时的话,我们的整个安全平台,它是从第一代向第二代走,它是一个规则加上通过机器自己学习得到的模型来支撑的系统,这是整个安全系统往下面发展。


我们发现技术起到的作用,第一代系统,规则上面有挑战,但是挑战不是那么高,当机器代替人的时候,对于数据平台有了很高的要求,这个时候阿里开始打造自己的大数据平台,所以阿里的大数据和云计算技术开始支撑我们整个风控系统,我们能够用实时的数据,然后每天可能数十个P的数据去训练我们的模型,让这个模型很快地上线,这是第二代。


然后有了这个之后,我们发现整个系统会更加智能,我们安全团队的人没有增加很多,但是我们这个团队加上这个智能系统,能够处理更大交易的安全性。再往后,我们发现仅靠这个专家的系统,其实已经很难安全防控了,真正要做安全的时候,我们觉得要基于对于用户行为真正的身份的理解,我们能够通过数据去洞察做交易背后的人,他们是谁,他的行为是不是安全,而这种洞察能力,上我们对整个数据的处理能力又得到进一步的要求,对于整个安全系统,整个机器学习,怎么用实时数据去学习,包括把安全手段,传统的密码,到生物识别,到指纹识别、人脸识别系统,这是整个第三代的风控系统,这个系统能够把我们整个系统安全性水平控制在十万分之一以下,每一笔交易它是否安全,能够用不到一百毫秒的时间完成。


走到今天,我们看我们之前的梦想,让天下无贼,让每笔交易安全,让每个账户安全,这个背后的技术,用整个阿里大数据平台,整个从数据的采集到传输,到计算完成,到结果的输出,不到一百毫秒的闭环处理,我们还发展了自己的计算技术,我们打造自己的计算引擎,对网络数据进行处理,更深的洞察,我们整个机器学习的平台,能够快速做深度模型训练,发布会越来越精准。


当我们把这个能力锻炼出来之后,我们发现这个安全风控领域不仅可以服务蚂蚁金服自己的业务,而且还可以把它作为一个风控服务提供给很多合作伙伴和客户,包括身份识别服务,保护他们的安全,让天下无贼不仅是蚂蚁金服的梦想,而且可以成为整个中国金融的一个基础的服务。


第三个梦想



第三个梦想是让信用等于财富,我加入支付宝第一天就听到这句话了,当时马总说支付宝不是做支付的,而是做信用的,当时我不是很理解,信用简单的理解就是担保交易,从第一天开始,我们做很多的场景,怎么样为每一个客户,包括对于我们使用这个平台的每一个消费者和商家去建立信用,十年前支付宝的交易系统,做任何一笔交易,点开支付宝,查看交易的信用情况,简单的信用报告,只是数据的罗列,你的交易有多少成功的,多少失败的,多少退款的。


当时我们基于数据可以算出分,而且可以实时计算,任何一个用户行为变化是动态变化的,这个产品我们觉得更加接近于我们想要的为每个人建立信用,这样一个想象的理想了,但是当时没有人知道这个分准不准,这个分怎么用,最后这个分没有推上线,我们只是技术上具备这个能力。


但是2009年的时候,我们打造阿里微贷,让信用等于财富,这个距离更近了,我们商家产生的数据,判断这个商家的信用情况,根据信用情况,给他做相应的授信,然后实时的,几分钟就能够完成他的授信准入和贷款发放全部的过程,让信用等于财富,让诚信的商家能够更好地完成他的生意,能够支付,这个梦想开始变得越来越近了。


阿里贷款这个服务为什么能够有,在2008年之后才有,当然第一有数据,那个时候阿里电商平台上面的数据量开始到一定程度,根本是什么?是背后的技术到了一定程度,2008年、2009年是阿里云计算开始打造的时候,阿里贷款是第一个完全架在阿里云大数据平台上面的系统,通过阿里云计算大数据处理能力,让阿里贷款完成对于用户发放贷款的能力,而且贷款风控率在一个很低的水平,解决社会一个融资难的问题。


2013年的时候,我们开始把这个能力服务推广到数亿的消费者,我们推出面向消费者的花呗这个服务,让诚信的消费者能够享受到没有障碍的服务,这个服务的打造,背后不是一个支付系统,真正核心的就是一个用户的信用,风控系统。我们有花呗这个支付工具,在“双11”每秒8.59万笔里面占了4万笔,而且花呗的成功率99.9%,让有信用的用户畅通无阻的支付,到2015年的时候,让每个中国人都有自己的信用分,大家打开支付宝客户端,可以看到芝麻信用,芝麻信用是用蚂蚁大数据能力和蚂蚁整个智能化算法,为每一个用户计算出来的信用分,而且这个信用评分足够准确,可以帮助有芝麻信用,而且芝麻信用分达到一定分数的人,你可以不用付押金,可以租车,不用付押金,可以租酒店,不用付押金,可以租房子。


这让我们离信用等于财富更近了一步,这个背后能够支撑这些业务创新得以成功的是云计算大数据技术,这个上面发展出来的信用能力,已经成为中国新金融非常重要的基础设施,芝麻信用不仅仅是提供蚂蚁金融业务,它为很多金融机构作为一个基础能力,能够帮助我们金融机构更好地积累信用。


回头来看这十二年,我们的三个梦想,让支付简单快速,让天下无贼,让信用等于财富,我们虽然还在路上,但是我们已经走得很远,但是在这个过程中,我们可以给世界的这么一个技术贡献。


蚂蚁金服我们技术团队这十几年,我们打造的是什么,我们是一个百亿级的处理平台,我们是一个非常实时的处理海量数据的平台,我们打造一个非常强的机器学习的平台,其实我觉得未来蚂蚁金服我们的技术同学打造的是一个超级大脑,这个超级大脑能够洞察每一个用户、每一个商家、每一个客户的信用,他能够洞察每一笔交易、每一笔支付的安全,这种能力是上面所有金融服务的基础。


比如说我们推出的新的服务叫做蚂蚁聚宝,蚂蚁聚宝是从余额宝之后,让银行用不同的方式做财富管理,让每个普通消费者、每个用户可以获得,如果有这个大脑的话,我们可以真正通过它为每一个用户提供VIP级的信用服务。当然现在打开蚂蚁聚宝,可以看到上面不仅有余额宝,有招财宝、基金,未来还有更多的服务,而且每一个服务都是为每一个用户量身打造的,这个背后的能力,需要我们在技术上,在算法上做更多的创新,这是蚂蚁金服未来的机会。


阿里有一句话,这句话是去年“双11”出来的——


“如果不是这么阔大的舞台,哪里安放如此牛逼的灵魂。”


这个阔大的舞台是中国、是我们的现在,但是这个阔大的舞台是我们的梦想,过去十二年来,我们围绕这么三个梦想一直在走,从开始非常简单的一小步,慢慢积累到这么多,未来我们依然保持这个梦想,我们为世界的技术贡献更多,为我们的社会贡献更多。


阿里还有另外一句话,特别打动我们的,王坚博士最大的梦想是什么,他最大的梦想就是让每一个人、每一个阿里人在这个平台上面能够做出一生最大的技术成就,在阿里、蚂蚁,我们有这么梦想的舞台,因为有这个梦想,我相信所有的人一定能够实现他在一生当中最大的成就,这是我的分享,谢谢大家。


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
定位技术
阿里研究员玄难:如何做电商业务中台
2016 ATF阿里技术论坛于4月15日在清华大学举办,主旨是阐述阿里对世界创新做出的贡献。会上阿里业务平台事业部&淘宝基础平台技术部负责人玄难阐释了淘宝经历13年的发展中,业务平台从零到有,同时又逐步演进为业务中台。
41794 0
|
数据采集 运维 Java
有了 Dataphin v4.0,跨系统调度依赖再也不是难题
Dataphin v4.0引入了新的触发式节点,用于解决多数据平台间的调度问题。当上游系统(如Unix的crontab)完成数据采集后,可通过触发式节点通知Dataphin开始拉取数据,避免传统轮询方式的效率低和资源占用。触发式节点需满足Dataphin OpenAPI开通和网络连通条件,并通过SDK进行外部触发。示例展示了如何创建和使用触发式节点,以及使用Java SDK模拟触发请求。
800 0
|
分布式计算 关系型数据库 MySQL
Dataphin数据研发
学员将在Dataphin(数据治理产品)集成MySQL数据库进行数据上云,然后利用Dataphin针对上云表进行规范建模。并通过规范建模生成的逻辑表针对需求进行指标/标签开发。
|
数据采集 存储 运维
DAMA数据管理知识体系指南(3):数据治理
DAMA:国际数据管理协会,是一个全球性数据管理和业务专业志愿人士组成的非营利协会,是当前国际上在数据治理领域最权威的机构。 DMBOK2则是DAMA组织众多数据管理领域的国际级资深专家编著,深入阐述数据管理各领域的完整知识体系。它是市场上唯一综合了数据管理方方面面的一部权威性著作。 本系列文章,将针对DMBOK中的核心内容进行解读。
DAMA数据管理知识体系指南(3):数据治理
|
存储 监控 关系型数据库
深入解析 Hologres Table Group 与 Shard Count
Hologres 是一款强大的实时数仓,支持海量数据的高效存储与快速查询。Table Group 和 Shard Count 是其核心概念,前者管理数据分片,后者指定分片数量。合理配置二者可显著提升性能。Table Group 实现资源共享与协同管理,Shard Count 根据数据量和读写模式优化分片,确保高效处理。结合业务需求进行动态调整,可充分发挥 Hologres 的潜力,助力企业数字化转型。
570 60
|
安全 Java 数据库连接
Java报错javax.net.ssl.SSLException MESSAGE: closing inbound before receiving peer‘s close_notify解决方法
Java报错javax.net.ssl.SSLException MESSAGE: closing inbound before receiving peer‘s close_notify解决方法
Java报错javax.net.ssl.SSLException MESSAGE: closing inbound before receiving peer‘s close_notify解决方法
|
运维 程序员 数据库
如何用TCC方案轻松实现分布式事务一致性
TCC(Try-Confirm-Cancel)是一种分布式事务解决方案,将事务拆分为尝试、确认和取消三步,确保在分布式系统中实现操作的原子性。它旨在处理分布式环境中的数据一致性问题,通过预检查和资源预留来降低失败风险。TCC方案具有高可靠性和灵活性,但也增加了系统复杂性并可能导致性能影响。它需要为每个服务实现Try、Confirm和Cancel接口,并在回滚时确保资源正确释放。虽然有挑战,TCC在复杂的分布式系统中仍被广泛应用。
986 5
|
存储 SQL OLAP
分析性能提升40%,阿里云Hologres流量场景最佳实践
分析性能提升40%,阿里云Hologres流量场景最佳实践
|
SQL 分布式计算 资源调度
Hive 优化总结
Hive优化主要涉及HDFS和MapReduce的使用。问题包括数据倾斜、操作过多和不当使用。识别倾斜可通过检查分区文件大小或执行聚合抽样。解决方案包括整体优化模型设计,如星型、雪花模型,合理分区和分桶,以及压缩。内存管理需调整mapred和yarn参数。倾斜数据处理通过选择均衡连接键、使用map join和combiner。控制Mapper和Reducer数量以避免小文件和资源浪费。减少数据规模可调整存储格式和压缩,动态或静态分区管理,以及优化CBO和执行引擎设置。其他策略包括JVM重用、本地化运算和LLAP缓存。
678 4
Hive 优化总结
|
监控 Java 中间件
蚂蚁金服:开源增强版 SpringBoot 的研发框架
蚂蚁金服:开源增强版 SpringBoot 的研发框架
322 1