疫情之下,生鲜电商的订单突然暴涨。
社区生鲜龙头企业谊品生鲜就是一个典型代表。它的在线交易量激增,日订单量超过10万单。
对电商企业而言,这对业务是个巨大的好消息;但对于IT、对于谊品生鲜的核心业务系统则是一个巨大的挑战!
所有做互联网、做电商核心业务系统的技术人员都知道,访问量容量巨增,这对于后台系统会带来各种不可预知的问题:性能卡顿,网站、APP、小程序等入口不能访问,订单出错,支付不了……
要命的是,出现其中的任何一个问题,都会对业务、对用户体验、对品牌造成巨大伤害。
更进一步,万一出现了某个问题(说实话,这世界谁也不能保证100%不会出现),而IT却不能快速解决,将会是灾难性的后果。
作为谊品生鲜IT基础架构的负责人,杨航深知其中滋味。
但幸运的是,他告诉中国软件网,这次他闯过来了。
而记者也发现,他的闯关经历,或许是电商企业、甚至是互联网公司应对业务量暴增的、实现可控、健康运营的“最佳实践”。
01 传统ERP被厂商卡脖子
为应对业务的快速扩张,2018年年底,谊品生鲜成立了研发团队。同时,开始大量采购第三方系统,例如ERP、仓储、供应链等。
这些系统都基本上是本地部署,自己买服务器,数据库基本都采用Oracle。
这些第三方业务系统往往有一个共同的特点,即核心业务逻辑往往都写在Oracle数据库里。
这就带来了一个巨大的风险:一旦系统出了问题,谊品生鲜自己的技术人员往往无法解决,必须要有系统研发厂商的DBA等相关技术人员协助才能解决。
据阿里云数据库资深技术专家、数据库自治服务DAS产品线负责人李广望介绍,这其实是很多电商企业面临的一个典型场景。
这种传统的数据库架构,最怕系统出问题。因为一出问题时,自己没法解决,必须依靠厂商的技术人员才能解决。
但由于厂商的技术人员不可能马上响应,也不可能立即到现场解决,这种情况下解决一个问题需要花费很长时间。
这对于每分钟都有巨大业务量的互联网企业而言,这绝对是不能忍受的。
例如,谊品生鲜有次进行门店盘点,却出现没办法提交盘点成果的现象。谊品技术人员很快排查发现,原因是系统的Oracle数据库阻塞了。
“这涉及到第三方系统,我们自己的技术人员无法解决。必须要找ERP厂商,让他们的DBA来处理。”
当时解决这个问题,花了很长时间。这给谊品生鲜带来了极大的损失。
对于电商企业而言,这种情况其实是“被厂商卡住了脖子”。自己有技术人员,却无法冲上去解决问题。
这个问题必须解决。否则,电商业务系统的可靠性与稳定运行将有巨大的不可控风险。
02采用云原生架构自研系统
从阿里巴巴、京东、百度、美团等互联网企业的实践来看,中国软件网发现,解决这个问题的根本途径就是——自已研发核心业务系统。
如果采用第三方系统,永远存在不可控的风险。
而对于互联网企业,核心业务系统是自己的命根子。它必须绝对可控,容不得有半点闪失。
要绝对可控,就必须自己研发系统。
另外,每个互联网或电商企业,其实都有独特的供应链模式、运营模式。市场上很难找到一个第三方系统能够很好地支撑他们的运营。
就像谊品生鲜,在开始的三年,由于需求无法满足的原因曾经换过几个系统。
每次换系统都是一个非常痛苦的过程。这也是谊品生鲜决定成立自己的研发中心,自己的研发系统的关键原因。
因此,谊品生鲜下定决心自己组建专门的IT研发团队,自已研发核心业务系统。杨航甚至还向中国软件网透露,未来所有系统都要由谊品生鲜自研,包括财务软件。
在云时代,自研系统必须采用云原生技术,这样才能有效解决传统ERP等业务系统的架构不合理,同时又能研发完全符合自己需求的系统。
03数据库上云、去Oracle
资深架构师都知道,保证业务系统可控的核心在于数据库。
自研系统要绝对可控,数据库用什么呢?
大家的第一个共识是,不能再用Oracle。
原因主要有两个。一是Oracle在技术上不可控;二是Oracle成本太高,Oracle的云数据库版本也较少,与之对应的云上运维与管理工具也比较少。
第二个共识是,数据库要上云,要用云数据库。权威市场研究机构Gartner指出,云数据库将是未来。到2021年,云数据库在整个数据库市场中的占比将首次达到50%;而到2023年,75%的数据库要跑在云平台之上。
最核心的原因是,传统数据库产品存在扩展速度慢、效率低等问题,根本无法满足业务系统对实时性、稳定性、快速扩容的需求。
就像谊品生鲜因疫情而突然在线交易量激增,日订单量超过10万单。本地部署的传统数据库很难应对这种爆发式的增长,实现弹性扩缩容。
但这是云数据库的强项。
云原生数据库往往采用利用分布式共享存储,并且存储和计算分离、解耦,以方便在存储和计算分别进行弹性扩容,做到极致的弹性。在弹性、高可用、负载均衡等方面,云数据库基本都是明显优于本地部署的数据库。
并且,云数据库可以做到“按需按量使用,同时按需按量计费”。这对于互联网企业而言极具吸引力。
如果用本地数据库,要做到和云数据库一样的高可用性,成本就会非常高。
对于谊品生鲜而言,由于其服务器等硬件基础设施已全面上云。系统上云、数据库上云也是一个必然趋势。
最初谊品生鲜的业务系统采购自第三方厂商,并且部署在线下IDC机房内。一旦出了问题就只能等厂商的人来解决问题。
但现在,通过将全部业务迁移到阿里云之上,并且深度使用云数据库,杨航带领的基础架构团队才终于感觉有了控制权。
04自治化与智能化
对于互联网和电商企业而言,随着自研系统的增多,数据库运维与管理的挑战将会越来越大。
对于谊品生鲜同样如此。杨航下一步的解决方案是,谊品生鲜自己的技术运维团队会更侧重于内部运维效率平台的研发,以此逐步减少DBA人员,降低运维成本、控制安全风险。
同时,DBA的传统职能会被淡化掉,他们主要用于研发效率工具、自治服务工具,做更高价值的工作。自研系统迭代速度非常快,如果没有数据库的自治服务,不能实现自动化、智能化运维,还需要大量人工运维介入,会大大增加线上系统出故障的几率。
巧合的是,这也正是阿里云数据库自治服务DAS产品的发展目标。
DAS产品最早源于2014年的CloudDBA,是一个服务于内部的研发人员工具。2016年,阿里云对它进行了升级和产品化,作为云服务推向了市场。从2017年开始阿里云在其中加入自治功能,并利用阿里巴巴的场景和技术不断验证和完善,一直持续到2019年年底,正式更名为DAS。
作为阿里云数据库DAS产品线负责人,李广望深有感触,阿里云数据库自治服务DAS基于阿里巴巴自身数据库规模化运维的专家经验,结合人工智能和机器学习技术,已实现了自感知、自诊断、自修复和自安全的数据库自动驾驶能力。
正是这个数据库自治服务产品打动了杨航。
据杨航介绍,谊品生鲜的所有自研系统都基于云服务,所有的云服务都和阿里云深度合作。
谊品生鲜选择阿里云的原因有两个。第一个是谊品生鲜已经是阿里云IaaS用户。所有的硬件基础设施都在阿里云上,云数据库也能使用阿里云是最好的选择。
第二个原因更为重要。他们是看上了阿里云在云数据库方面的生态完整性。
杨航认为,数据库运维与管理的便捷性、总体拥有成本是选择哪个厂商的云数据库时必须要考虑的重要因素。
对于互联网公司或电商企业而言,他们不能在数据库运维方面投入太多人员,否则成本太高,也特别容易出问题。
杨航团队曾对国内市场上的数据库运维与管理工具做过详细比较,相对而言,阿里云DAS具有比较明显的优势。例如,其功能全面性比其他国内厂商好,控制台及账单功能比国外厂商好。
并且在合作的过程中,阿里云数据库对谊品反馈问题的处理效率非常高,并且产品质量非常有保障。谊品生鲜对阿里云的服务支持非常满意。
对于谊品生鲜这样的电商企业来说,数据库运维效率工具要能完全地将运维团队的工作流程和研发团队的开发流程结合起来。也即是说,阿里云DAS要和谊品生鲜内部效率平台结合起来,赋能给研发人员。例如,云上数据库出现了告警,DAS未来要能把问题直接转给相应的研发人员,从而提升效率。
按这种模式,以前他们处理一个故障平均需要10-20分钟,要人肉排查故障,应用了阿里云DAS之后,只需几分钟,问题就能得到定位和解决,效率提升非常明显。
正是借助数据库自治服务DAS,谊品生鲜自研系统的运维只需要几个人就能搞定。通过上云和深度使用云数据库,谊品生鲜总体数据库使用成本降低了40%~50%。
在中国软件网看来,谊品生鲜利用云原生技术、采用云数据库自研系统的实践意义还不仅如此。它最重要的是为同行们提供了在数字世界里应对未知性、掌握可控性的一个方法。
想要get谊品生鲜同款“自动驾驶神器”?
立即体验数据库自治服务DAS