刘振飞:做云计算比保障双十一要难得多

简介: 云计算其实是要将数据中心、网络、服务器、存储等硬件资源再加上操作系统、数据库等系统软件资源,打包成服务向全社会提供。中国过去多年追求核心高端基础的软硬件技术自主化,而现在不仅要掌握这些技术,还要用全新的服务模式售卖出去,其难度可想而知。与之俱来的是更重的责任,是对技术实力和管理运营服务水平更高要求。

做云计算比保障双十一要难得多

一年一度的双十一刚刚落幕,全天交易额571亿再次创下世界纪录。奇迹背后,是刘振飞和他领导下的阿里技术保障部(关于技术保障部的故事,请阅读《凌云》第4期中的文章《阿里技术保障部:阿里云的幕后英雄》)的保驾护航,经过多次历练,他们对于世界最大规模的促销活动已经轻车熟路,有了成体系的打法。

然而,同时也在负责阿里云基础设施的刘振飞一度非常困惑:淘宝、天猫、支付宝这么大的网站,我们可以把它的稳定性搞得很好,双十一这么大的活动,我们也能hold得住。为什么同一个平台,同一班人马,支撑云计算平台上面那些小得多的客户却不那么轻松呢?2014年10月的阿里云开发者大会上,刘振飞现场列举的几条用户投诉单非常直观地反映出目前云计算平台所面临的各种困难:

  • 不要重启我们的服务
  • 你们的这个机房为什么访问质量差
  • 你们能不能快点解决我们的问题
  • 我们家在做活动,你们怎么能当成攻击
  • 封源是打击敌人,封目标是坑爹啊

对此,刘振飞其实做过很长时间的思考,他在采访中特地总结了云计算的几点特殊性。

  1. 客户数量。云计算平台上的客户数量数以百万计(到2014年6月阿里云的客户已经超过140万),虽然规模远不如阿里内部客户,但这个数量对于平台是很大的挑战。每天如果有万分之一的客户有问题,那也是几百个问题,如果没有很好的对应的自动化流程,会让技术保障团队疲于奔命。
  2. 客户技术水平。之前淘宝和天猫等应用的体量大,系统架构做得好,在应用层面就屏蔽了底层基础设施各种可能发生的问题,可以让消费者和商家对底层问题无感知。云计算对外服务则大不一样,外部客户的应用类型千差万别,技术水平不尽相同,底层机房、服务器、网络、存储等硬件的小故障,都可能直接命中上层的客户业务应用,致使服务受影响。
  3. 对客户的了解。内部客户的各种业务活动技术保障部门是预先知道的,应用怎么写、架构也可以比较了解。很多时候可以针对性地做工作,防范各种可能的风险。双十一就是很好的例子,平台保障团队可以事先演练各种预案,做到万无一失。对于云计算的外部客户就做不到这一点,每天他们在做什么事情服务方是无法知道的。比如前面投诉单上出现的让人哭笑不得的一幕:客户的某次促销活动,被系统判定为DDoS攻击。

正是这些差异,使得之前在淘宝、双十一都行之有效的套路,放到云计算上却不那么灵了。归结为一句话就是:做云计算很难,要求比保障双十一更高

刘振飞说,云计算其实是要将数据中心、网络、服务器、存储等硬件资源再加上操作系统、数据库等系统软件资源,打包成服务,变成一种社会化资源,向全社会提供。中国过去多年追求核心高端基础的软硬件技术自主化,过程非常艰辛。而现在,不仅要掌握这些技术,还要用全新的服务模式售卖出去,其难度可想而知。提供服务比提供Windows那样的软件难度更大,它需要研发和运维成为一个有机的体系,而且规模必须很大。其中的核心,除了大量的资本与人力投入之外,至关重要的经验也必须经过时间积累。

刘振飞坦言,云计算服务最终只有少数大规模的互联网公司可以提供,美国是Amazon、微软和Google,中国现在阿里、百度和腾讯具备这种能力。“你根本没有做过,从来没有搞过那么大规模,相关的问题从来没有遇到过,怎么可能做好呢?”他举例说,像之前他们做的5000台集群直接拉闸断电测试,很多公司就根本做不了,因为他们连5000台机器都没有。云计算一定要上规模,没规模是不行的。这也是私有云只是过渡的原因。

与此同时,在阿里巴巴整个集团的愿景中,云计算已经被提升到非常关键的战略地位。一方面,阿里通过令人眼花缭乱的收购,已经进入零售、金融、物流、文化、娱乐、健康、无线甚至包括足球等诸多领域,这些新业务都将由阿里云支撑。另一方面,阿里云要面向全社会,面向整个实体经济,打造商业基础设施。包括政府机构、交通物流、金融体系、农牧水利、建筑工程、医药卫生等国计民生的系统都将有望运行在阿里云的平台上。这意味着阿里技术保障要完成转型,从单纯保障阿里业务,成长为技术驱动的商业基础设施服务商。

刘振飞他们将要面临的业务多样性将超出过去的想象。与之俱来的是更重的责任,是对技术实力和管理运营服务水平的更高要求。以前淘宝和天猫出问题,甚至双十一有问题,不过是用户买不了东西抱怨一下的事情,而未来,云计算将承担类似电网和电信运营商的社会责任,在台风、暴雪、地震等场景下如果掉链子,可能影响到许多人的生活甚至生命了。“其实这是让我非常恐惧的一件事情。云计算将要承载的东西意义太大了。”

在这样的大背景下,刘振飞在思考技术保障部的未来该怎么走。“我们这个部门,整个团队思想意识要快速扭转。以前我们自己开玩笑叫活在当下,说直白点,就只干一件事儿:维稳,一直在维稳,保证别出事儿。后来再加上一个双十一,就这两件事。而面临云计算、面临大数据的时候,我们需要大的组织性变革。简单说,就是‘疯狂搞人’、‘疯狂搞技术’。”

所谓“疯狂搞人”,就是大规模招聘高端人才。阿里技术保障部原有的人力大多在传统的网站稳定性上,而如何做好服务商,服务运营、业务运营、系统研发和运营能力还比较弱,赶不上公司发展的要求。刘振飞列了一个巨大的招聘计划,其中满眼都是高级专家以上的岗位。他补充说,这些岗位除了锁定国内的顶尖人才,还需要引入海外人才。目前阿里技术保障已经在硅谷成立研发团队,加强计算、存储、网络等基础技术的研发实力,人才吸引的重点也放在了美国几大互联网巨头身上。而技术保障部下一步需要哪些能力呢?

“首先,我们需要很强的运营能力。”刘振飞拿出事先精心准备的演讲稿,为我展示出一幅宏伟的发展蓝图。运营能力包括三点。

  1. 第一是从传统运维到商业市场的考虑。比如每年花这么多预算对不对,整个运营体系怎么优化,从云计算到采购、谈判、供应链,然后下单、装机器,然后上架,这个链条会对云计算的成本和弹性最终对平台竞争力产生巨大影响。这本身就是需要算法和系统来优化的。
  2. 第二是数据驱动。所有事情都要用大数据来驱动、来指导我们的方向。比如服务器的数量,多少是合理的,服务器的负荷每天有波峰波谷,怎么优化,其实有很大空间。
  3. 第三是需要很强的技术能力,从数据中心的风火水电(空调、电力和制冷等)开始做起,到网络,到服务器,到操作系统,到数据库,一直到中间件,云计算的架构,所有的东西都要加强,要大胆创新,走到底层,走到业界前沿去。这就是所谓“疯狂搞技术”。

为了尽快完成转型,阿里技术保障今年也进行了组织架构重组,新增了系统研发、性能与容量、平台与工具等部门,加强了技术规划、研发和运营方面的投入,而原来的重点职能(维稳和双十一)只占50%左右。新增的职能不少是由部门中资深的技术专家承担,首先给他们减负,从日常业务中抽离出来,既不用管维稳,也不用直接负责双十一保障,让他们专心思考。有的负责前沿技术,有的承担创新任务,有的要将规范、流程、方法工具沉淀下来。

刘振飞也强调,阿里整个集团并不是只有技术保障部在做平台性的、系统技术的工作,包括阿里云本身、支付宝和淘系公司都有很多同事在一起努力,大家共同构成了对外的阿里平台。比如数据库层面,他们的计划是逐步用自研数据库OceanBase替代商业解决方案,而OceanBase的核心团队就属于支付宝。本次双十一OceanBase承担了10%的流量,顺利通过大考,下一步的计划就是进一步扩大应用范围,最终OceanBase会通过阿里云向社会提供产品化的服务。

在阿里技术保障部的办公区,我看到几个易拉宝,展示了他们的一些创新工作,从定制自研的AliRack整机柜服务器到生态环保数据中心。我知道,这些仅仅是一个开始。

目录
相关文章
|
8月前
|
安全 网络安全 云计算
云计算与网络安全:技术融合下的信息保障
当今数字化时代,云计算与网络安全已经成为关乎国家和企业未来发展的重要议题。本文将深入探讨云服务、网络安全和信息安全等技术领域的最新发展,以及如何在技术融合的大背景下保障信息安全。
92 3
|
6月前
|
存储 安全 网络安全
云计算与网络安全:技术融合与信息保障
在当今信息化时代,云计算技术作为信息技术领域的重要组成部分,与网络安全息息相关。本文从云服务架构、网络安全挑战、以及信息安全保障等角度出发,探讨了云计算与网络安全的紧密关系及其技术融合的重要性。通过分析当前技术趋势和挑战,提出了一些应对策略和未来发展方向,旨在为技术专业人士及相关从业者提供深入的思考和参考。【7月更文挑战第4天】
78 0
|
8月前
|
监控 安全 网络安全
云计算与网络安全:保障云服务的关键策略
【5月更文挑战第31天】在数字化时代,云计算为企业提供了灵活性、可扩展性和成本效益,但同时也引入了新的安全挑战。本文深入探讨了云计算环境中的网络安全和信息安全的重要性,分析了当前云服务面临的主要安全威胁,并提出了一套综合性的安全策略。这些策略涵盖了数据加密、身份验证、访问控制和持续监控等方面,旨在帮助组织在享受云计算带来的便利的同时,确保其资产的安全。
|
7月前
|
存储 安全 网络安全
云计算与网络安全:技术融合与信息保障
随着信息技术的快速发展,云计算作为一种革命性的计算模式已经深入各行各业。然而,云计算的普及也带来了网络安全的挑战,如何在信息共享和隐私保护之间找到平衡成为了云计算发展的关键问题。本文探讨了云服务的技术特点、网络安全的挑战及其解决方案,以及信息安全在这一背景下的重要性和实施策略。
78 0
|
8月前
|
监控 安全 网络安全
云端防御策略:保障云计算环境下的数据安全与完整性
【5月更文挑战第27天】 随着企业数字化转型的加速,云计算已成为支撑现代业务架构的关键平台。然而,云服务的广泛采用也带来了前所未有的网络安全挑战。本文深入探讨了云计算环境中面临的主要安全威胁,分析了云服务模型(IaaS, PaaS, SaaS)特有的风险点,并提出了一系列创新的安全策略和最佳实践,以增强数据安全性和确保信息完整性。我们重点讨论了多因素认证、加密技术、入侵检测系统、安全配置管理以及持续监控的重要性,旨在为组织在迁移和运营云基础设施时提供全面的安全指导。
|
8月前
|
监控 安全 网络安全
云端守护:云计算环境下的网络安全与保障策略
【5月更文挑战第27天】在数字化浪潮推动下,云计算以其灵活性、成本效益和可扩展性成为企业信息技术战略的核心。然而,数据存储和服务交付的远程化也带来了新的安全挑战。本文将探讨云计算环境中面临的主要网络安全问题,分析潜在的安全威胁,并提出一系列切实可行的保护措施和技术,以增强云服务的安全性。我们将重点讨论包括身份验证、数据加密、访问控制以及持续监控在内的策略,并强调综合安全框架的必要性,以实现对云资源的全面保护。
76 2
|
8月前
|
存储 安全 网络安全
云计算与网络安全:保障信息安全的新挑战与应对策略
随着云计算技术的不断发展,网络安全已成为企业和个人关注的焦点。本文将探讨云计算环境下的网络安全挑战,分析信息安全面临的新形势,并提出相应的应对策略。
436 1
|
算法 程序员 云计算
6月28日云栖精选夜读丨优酷世界杯的好后卫:云计算成为靠谱的流媒体保障体系
本文原标题:用球迷的方式,告诉你为什么这届世界杯不卡了 世界杯期间,什么事最痛苦? 如果有某件事比主队输球还要难受的话,那大概只有隔壁宿舍你的情敌疯狂大叫“进了进了进了”的时候,你的电脑上一个小圆圈在滚动……说真的兄弟,这种情况下还能忍,全校都敬你是条汉子。
2662 0
下一篇
开通oss服务