猿辅导,撑住了。
2020年1月,猿辅导正式对外宣布全球累计用户数量突破4亿,这家国内K-12在线教育领域首个独角兽公司,从猿题库、小猿搜题APP一路走来,如今已经成为拥有猿辅导(网课)、猿题库、小猿搜题、小猿口算、斑马AI课等多元化产品的在线教育企业,教学内容覆盖从学龄前、小学、初中到高中的完整K12阶段,用户涉及儿童、中小学生、家长和老师等各类人群。
1月17日,猿辅导迎来了“破4亿”之后的第一个挑战:掌上高铁APP猿辅导专区当日正式上线,这一内容涵盖中小学全科的试听课、重难点知识讲解的贴心旅程服务,得到了春运中父母们普遍欢迎,也正是在这一天,2020年春节的农历小年,全国铁路大约发送旅客1200万人次,猿辅导的“高铁在线课”平稳度过了上线即峰值的第一天;
短短几天之后,毫无预兆的挑战扑面而来:新冠肺炎迅速取代春运成为这个冬天最受关注的话题。
疫情之下,为了避免大规模疫情爆发,教育部及各级教育主管单位宣布各高校及中小学延期开学,基于保障原计划开学日到实际开学日之间的教学不中断、减缓开学后的教学压力的考虑,教育部提出“停课不停学”的应急措施,鼓励各地尽可能利用互联网和信息化教育资源为居家学生提供学习支持。
猿辅导立即响应“停课不停学”的号召,宣布在寒假延长期内向全国中小学生提供免费直播课,其中包括巩固预习课、大师人文课等70余门综合素质提升课程,不仅覆盖从小学到高中全年级全科目,更邀请到了纪连海、康震、张召忠等众多学者大师。
猿辅导免费直播课一经公布,预约人数就连创新高:在2月3日开课首日,创下全国500万中小学生同日在线听课的在线教育行业记录,而到2月6日,猿辅导免费直播课的报名人数更是超过1000万。
撑住了500万中小学生同日在线听课的猿辅导,并没有停下给自己“立flag”的脚步:2月6日起,猿辅导陆续与“学习强国”、人民日报新媒体、“央视频”平台等官方合作伙伴联合推出免费直播课,通过多个用户量级上亿的平台为全国中小学生提供学习支持,一些著名中学和地市教育局也陆续加入到推荐名单中,在连续不断到来的高峰压力下,猿辅导还是撑住了。
从用户量破4亿、春运期间登录掌上高铁APP,再到500万中小学生同日在线免费直播课,又接连撑住三大亿级体量平台的流量引入,在这个特殊寒假,猿辅导撑住了一轮又一轮的流量高峰,在这背后,这家被猿辅导联合创始人李鑫称之为“对在线学习方向有执念”的公司,是如何一路“升级,打怪”并在今时今日一轮又一轮流量高峰汹涌而来之时撑住的?
猿辅导的选择:
把信任交给队友,把峰值交给云
为了在免费直播课带来的业务高峰中给中小学生连续、可靠的提供优质课程内容,全面保证疫情期间在线课程的内容质量和运行流畅,猿辅导内部启动线上办公的快速响应机制,对教学、服务、技术、平台、服务等多个业务端口进行重点工作部署,并动员了 356位主讲老师、412位助教老师、151位技术人员以及更多相关工作人员持续“作战”。
与此同时,猿辅导的技术团队全力投入到业务保障中来,从全链路监控,容量评估,在线容灾,故障演练等方面全面保障系统运行,并制定了四条业务高峰期的应对措施:
第一、建立全链路监控大盘,全面监控学生用户使用情况以及系统支撑情况,一旦报警,出发相关策略,动态扩容以及通过技术手段提升学生上课体验;
第二,构建容量评估模型,结合业务数据和系统压测结果,建立模型,充分评估资源,智能进行扩容;
第三,全力确保在线容灾保证高可用。一旦发生服务大面积不可用,我们可以实现秒级切换,让问题用户无感知的快速切换到灾备服务;
第四,依靠在线课堂长期固定下来的故障模拟演练,模拟生产上业务高峰各种突发业务场景,保证系统高并发以及高可用。
但相比平时约10倍的业务流量峰值,仍然让猿辅导感受到了深深压力。因此,针对疫情高并发的流量,猿辅导技术团队决定,“把信任交给队友,把峰值交给云”,与已经合作了多年的阿里云支持团队沟通,针对业务系统以及在线课堂进行快速、大规模扩容,并通过云上全方位技术手段保障系统可用性、可靠性、安全以及稳定性。
一场与时间的赛跑就此展开。第一次云资源扩容发生在凌晨12点,猿辅导技术团队在向阿里云支持团队提出“盘点云资源库存”需求并快速得到计算、存储、网络资源存量盘点报告之后,立即决定对云服务器、存储、数据库和带宽进行紧急扩容。凌晨五点左右,阿里云的云资源紧急扩容完成,与猿辅导团队一起,迎接了当天全国百万中小学生在线听课的挑战。
截止到2月10日,猿辅导在阿里云上的资源已经进行了3次扩容,总体云资源的扩容规模和效率史无前例。与此同时,在阿里云支持团队的协助下,猿辅导技术团队梳理了包括直播课、小猿口算等业务全链路上存在的资源和性能瓶颈,并对系统架构进行了一定优化和调整,特别是针对与“学习强国”、人民日报新媒体、“央视频”平台等合作的对外公开课平台,构建了支持峰值流量的新架构体系。
为什么敢“把信任交给队友,把峰值交给云”?
猿辅导之所以在业务关键期能够放心的“把信任交给队友,把峰值交给云”,与两个关键因素密切相关:
首先,阿里云在支撑猿辅导的业务峰值,缓解业务压力,保证在线教育服务质量上,早已历经考验。
2015年,猿辅导部分IDC向公共云迁移,使用云IT基础设施、云上增值服务和大数据和人工智能平台,逐步在云上建立起一套完整的业务支撑和运营分析系统。
随着线下辅导班的收紧和教师在线授课的概念获得家长认同,猿辅导的中小学在线互动辅导直播课业务迎来发展黄金期,特别是2018-2019年,猿辅导APP上一线主讲老师直播授课需求井喷,成为猿辅导的核心业务,但实时直播对猿辅导的基础设施支撑能力也提出了严峻的挑战:
1、承载实时直播的网络要做到高并发、低延迟、高带宽、高稳定性,确保上课期间不延迟不卡顿不断线;
2、由于授课教师和学生在地域上在全国广泛分布,存在大量跨市、跨地区甚至跨省的连接场景,这就意味着实时直播必须满足与高清视频会议类似的网络质量,避免因为网络抖动发生的掉线;
3、猿辅导的在线直播课并非简单的“课程播放”,存在着包括提问回答、训练测验等在内多种交互互动,这意味着传统的内容分发技术不可能满足猿辅导的业务需求,需要有强大的基础设施和技术支持;
为此阿里云有针对性的为在线直播课业务设计了解决方案,整合全网IT资源,提供全域覆盖、全技术栈覆盖的用户服务端到端质量保障。不仅优化了业务支撑体系的技术架构,还极大简化了猿辅导搭建和使用的技术门槛,在优化业务质量和综合成本的同时,也提高了其IT建设和运维效率。
阿里云的解决方案既保证了猿辅导互动直播课的实时直播和交互互动的网络稳定和计算需求,又借助其全域覆盖、多层渗透的特点,支持猿辅导在全国各线城市(不仅包括2、3线城市,甚至是4线及更深度的市场)的课程服务。不仅如此,阿里云提供的云基础设施和服务所提供的网络质量、硬件质量、服务质量非常优质,通过阿里巴巴最佳实践的加持,最大限度保证了在线课堂连续的沉浸式体验。
技术是底座,服务是保障,在云产品可靠性之上,客户支持团队成为猿辅导与阿里云紧密联系的另一个关键因素:为了更好的服务猿辅导,确保在线教育教师、学生和家长的满意度,阿里云组成了一个涵盖技术、服务等多个领域的专属团队,这个小组提供了7 x 24小时的跟踪服务:
一方面,这个专属团队确保猿辅导得到最可靠的云资源支持以及全方位的安全体系,第一时间响应客户需求,及时在疫情期间免费直播课等大业务场景峰值到来前进行深度有效的沟通;
另一方面,持续测算猿辅导的云资源池的“水深(资源使用情况和储备情况)”,预测猿辅导业务爆发对云资源进行的消耗并进行有效保障,用科学的评估方法预估客户业务量以及需要资源的用量,在及时服务的同时,提供科学有效、有据可查的云资源、产品与技术服务;
云上所展现出来的技术优势及其对核心业务的高并发支撑,阿里云“F4团队”所体现出来的专业服务水平让猿辅导可以安心地将业务交付给云、将峰值交付给阿里云,不仅如此,猿辅导也将在线教育业务创新的“后背”,留给了阿里云。
把在线教育业务创新的“后背”留给阿里云
从2012年成立,到2015年开始商业化,从最初的拍照搜题工具,到答疑讲解视频,再到中小学在线辅导直播课,猿辅导在三年内完成了从“工具”到“内容”再到“产品”的发展进化,但猿辅导并未将自己仅仅局限于一家在线教育平台型或者APP公司,而是定位于一家科技公司,在2014年成立人工智能研究院,开始一方面在内部探索和孵化AI课程,另一方面将语音识别、手写识别等技术,应用到拍照搜题、英语作文智能批改、古诗文助手等产品功能当中。
随着猿辅导在技术上探索的逐渐深入,不仅成功孵化出小猿口算这一网红APP,更开创了在线教育大规模在线模考先河:
小猿口算是覆盖学龄前及小学各年龄段学生的数学口算练习及批改APP,使用人工智能图像识别技术,可以做到1秒检查数学作业,支持多种题型,目前横式识别准确率高达99.9%以上,每日批改题目数超过2.5亿。
小猿口算的成功让教师、家长感受到了AI价值,学生也可以在轻松环境中手写作答,并通过自动收集错题,更有针对性的练习,快速突破数学难点、易错点,但这对猿辅导AI基础设施提出了严峻挑战:学生的口述答题、手写答题(答题图像)能够准确判断对错,需要大量的训练和推理工作。
不仅如此,小猿口算的成功也带来了业务上的巨大峰值:小猿口算现在每日在线练习题目数超过2500万道,已服务3000多万小学生,无论是答题图像识别,还是进一步的训练和推理,AI算力的需求被进一步放大。
为了缓解猿辅导AI技术团队在人工智能算力、优化GPU资源利用率以及进一步提升研发团队AI技术能力等方面的诉求,阿里云提供了具备超高计算性能的GPU服务器,甚至从无到有的提供指定配置的GPU服务器,保障了小猿口算等AI算力需求的暴增。
除此以外,在GPU算力优化,以及利用AI辅助进行教学,提升教学质量,例如课堂质量监控等方面,阿里云的AI团队也与客户通过技术共创的方式,在互通有无中帮助了猿辅导AI团队的迅速发展。
大规模在线模考是猿辅导的杀手锏。早在2018年5月,猿辅导就组织了13万学生参加的“高三英语在线模拟考试”, 考试内容涵盖从听力到作文全部环节,两个小时的考试中,学生通过手机答题,考试结束后系统自动收卷并完成批改、评分:这次考试,不仅从听力到作文,一比一还原了英语全国I卷的题型和题目次序,系统批改用时不到5分钟,就已形成考生个人成绩报告和诊断报告,让考生更及时、更全面的获得成绩评价反馈。
在线模考这一极具特色的功能受到教师和家长的广泛认可,用户量每年飞速增长,其原有以MySQL为基础的自建数据库解决方案已经捉襟见肘,CPU利用率已经达到了70%以上。
在周末或者在线模考的时候,同时在线人数会瞬间激增,而数据库已经难以应对这样的访问峰值,因此会有大约三分之一的学生无法正常进入在线考试,答题的延时也比正常情况放大了数倍,使得学生用户的答题体验急剧下降。
为了让这一特色功能继续成为猿辅导的王牌,猿辅导急需一个能够满足业务高速发展需求、管理简单、避免人力成本激增的解决方案,但这并非易事:仅就斑马AI课(原斑马英语)来说,其课堂测验及试题解读,就面临着每秒几十万学生交卷、IOPS峰值高达百万的挑战。
猿辅导的选择是阿里云自主研发的云原生数据库:这一数据库解决方案不仅具有较高的性能,且能够MySQL实现100%兼容之外,更具有弹性伸缩能力和容量最高可达100T的能力,猿辅导借助其快速弹性的能力,在业务的高峰期临时增加数据库配置和集群规模,与之前的方案相比整体成本大大降低,并且解决在线交卷时出现的用户高并发访问所造成的读写争用和高峰值I/O的问题。
猿辅导将数据库迁移到阿里云之后,在业务平峰的时候,能够同时支撑大体量学生在线进行课程学习,并且业务根本不会感觉到压力。而当应对业务高峰的时候,只需要提前一小时进行准备,就能够将业务能力临时提升至足以应对100万学生并发访问的等级。
而且,由于云原生数据库资源可以按需弹性伸缩,因此在猿辅导从MySQL迁移之后节省了只读库的容量,节省了近70%的数据库费用支出。
阿里云云原生数据库在猿辅导的成功实施,也给了这家总是让人出乎意料的在线教育企业更大的信心:猿辅导在新冠肺炎疫情期间宣布,将于2月15日14点,开启一场“全国百万人同时在线的英语模拟考试”,即“百万人在线大模考”,以高性能弹性可扩展的PolarDB数据库为基础,结合猿辅导AI技术团队创新的全卷自动批改、智能诊断分析、全国排名预测等AI能力,猿辅导将创造一场全国百万学子同场PK的在线模考,创造同时在线人数最多在线模考的行业记录。
无论是网红APP小猿口算背后的阿里云AI算力与AI技术,还是“百万人在线大模考”背后的云原生数据库解决方案,抑或是新冠肺炎疫情期间的免费直播课,猿辅导将业务的峰值留给了阿里云,更将自己创新的“后背”留给了阿里云,并成为一家以创新科技为驱动,以云上资源和技术为基础的在线教育独角兽。
如今,猿辅导已经独有国内百亿级K12学习行为数据库,借助云计算、大数据、人工智能等数字科技,猿辅导将有机会在充分挖掘其74亿次学生答题行为数据、284亿次题目搜索数据的价值基础上,为用户提供网课、智能练习、难题解析等多元化的智能教育服务,围绕同一个学生建立个性化的学习诊断和成长档案、完成学习闭环,帮助广大学生系统性、高效率地完成学习,而更重要的是,在智能手机、4G网络已经普及,优质教育资源却存在稀缺和分配不均的今天,猿辅导将有可能在云之上,为教育公平化、普惠化做出极为重要贡献。
作者:阿里云研究中心高级战略专家 崔昊