携手阿里云,成为更好的Video++

简介: 2015年7月,video++开放平台面向市场,旨在为视频平台提供视频内AI和互动系统的技术,一些中小型平台开始陆续接入我们的服务。 起初,我们采用的是国内某家云厂商,但是随着公司不断发展,对云的要求也越来越高,单纯的一个云主机已经不能满足我们的需求。

本文正在参加“最佳上云实践”评选,来给我们投票吧:https://yq.aliyun.com/activity/158(编号34)

2015年7月,video++开放平台面向市场,旨在为视频平台提供视频内AI和互动系统的技术,一些中小型平台开始陆续接入我们的服务。

起初,我们采用的是国内某家云厂商,但是随着公司不断发展,对云的要求也越来越高,单纯的一个云主机已经不能满足我们的需求。随着接入我们技术的平台流量不断增大,当时用的某云厂商的产品线的不足的问题也开始暴露出来。这个时候我们也开始接触了阿里云的产品,发现阿里的各个产品都是数据打通的,可以相互串联起来,形成一个闭环的生态。此时,由于业务的快速增长,我们也希望公司可以把更多的精力投入到业务产品研发中,而不是基础设施建设中。
2016年春节前后,芒果TV的爸爸去哪儿节目开播,全面启用了video++的视频互动产品服务。当时节目的月播放量突破十亿,周末峰值时间的视频内互动并发破百万。因为流量和并发数突增数十倍,系统开始出现严重异常,各种接口不通,导致芒果tv灵犀互动有将近十几分钟的响应异常和素材错误,经过排查,发现负载均衡带宽被打满,另外redis缓存过载,部分请求击中到mongodb数据库,后续我们立即优化了缓存策略,避免再次出现这种风险。后续我们的产品又新增了海量推送的需求,发现目前所用的某云厂商没有成熟的mqtt消息队列产品,对我们来说迫在眉睫的弹性伸缩产品也还没上线。综合这些原因,我们终于开始考虑要更换云厂商了。

但是切换云服务商对任何一家技术公司而言都是伤筋动骨的大手术,所以我们还没有完全下定决心,而是先优化我们自己的业务架构,修改缓存策略、做二级缓存、添加从库、自建MQ服务器等多种手段来进行弥补,来先满足目前的用户需求,但是成本大,非常不灵活,流量低谷时形成巨大资源浪费。
2016年5月,在充分调研、测试和压测过国内外各大云厂商的产品和技术能力后,我们正式决定迁移到阿里云。我们利用了阿里云成熟的负载均衡,弹性伸缩,MQTT推送,而且这些都是按量付费,十分符合我们的业务场景。上阿里云一个月后,系统逐步稳定下来。2016年8月,我们的月播放量已经突破20亿,国内的主要直播平台也纷纷开始全面上线我们新发布的直播互动系统。而直播的互动需求远超点播,互动并发的峰值倍增也是非常明显的。即使是阿里云的MQ服务器也开始吃力起来,初期每次高峰前阿里云的同学都会配合我们应对高峰流量,当时直播在线用户峰值突破到100W,阿里云也支撑了下来。

另外,我们之前的日志搜集系统是采用 flume+kafka,业务流量是波动的,flume和kafka的压力也是波动的,如果准备大容量的集群,会出现成本浪费,我们开始尝试了阿里的日志系统,替代了原有的架构,阿里的日志系统结合我们的docker部署,使用方便,功能多样,从日志采集到最终的大数据分析,形成闭环,而且无需考虑日志丢失和系统的吞吐能力,日志存储到哪里的底层实现,节省了运维成本和服务器资源成本,对于我们这种流量波动大,有弹性日志搜集的创业公司来讲,的确很方便。
2016年9月,在斗鱼、战旗、龙珠、熊猫陆续上线之后,全民直播也开始进行全平台上线的测试,上线当天实时在线数超过200万,阿里云的MQ服务也开始出现丢消息推送缓慢或推送不成功的现象,发生了迁移到阿里云之后的首次异常状况。值得欣慰的是,阿里云当天晚上就派出技术同学紧急修复和优化。紧接着,MQ的产品经理和开发同学也专门从杭州来到上海,与我们的技术团队当面讨论优化方案,并且很快落实,从此之后,我们的系统再也没有因为高并发而出现过异常。
阿里云让创业公司有了可以支撑海量并发的能力,帮助创业公司快速成长的时候,不用花精力投入到基础建设,创业公司再也不会由于系统的吞吐能力不足而流失用户了。在我们上到阿里云到现在近一年的时间里,这样的技术服务其实也并非偶然,阿里云的行业总经理宋涛,商务经理古莜、袖手,架构师空吾,以及十几位技术专家经常来到我们公司进行交流,答疑解惑,客户第一的服务意识贯彻的很好,也是我们需要学习的地方,往后也将继续携手阿里云,成为更好的Video++。
78e3a5abae913f3baecc93d47a5935250af274aa
相关实践学习
快速体验阿里云云消息队列RocketMQ版
本实验将带您快速体验使用云消息队列RocketMQ版Serverless系列实例进行获取接入点、创建Topic、创建订阅组、收发消息、查看消息轨迹和仪表盘。
消息队列 MNS 入门课程
1、消息队列MNS简介 本节课介绍消息队列的MNS的基础概念 2、消息队列MNS特性 本节课介绍消息队列的MNS的主要特性 3、MNS的最佳实践及场景应用 本节课介绍消息队列的MNS的最佳实践及场景应用案例 4、手把手系列:消息队列MNS实操讲 本节课介绍消息队列的MNS的实际操作演示 5、动手实验:基于MNS,0基础轻松构建 Web Client 本节课带您一起基于MNS,0基础轻松构建 Web Client
目录
相关文章
|
8月前
|
数据采集 机器学习/深度学习 人工智能
面向 MoE 和推理模型时代:阿里云大数据 AI 产品升级发布
2025 AI 势能大会上,阿里云大数据 AI 平台持续创新,贴合 MoE 架构、Reasoning Model 、 Agentic RAG、MCP 等新趋势,带来计算范式变革。多款大数据及 AI 产品重磅升级,助力企业客户高效地构建 AI 模型并落地 AI 应用。
|
6月前
|
数据采集 自动驾驶 Java
PAI-TurboX:面向自动驾驶的训练推理加速框架
PAI-TurboX 为自动驾驶场景中的复杂数据预处理、离线大规模模型训练和实时智能驾驶推理,提供了全方位的加速解决方案。PAI-Notebook Gallery 提供PAI-TurboX 一键启动的 Notebook 最佳实践
|
前端开发 iOS开发
canvas生成图片模糊的解决方案
canvas生成图片模糊的解决方案
2281 1
canvas生成图片模糊的解决方案
|
数据安全/隐私保护 Windows
Windows 技术篇 - 远程桌面连接不保存密码、每次都要输入密码问题解决
Windows 技术篇 - 远程桌面连接不保存密码、每次都要输入密码问题解决
2756 0
Windows 技术篇 - 远程桌面连接不保存密码、每次都要输入密码问题解决
|
6月前
|
机器学习/深度学习 人工智能 分布式计算
Post-Training on PAI (1):一文览尽开源强化学习框架在PAI平台的应用
Post-Training(即模型后训练)作为大模型落地的重要一环,能显著优化模型性能,适配特定领域需求。相比于 Pre-Training(即模型预训练),Post-Training 阶段对计算资源和数据资源需求更小,更易迭代,因此备受推崇。近期,我们将体系化地分享基于阿里云人工智能平台 PAI 在强化学习、模型蒸馏、数据预处理、SFT等方向的技术实践,旨在清晰地展现 PAI 在 Post-Training 各个环节的产品能力和使用方法,欢迎大家随时交流探讨。
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。
|
机器学习/深度学习 人工智能 分布式计算
阿里云人工智能平台PAI论文入选OSDI '24
阿里云人工智能平台PAI的论文《Llumnix: Dynamic Scheduling for Large Language Model Serving》被OSDI '24录用。论文通过对大语言模型(LLM)推理请求的动态调度,大幅提升了推理服务质量和性价比。
|
存储 安全 Java
SpringBoot整合SpringSecurity完整教程
SpringBoot整合SpringSecurity完整教程
SpringBoot整合SpringSecurity完整教程
|
移动开发 数据可视化 搜索推荐
MindManager2023软件功能特色介绍
MindManager思维导图软件是一款创造、管理和交流思想的思维导图软件,界面友好功能强大,头脑风暴、会议管理及项目管理工具帮您轻松创建思维导图,有序组织思维、资源和项目进程。
1114 0
|
存储 Dubbo Cloud Native
一边在大厂一线搬砖、一边操着 CTO 的心搞开源:一位普通中年程序员的开源十年路
“不管哪个赛道,不专注搞个三五年,跳来跳去,不会有啥出息。”
412 0
一边在大厂一线搬砖、一边操着 CTO 的心搞开源:一位普通中年程序员的开源十年路