如何使用云原生数据湖,助力线上教育行业逐步智能化

简介: 阿里云基于对象存储OSS构建的数据湖解决方案,帮助企业有效消除数据孤岛的现象,让数据的价值真正被利用起来。

行业综述

线下教育行业因疫情受挫,线上教育却逆势增长
随着90年代互联网的引入,在线教育产品也依托于互联网诞生。随着互联网技术的发展,在线教育产品也开始了出现新的模式。在线教育从最初单纯的文字形式,开始往图片、音频方面开始发展。加上这几年直播技术的发展和人工智能等技术在在线教育的应用,在线教育成为今年疫情影响下,为数不多能实现逆势增长的行业。
由于疫情的影响,教育行业根据中央疫情防控工作部署,直接暂停各类线下授课,不举办任何形式的聚集性培训活动。在此期间各类线下培训机构遭受重创,某知名线下教育机构上半年营收同期降低30%,净亏损将近1亿。
和线下教育不同的是,线上教育行业整体呈现逆势增长的态势,根据数据显示,2020年中国在线教育用户规模预计将达到3.51亿人,预计市场规模将达到4858亿元。同时由于疫情的影响,三月份在线教育市场渗透率更是高达85%,增长率是2019年的5倍以上。

行业发展方向

在线教育向数据化发展,行业逐步智能化
教育在线化也进一步促进了数据化的发展,内容作为教育企业的核心资产,无论是数据化程度还是数据化规模都不断提升;同时用户使用时长的提升,又为教育AI提供了大量源数据。据统计今年3月份在线教育用户日均在线时长,超过200万天。如此海量的数据为行业的智能化发展提供了良好的土壤,推动了教学内容、课程营销、师资管理、质量评估等智能分析的发展。
7.png

面临的痛点

行业飞速发展,数据处理成难题
行业飞速发展,用户大量涌入,数据暴增,这就对企业在业务与数据多样性方向带来了挑战。
首先由于在线教育行业的特殊性,业务量会随着学校是否放假而产生波动,基本呈现“春秋高、寒暑低”的季节性规律。同时由于此次疫情事件,让整个行业重新认识到突发性业务的威力,因此如何更平滑地应对业务波动,对企业来说仍然是一个非常重要的挑战。
其次大量用户涌入平台,势必会带来大量的用户行为数据,数据的增加自然会带来存储成本的增长。但数据是有价值的,利用好数据,将会为企业带来更多的客户以及更高的转化。因此如何将这部分数据沉默成本与数据的价值相平衡,对企业来说也是一个巨大的挑战。
另外在线教育往往会涵盖多个细分领域,经常会包括学前教育、K12、语言类、职业类、高等教育等。教育机构往往会涉及到多应用、多教学场景,从而产生繁多的数据,因此如何应对多类型的数据存储,对于平台方来说也是一个不小的挑战。
8.png

教育行业数据湖解决方案

构建统一的在线教育数据湖,让数据的价值真正得到利用
基于以上问题,我们可以构建一个统一的在线教育数据湖。阿里云基于对象存储OSS构建的数据湖解决方案,帮助企业有效消除数据孤岛的现象,让数据的价值真正被利用起来。
9.png
首先阿里云基于云存储构建的数据湖天然具有很好的弹性伸缩能力,特别是在阿里云的节点及规模优势基础之上,能够轻松应对业务指数级的扩容需求,平滑应对业务各类型波动及峰值。
其次,阿里云对象存储OSS支持标准、低频、归档三种存储类型,覆盖热、温、冷的数据场景,结合生命周期管理功能,可以自动实现对数据的冷热分层,很好实现对数据存储的成本的管理。
在此基础上,DLA提供的弹性计算能力,Serverless SQL(Presto)和Serverless Spark双计算引擎,快速搭建业务分析系统,并且帮助用户轻松应对波峰波谷的压力,最大限度降本增效。
最后在应对丰富的数据类型上,面向教学场景的教学资源数据、教学过程数据、教学评价数据、教学行为数据;面向结构化或非结构化数据;面向音视频数据、各应用数据、日志数据等,都可以通过基于OSS的数据湖沉淀,并进行统一的存储。
10.png

最佳实践

客户介绍:
该客户需要可发内容资讯APP,为用户提供感兴趣、有价值的个性化内容,致力于让用户的阅读更有价值,因此个性化推荐就成为其产品重要的核心能力。

遇到的问题:
1、随着业务多年的发展,存储数据量规模已经达到百PB左右,数据在产生阶段会有比较密集的访问,随着时间的增长,数据的访问会逐渐趋冷,多年累积的冷数据已经对集群容量产生了极大压力

2、客户原计划通过扩大集群规模,去支撑冷数据的持续增长,但随着数据规模持续增加,让集群扩容难度大幅度提升。另一方面,扩容的服务器的计算资源利用率较低,无法形成资源的充分利用

数据湖解决方案
1、数据湖解决方案,可为用户提供数据冷热分层的功能,积累的冷数据被统一迁移到阿里云对象存储OSS,新产生的热数据保存在HDFS集群,热数据经过一段时间逐渐趋冷后,就会定期迁移到对象存储OSS进行冷处理

2、阿里云对象存储OSS对于Hadoop生态的支持特性,原有计算任务只需简单调整访问地址就可以按照原有方式运行,让计算任务能够平滑迁移到数据湖运行。对于存储到OSS冷数据,客户通过OSS Lifecycle机制,定期将一部分冷数据进一步深度转化为OSS归档类型,持续优化冷数据存储成本,达到降本增效

达到的效果
1、OSS提供业内最丰富的API接口,帮助客户将海量数据从其他从各个不同数据源轻松迁移到OSS
2、客户在OSS的基础上,还采用阿里云的日志服务,一站式解决日志采集、处理、查询、投递的各种难题,甚至还可以通过混合云存储阵列打通云上线下数据的一体化
3、数据湖消除了客户之前存在的数据孤岛现象,支持各种计算引擎的直接对接,存储与计算解耦合的架构,能够更容易使用弹性计算和serverless化的云服务,让数据分析和访问无处不在

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
相关文章
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
弹性计算 Cloud Native Serverless
云原生应用示例:智能物流管理系统
在电商行业的快速发展中,某企业借助阿里云服务构建了一个云原生智能物流管理系统。此系统基于微服务架构,利用ECS、Kubernetes、ESS及RDS等服务来支撑其核心功能,并采用Serverless函数计算FC处理前端需求,配合消息队列MQ确保通信顺畅。ARMS的应用实现了性能监测与故障快速响应。同时,通过PAI分析数据以提高物流效率,OSS与CDN则优化了文件存储与全球访问速度。此外,系统还整合了Docker及GitLab CI/CD以支持快速迭代,并通过WAF、SLS等工具保障了安全性和合规性,整体上提供了高效、智能且低成本的物流解决方案。
419 7
|
11月前
|
运维 Cloud Native 开发工具
智能运维:云原生大规模集群GitOps实践
智能运维:云原生大规模集群GitOps实践,由阿里云运维专家钟炯恩分享。内容涵盖云原生运维挑战、管理实践、GitOps实践及智能运维体系。通过OAM模型和GitOps优化方案,解决大规模集群的发布效率与稳定性问题,推动智能运维工程演进。适用于云原生环境下的高效运维管理。
449 8
|
11月前
|
人工智能 分布式计算 Cloud Native
云原生数据仓库AnalyticDB:深度智能化的数据分析洞察
云原生数据仓库AnalyticDB(ADB)是一款深度智能化的数据分析工具,支持大规模数据处理与实时分析。其架构演进包括存算分离、弹性伸缩及性能优化,提供zero-ETL和APS等数据融合功能。ADB通过多层隔离保障负载安全,托管Spark性能提升7倍,并引入AI预测能力。案例中,易点天下借助ADB优化广告营销业务,实现了30%的任务耗时降低和20%的成本节省,展示了云原生数据库对出海企业的数字化赋能。
531 3
|
10月前
|
人工智能 关系型数据库 分布式数据库
阿里云PolarDB重磅发布云原生与Data+AI新特性,打造智能时代数据引擎
阿里云PolarDB重磅发布云原生与Data+AI新特性,打造智能时代数据引擎
603 0
|
11月前
|
人工智能 编解码 自然语言处理
AI运用爆发时代, 视频服务云原生底座“视频云”架构的全智能再进化
本文介绍了AI运用爆发时代下,视频服务云原生底座“视频云”架构的全智能再进化。随着AI技术的发展,视频内容和交互方式正经历深刻变革。文章从背景、视频AI应用挑战、视频云网端底座、AIGC时代的全智能化及未来展望五个方面展开讨论。重点阐述了云、网、端三者如何深度融合,通过AI赋能视频采集、生产、分发和消费全流程,实现视频处理的智能化和高效化。同时,展望了未来AI在视频领域的创新应用和潜在的杀手级应用。
474 0
|
数据采集 存储 分布式计算
构建智能数据湖:DataWorks助力企业实现数据驱动转型
【8月更文第25天】本文将详细介绍如何利用阿里巴巴云的DataWorks平台构建一个智能、灵活、可扩展的数据湖存储体系,以帮助企业实现数据驱动的业务转型。我们将通过具体的案例和技术实践来展示DataWorks如何集成各种数据源,并通过数据湖进行高级分析和挖掘,最终基于数据洞察驱动业务增长和创新。
676 53
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
阿里云瑶池在2024云栖大会上重磅发布由Data+AI驱动的多模数据管理平台DMS:OneMeta+OneOps,通过统一、开放、多模的元数据服务实现跨环境、跨引擎、跨实例的统一治理,可支持高达40+种数据源,实现自建、他云数据源的无缝对接,助力业务决策效率提升10倍。