《云上社交行业技术服务白皮书》——第三章 云上社交典型场景与架构——3.2 细分领域社交——3.2.1 母婴场景(上) https://developer.aliyun.com/article/1232380?groupCode=supportservice
3.2.1.2.2 某母婴平台所特有的两个大数据
说到大数据,其实这是一个耳熟能详的话题,很多人都非常熟悉,下面从两个方 面介绍该母婴平台所特有的两个大数据。
1、关于妈妈的核心生育数据。什么是生育数据?你当前怀孕多少天了,然后宝 宝什么时候出生,预产期是什么时候,宝宝当前多大了,我们是可以精确到天的,然 后这个数据是非常准确的。其实我们每天都会有很多宝妈用户现在正在产房里,等待 生命的诞生。然后我们明天也会看到他们很多的报喜帖,其实基于用户的一种真实的 运营数据,我们是不需要猜测对吧?我们就可以非常精准的知道在这样一个阶段,用 户需求是什么,然后有针对性的去满足她们,通过一些产品或者服务。
2、社区有非常海量的UGC内容加PGC内容,然后用户在这些内容上的行为,还 有用户之间的互动,让积累了海量的行为数据。这种行为数据不是一种泛领域的,而 是母婴领域的,那么这里面有很多不是泛领域能够解决的一些问题,包括妈妈之间的 一些讨论等等。基于核心生育和行为数据,精准秒回用户画像,优化用户体验,提升转化效率。
根据这两大核心数据,可以构建一个非常完整的也是非常全面的某一领域的画像 体系。基于这个画像体系,第一个会非常好的去服务我们的最大用户,也就是宝妈人 群,第二个对于的B端客户也是有巨大的价值,一个是提升整个商业投放的效率、转 化率等,另外一个就是可以通过反向的数据驱动,可以发现更多用户的潜在需求,那 么这对B端客户的营销有着巨大的商业价值。
3.2.1.2.3 母婴社交云上大数据仓库
某母婴平台作为中国最大、最活跃的母婴类社区平台。作为最早做互联网2C的 社区平台之一,其很早就建立了自己的IDC集群,而且规模越来越大。
早期该母婴平台使用的是自建的大数据体系,从数据的产生,数据的传输、存 储、计算,然后到整个数据服务,再到整个上层的应用,包括BI报表以及数据分析工 具等,根据其集群水位高,性能差,亟待大数据综合治理以及IDC大数据每年投入成 本高,希望降本提效的多重需求下,从大数据平台上云整体“降本增效”的方案快速 切入,迁移到大数据MaxCompute、实时计算、DataWorks后,部分任务有10倍以 上的性能提升, 存储从自建Hadoop13PB降到900T, 利用Flink实时数据处理能力, 将该母婴平台现有的场景实时化(“基于用户ID维度和内容类型的实时行为”、“获取 用户的实时群聊ID”及“获取文章的实时发布信息”),并且基于Flink进行实时推荐增加转化率。大数据平台整体成本节省30%以上。
使用阿里云的一些技术,总结起来,其实主要是有几点收益:
1、从成本角度,从硬件、运维以及整个操作的成本综合评估下来, 可以节省 40%左右。
2、从产品角度,因为采用了阿里云大数据技术栈,这些技术栈对开发者来说还 是非常友好的,使很多开发者长期以来面临的痛点得到了实际的解决,实现了超大规 模实时,离线计算和数据治理,比如前面说的DataWorks一站式开发平台,就对开 发效率有着显著的提升;
3、从云计算的底层来说,该平台可以很好的享受它的一些安全性,整个弹性、 可伸缩性等。因为业务流量有时也会突增,在这种场景下是能够天然的享受到云服务 的好处。例如该母婴平台对GPU的使用,以前都需要自己进行购买,现在可以按需 使用阿里云的GPU,在技术的使用效率上有了很大的提升。