- 可以支撑海量数据存储(TB/PB 级别),高并发访问(十万 TPS~千万 TPS),访问延时低。
- 业务随着采集订阅的网页源调整,采集量会动态调整。同时一天内,不同时间段爬虫爬下来的网页数也会有明显波峰波谷,所以数据库需要可以弹性扩展,缩容。
- 自由的表属性结构,普通网页和社交类平台页面的信息我们需要关注的属性可能会有较大区别。灵活的 schema 会方便我们做扩展。
- 对老数据可以选择自动过期或者分层存储。因为舆情数据往往关注近期热点,老的数据访问频率较低。
- 需要有较好的增量通道,可以定期把新增的数据导出至计算平台。上面的图中有三段红色虚线,这三部分都有个共同的特点需要可以实时的把增量导至对应的计算平台做计算,计算后的结果再写入对应的存储引擎。如果数据库引擎本身就支持增量,则可以很大程度简化架构,减少之前需要全量读区筛选增量,或者客户端双写来实现得到增量的逻辑。
- 需要可以有较好的搜索解决方案(本身支持或者可以数据无缝对接搜索引擎)。有了这些需求后,我们需要使用一款分布式的 NoSQL 数据来解决海量数据的存储,访问。多个环节的增量数据访问的需求,业务的峰值访问波动进一步确定弹性计费的表格存储是我们在这套架构中的最佳选择。表格存储的架构介绍可以参考表格存储数据模型
答复内容摘自《玩转 Tablestore 入门与实战》,这本电子书收录开发者藏经阁 下载连接:https://developer.aliyun.com/topic/download?id=7983