当「内容科技企业」遇上多模数据库:新榜采用Lindorm打造全域数据“超级底盘”

简介: 新榜业务以数据服务提升内容产业信息流通效率,其数据处理需求聚焦于跨平台实时数据融合处理、实时分析检索、批量更新效率三大维度。Lindorm通过多模超融合架构,提供检索分析一体化、多引擎数据共享,分布式弹性扩展等能力,成为支撑新榜内容服务的核心引擎,助力客户在内容生态竞争中持续领跑。

新榜作为数据驱动的头部内容科技公司,覆盖了全平台、各层级的新媒体资源,提供内容营销、直播电商、培训运营、版权分发等服务,以内容服务新媒体产业。新榜基于微信、抖音、小红书、B站、快手等主流内容平台,提供完善的数据工具,为用户带来实时热门素材、品牌声量、直播电商等全面的数据监测分析能力,同时提供基于多平台新媒体数据的企业级数据服务。

在具体应用上,新榜平台提供了实时内容排行榜、全站内容检索、多标签组合筛选以及热门内容主动推送等功能。面对着多应用的全域数据整合需求、众多新媒体从业者的多样化使用场景,平台需要存储多类型的数据(如作品内容、评论、弹幕、点赞数等),面临着海量数据存储、实时分析处理和高并发批量更新及查询的多重技术挑战。

图1 新榜平台首页

数据时代的新媒体内容管理痛点

原技术方案解析

图2 新榜原内容数据管理方案

新榜在原方案中通过搭配Elasticsearch、在线分析库和离线处理库实现业务需求,其中Elasticsearch承接了点查和多维检索需求,在线分析库承接报表生成和聚合查询的需求,离线处理库则负责数据的批量处理

这套架构承载着作品、创作者、话题等多维度的数据存储,以及多维度的关联查询和聚合查询,并且由于包含了大量的点赞数、评论数等实时内容,还需要每日更新大量数据。

业务核心需求与挑战

在使用原方案的过程中,业务面临着性能瓶颈及成本问题:

  • Elasticsearch入库性能差:业务员系统每日承接4000万+条新作品数据写入和2亿+作品/日的批量拉取和更新需求,面临着显著的写入性能瓶颈,峰值时段时倒排索引构建延迟达5秒。
  • 在线分析库更新能力差:高频更新时延迟极高,大数据量的多表聚合操作依赖预计算临时表。
  • 架构复杂导致数据冗余:同一份数据在多个系统存储多份,存储成本高,资源利用率低。
  • 多组件运维和开发复杂度高:需要运维多组件并完成数据链路的搭建。新业务需求需适配多端接口,开发周期与成本成倍增长。

作为国内领先的新媒体内容平台,新榜的业务存在着以下关键需求:

  • 海量更新与批量分析:支持每秒万行级别数据更新、千万级别数据量和低延迟的实时分析。
  • 灵活查询
  • 多维过滤,例如查找出粉丝量在1w以上,地域在上海,粉丝标签为母婴的抖音博主
  • 去重聚合,例如如热度排行版产出时的数值统计;
  • Join分析,例如用户表join作品详情表联合分析;
  • 其他查询需求。
  • 成本优化:降低存储与计算资源消耗,减少数据同步维护的成本。

Lindorm多模融合方案应对

图3 新榜采用Lindorm一体化方案

Lindorm作为多模融合的一体化平台,涵盖了宽表、搜索、列存计算的能力,对标客户原先ES+分析库+离线处理库的架构

图4 Lindorm多引擎方案对标原方案


通过使用Lindorm的一体化方案,业务在使用过程中可以做到对下层引擎无感知,只需要通过统一入口查询,命令就会自动解析路由到各引擎,并直接返回结果数据。

客户价值

无痛迁移,灵活开发

Lindorm提供兼容Elasticsearch开源协议和MySQL协议的接口,业务可以灵活选择,搭配使用,从而降低开发成本

  • 对于新榜平台的新业务,通过统一的Lindorm SQL接口对多个引擎进行调用,实现数据的高效写入和查询,这种方式更加简单易用,降低了开发和维护的复杂度。
  • 对于新榜在Elasticsearch上的存量业务,业务代码可以保留ES API的用法,直接丝滑迁移到Lindorm,无需进行改造。

图5 Lindorm的统一SQL入口

去除冗余,降低成本

Lindorm的多个引擎使用统一的冷热分离存储层,原始数据只需存一份,同时建立多份索引,支持查询自动回查和整合。新榜使用原方案时,全量数据需要分别在Elasticsearch、在线分析库和离线处理库存一份,造成了200%的冗余数据,存储成本高而Lindorm的一体化方案仅需存储一份原始数据

  • 完整数据统一存储在宽表引擎内,Lindorm支持按照冷热分割线进行底层数据的自动冷热分离,极致降低存储成本;查询时则会自动查询冷热两边的数据,业务侧无感知。
  • 对于需要进行多维检索和轻量聚合的数据列,建立搜索索引,并存储在搜索引擎内。
  • 对于需要进行分析和大数据量聚合的数据列,建立列存索引,并存储在列存引擎内。

图6 Lindorm存储层支持自动冷热分离

超高性能,降本增效

Lindorm的宽表引擎由HBase演变而来,经过Lindorm团队的多年打磨,能够支持千万级别并发写入和点查,分担搜索库压力,同时通过深度优化的压缩降低存储成本。

  • Lindorm的宽表引擎能够高效应对频繁更新和大批量数据拉取的场景,与新榜原先使用的Elasticsearh相比,Lindorm宽表的高并发写入能力和点查性能有数量级的提升。Lindorm宽表支持每秒千万级别的并发写入/更新/查询,完全分布式的设计支持架构无限横向扩展,满足了新榜每日大批量数据更新和根据作品id、用户id等主键字段高并发点查的需求。
  • 宽表引擎使用深度优化的ZSTD压缩算法,相较于常见数据库,可以将存储空间降低至50%,从而有效降低存储成本。

图7 Lindorm通过超高压缩率降低存储成本

多模融合,高效统一

Lindorm打造多模统一的开发体验,业务无需关心各个引擎间的数据链路,Lindorm内部保证引擎间的数据一致性和同步效率。Lindorm帮助新榜免去在原Elasticsearch、在线分析库和离线处理库间的链路搭建和运维工作

  • 在Lindorm内部,从宽表到搜索、宽表到列存的数据同步链路通过索引建立自动搭建,列存到宽表的数据链路则通过SQL命令完成。业务侧无需关心链路及数据一致性问题,从而降低了日常运维成本,新业务接入更加敏捷快速。
  • 按需建立索引后,客户侧视图为一张大宽表,部分列可点查,部分列可多维检索和全文检索,部分列可进行实时分析和批处理,可直接进行查询和完整结果返回。

图8 Lindorm提供统一的查询和分析体验

Lindorm多模数据库介绍

图9 Lindorm多模一体架构

Lindorm是面向海量泛时序、半结构化和非结构化数据提供低成本存储、在线查询、搜索分析等一站式数据服务,兼容MySQL协议、HBase、ES、Hive、Spark、HDFS等开源标准。提供宽表、搜索、时序、向量等数据模型,适用于多行业多场景,典型场景有车联网的一站式平台、高并发写入和点查场景(替换HBase)、DB+搜索一站式场景、AI智能搜索场景等。

Lindorm已服务于阿里集团淘宝、支付宝等核心业务十余年,充分打磨了产品稳定性和高性能。目前集团外部深度使用Lindorm的客户有小米、理想、携程、申通、月之暗面、莉莉丝等行业头部客户。

总结

新榜业务以数据服务提升内容产业信息流通效率,其数据处理需求聚焦于跨平台实时数据融合处理、实时分析检索、批量更新效率三大维度。Lindorm通过多模超融合架构,提供检索分析一体化、多引擎数据共享,分布式弹性扩展等能力,成为支撑新榜内容服务的核心引擎,助力客户在内容生态竞争中持续领跑。


联系我们

业务咨询:https://page.aliyun.com/form/act1646610924/index.htm

技术交流:“Lindorm技术交流群(外)”钉钉群号: 35977898

相关文章
|
2月前
|
人工智能 运维 关系型数据库
云栖大会|AI时代的数据库变革升级与实践:Data+AI驱动企业智能新范式
2025云栖大会“AI时代的数据库变革”专场,阿里云瑶池联合B站、小鹏、NVIDIA等分享Data+AI融合实践,发布PolarDB湖库一体化、ApsaraDB Agent等创新成果,全面展现数据库在多模态、智能体、具身智能等场景的技术演进与落地。
|
6月前
|
人工智能 安全 机器人
无代码革命:10分钟打造企业专属数据库查询AI机器人
随着数字化转型加速,企业对高效智能交互解决方案的需求日益增长。阿里云AppFlow推出的AI助手产品,借助创新网页集成技术,助力企业打造专业数据库查询助手。本文详细介绍通过三步流程将AI助手转化为数据库交互工具的核心优势与操作指南,包括全场景适配、智能渲染引擎及零代码配置等三大技术突破。同时提供Web集成与企业微信集成方案,帮助企业实现便捷部署与安全管理,提升内外部用户体验。
667 12
无代码革命:10分钟打造企业专属数据库查询AI机器人
|
8月前
|
关系型数据库 分布式数据库 数据库
一库多能:阿里云PolarDB三大引擎、四种输出形态,覆盖企业数据库全场景
PolarDB是阿里云自研的新一代云原生数据库,提供极致弹性、高性能和海量存储。它包含三个版本:PolarDB-M(兼容MySQL)、PolarDB-PG(兼容PostgreSQL及Oracle语法)和PolarDB-X(分布式数据库)。支持公有云、专有云、DBStack及轻量版等多种形态,满足不同场景需求。2021年,PolarDB-PG与PolarDB-X开源,内核与商业版一致,推动国产数据库生态发展,同时兼容主流国产操作系统与芯片,获得权威安全认证。
|
3月前
|
SQL 人工智能 Linux
SQL Server 2025 RC1 发布 - 从本地到云端的 AI 就绪企业数据库
SQL Server 2025 RC1 发布 - 从本地到云端的 AI 就绪企业数据库
406 5
SQL Server 2025 RC1 发布 - 从本地到云端的 AI 就绪企业数据库
|
6月前
|
人工智能 运维 数据挖掘
瑶池数据库开放日:全新发布Data+AI能力家族,赋能企业全栈智能实践
近日,阿里云瑶池数据库生态工具产品重磅升级,推出“Data+AI能力家族”,并举办了为期3天的全栈智能实践开放日活动。发布会上首次公开了 “Data Agent for Analytics、Data Agent for Meta、DAS Agent”等瑶池数据库Data Agent系列能力,以工具智能化 × 智能化工具的双引擎重构数据与AI的协同边界,揭秘AI时代数据价值释放的全新路径。
|
7月前
|
SQL 人工智能 数据库
SQL Server 2025 - 从本地到云端的 AI 就绪企业数据库
SQL Server 2025 - 从本地到云端的 AI 就绪企业数据库
506 0
SQL Server 2025 - 从本地到云端的 AI 就绪企业数据库
|
8月前
|
SQL 运维 监控
数据库国产化选型?YashanDB 给中大型企业的五个答案
近两年,“国产数据库”成为企业数字化升级的重要议题。YashanDB作为新一代国产关系型数据库,以完整产品矩阵解决企业核心关切:通过图形化工具提升开发效率;提供自动化迁移平台简化数据库切换;云管理工具减轻运维负担;支持复杂业务场景;拥有成熟团队保障企业级服务。YashanDB不仅是“可替代”,更是“更可靠”的选择,助力企业实现高效、可控的数据库升级。
|
8月前
|
存储 SQL 运维
当「内容科技企业」遇上多模数据库:新榜采用Lindorm打造全域数据“超级底盘”
新榜业务以数据服务提升内容产业信息流通效率,其数据处理需求聚焦于跨平台实时数据融合处理、实时分析检索、批量更新效率三大维度。Lindorm通过多模超融合架构,提供检索分析一体化、多引擎数据共享,分布式弹性扩展等能力,成为支撑新榜内容服务的核心引擎,助力客户在内容生态竞争中持续领跑。
|
11月前
|
SQL 数据挖掘 关系型数据库
阿里云百炼|析言GBI全新发布:联合云上数据库,助力企业轻松实现ChatBI
析言GBI是阿里云推出的一款基于AI的智能数据分析产品,通过自然语言处理实现对话式数据分析。用户无需编写代码,即可轻松进行数据查询、分析和可视化。该产品支持多种数据库连接方式(如MySQL、PostgreSQL等),并提供多版本选择以适应不同业务需求。即将发布的动态规划BI分析功能将进一步提升复杂问题的拆解与综合分析能力。欢迎访问阿里云百炼应用广场体验析言GBI,并享受200次免费问题额度。