带你读《Elastic Stack 实战手册》之47:——3.5.6.Datastream (1)

简介: 带你读《Elastic Stack 实战手册》之47:——3.5.6.Datastream (1)

3.5.6.Datastream


创作人:赵凯/金端

审稿人:周海清

 

Data stream 的概念

 

时序性数据

 

时间序列数据( time series data )是在不同时间上收集到的数据,用于所描述现象随时间变化的情况。这类数据反映了某一事物、现象等,随时间的变化状态或程度。

 

总的来说,这类数据主要基于时间特性明显,随着时间的流逝,往往过去时间的数据没有现在时间的重要或者敏感。

 

对于 Elastisearch 处理时序性数据,有人总结了主要有以下特点:

 

l 由时间戳 + 数据组成。基于时间的事件,可以是服务器日志或者社交媒体流。

l 通常搜索最近事件,旧文件变得不太重要。

l 索引的使用主要基于时间,但是数据并不一定随着时间均衡分布。

l 时序性数据一旦存入后很少修改。

l 时序性数据随着时间的增加,数据量会很大。

 

Elastisearch 在时序性数据的使用中,往往会有以下的缺点:

 

l 索引随着时间增加而数目较多。

l 索引大小无法均衡。

l 管理索引成本较高,需要维护 merge 合并删除等一系列任务。

l 节点资源与冷热数据分布不匹配。


在这样的一个场景下,数据流 data stream 应运而生。

 

data stream (数据流)是 Elastic Stack 7.9 的一个新的功能。data stream 可以跨多个索

引存储只追加时序性数据,同时为查询写入等请求提供唯一的一个命名资源。data stream 非常适合日志,事件,指标以及其他持续生成的数据。

 

简单来说,data stream 根据模板生成存储数据的后备索引,然后自动将搜索或者索引请求路由到存储流数据的后备索引。而这些后备索引则根据索引生命周期管理( ILM )来自动管理。

例如,你可以使用 ILM 自动将较旧的后备索引移动到较便宜的硬件上(冷热数据处理),根据索引大小自动 Rollover 出新的后备索引,或者删除到时间限制的索引。

 

在一定程度上,data stream 的管理优势是利用了 ILM 的特性。但是 ILM 在普通场景下需要根据索引的别名( alias )逐个设置,而 data stream 则是抛弃了 alias 的限制,可以直接批量化设置相似名称的索引,大大增加了 ILM 的使用范围。

 

《Elastic Stack 实战手册》——三、产品能力——3.5 进阶篇——3.5.6.Datastream (2) https://developer.aliyun.com/article/1228583

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
相关文章
|
3月前
|
机器学习/深度学习 数据库 数据安全/隐私保护
服务器核心组件:CPU 与 GPU 的核心区别、应用场景、协同工作
CPU与GPU在服务器中各司其职:CPU擅长处理复杂逻辑,如订单判断、网页请求;GPU专注批量并行计算,如图像处理、深度学习。二者协同工作,能大幅提升服务器效率,满足多样化计算需求。
1556 39
|
Python
分享88个工作总结PPT,总有一款适合您
分享88个工作总结PPT,总有一款适合您
316 0
|
人工智能 分布式计算 DataWorks
DataWorks
DataWorks是阿里巴巴推出的智能化大数据开发与治理平台,支持数据仓库、数据湖等架构,集成多种阿里云大数据计算服务,如MaxCompute、Hologres等,助力政府、金融、零售等行业实现数据全生命周期管理,推动数字化转型和数据资产增值。
|
安全 网络安全 量子技术
网络安全与信息安全:保护数字世界的锁与钥构建安全防线:云计算环境中的网络安全策略与实践
【4月更文挑战第29天】在数字化时代,数据成为了新的石油,而网络安全则是保护这些宝贵资源的防线。本文深入探讨了网络安全漏洞的成因、加密技术的进展以及提升安全意识的重要性。通过对网络威胁的分析,我们揭示了安全漏洞的本质和它们如何被黑客利用。接着,文章详细解读了现代加密技术,包括对称加密、非对称加密和散列函数,并强调了量子计算对未来加密的潜在影响。最后,通过教育和技术实践的建议,我们强调了培养全民网络安全意识的必要性。 【4月更文挑战第29天】 在数字化转型的浪潮中,云计算作为支撑企业敏捷性与效率的关键基础设施,其安全性受到了前所未有的关注。本文深入探讨了云计算环境下所面临的独特安全挑战,并提出
|
开发框架 搜索推荐 数据中心
KDD2024最佳学生论文解读,中科大、华为诺亚:序列推荐新范式DR4SR
【9月更文挑战第25天】近年来,随着人工智能技术的发展,序列推荐系统(SR)因能捕捉用户动态偏好而在日常生活中愈发重要。然而,数据质量问题常被忽视。为解决此问题,中国科学技术大学与华为诺亚方舟实验室联合提出DR4SR,一种通过数据集再生提升序列推荐系统性能的新范式。DR4SR采用模型无关的数据再生方法,增强数据集的多样性和泛化能力,且可通过DR4SR+进行个性化调整以适应不同模型需求。实验表明,DR4SR和DR4SR+在多个数据集上显著提升了推荐系统性能。尽管面临计算资源和过拟合风险等挑战,该范式仍展现出巨大潜力。
394 7
|
Java Android开发
Eclipse Java 构建路径
Eclipse Java 构建路径
161 3
|
机器学习/深度学习 监控 算法
基于深度学习的图像识别技术在智能监控系统中的应用
【4月更文挑战第29天】 随着人工智能技术的飞速发展,尤其是深度学习算法在图像处理领域的突破性进展,基于深度学习的图像识别技术已经成为智能视频监控系统的核心。本文将深入探讨深度学习技术如何提升监控系统中目标检测、分类和跟踪的准确性与效率,并分析其在实际应用中的优势与挑战,为未来智能监控技术的发展提供参考。
|
缓存 监控 架构师
极客时间架构师训练营 - week7 - 作业 2
极客时间架构师训练营 - week7 - 作业 2
180 0
|
存储 机器学习/深度学习 人工智能
嵌入式中一文搞懂ARM处理器架构
嵌入式中一文搞懂ARM处理器架构
1393 1
|
存储 安全 对象存储
oss
oss
1137 0

热门文章

最新文章