带你读《Elastic Stack 实战手册》之40:——3.4.2.21.Aggregations(2)

简介: 带你读《Elastic Stack 实战手册》之40:——3.4.2.21.Aggregations(2)

《Elastic Stack 实战手册》——三、产品能力——3.4.入门篇——3.4.2.Elasticsearch基础应用——3.4.2.21.Aggregations(1) https://developer.aliyun.com/article/1229245


二、指标聚合(Metrics)

 

我们以销售产品的场景定义如下 mapping:


put order
{
    'mappings' : {
        'properties' : {
            'sales_name' : {
                'type' : 'keyword'
            },
            'product_name' : {
                'type' : 'keyword'
            },
            'brand' : {
                'type' : 'keyword'
            },
            'count' : {
                'type' : 'integer'
            },
            'price' : {
                'type' : 'double'
            },
            'order_time' : {
                'type' : 'date'
            }
        }
    }
}

模拟数据如下:


POST _bulk
{"index":{"_index":"order","_id":1}}
{"sales_name":"Andy","product_name":"iphone12","brand":"Apple","count":20,"price":"8999.65","order_time":"2021-09-03"}
{"index":{"_index":"order","_id":2}}
{"sales_name":"Andy","product_name":"mate10","brand":"HUAWEI","count":22,"price":"9999.20","order_time":"2021-08-03"}
{"index":{"_index":"order","_id":3}}
{"sales_name":"Lily","product_name":"iphone12","brand":"Apple","count":25,"price":"7999.56","order_time":"2021-08-23"}
{"index":{"_index":"order","_id":4}}
{"sales_name":"Mango","product_name":"mate11","brand":"HUAWEI","count":30,"price":"8354.09","order_time":"2021-09-25"}
{"index":{"_index":"order","_id":5}}
{"sales_name":"Lisa","product_name":"iphone13","brand":"Apple","count":26,"price":"9976.34","order_time":"2021-10-11"}
{"index":{"_index":"order","_id":6}}
{"sales_name":"Lisa","product_name":"mate11","brand":"HUAWEI","count":28,"price":"7849.46","order_time":"2021-07-11"}
{"index":{"_index":"order","_id":7}}
{"sales_name":"Amy","product_name":"mate11","brand":"HUAWEI","count":28,"order_time":"2021-07-11"}

1、平均值聚合 avg

 

平均值聚合属于单值度量聚合,从聚合文档中计算某个字段的平均值,参与计算的字段需为数值型。

 

1)基础用法



以下例子计算了订单数据中产品的平均售价,我们定义该平均值的名字为 avg_price ,该字段也将作为结果返回:

POST /order/_search?size=0
{
    "aggs" : {
        "avg_price" : { 
          "avg" : { "field" : "price" } 
        }
    }
}
其中size为返回结果数量,等价于下面的写法
POST /order/_search
{
    "size": 0, 
    "aggs" : {
        "avg_price" : { 
          "avg": {
            "field": "price"
          }
        }
    }
}

返回结果:

{
  ...
  "aggregations" : {
    "avg_price" : {
      "value" : 8863.050000000001
    }
  }
}

查询条数,这里设置为0,因为我们不关心搜索到的数据,只关心聚合结果,提高效率。

 

2)缺失值

 

默认情况下,当文档中缺失计算字段值时,该文档将会被忽略,若我们希望使用这部分文档,可以通过设置 missing 参数。在上述数据中,_id 等于 7 的数据,价格列缺失,通过以下设置,缺失字段的 price 将按照 0 来计算。


POST /order/_search?size=0
{
    "aggs" : {
        "avg_price" : { 
          "avg" : { 
            "field" : "price",
            "missing" : 0
           } 
        }
    }
}

返回结果:

{
  ...
  "aggregations" : {
    "avg_price" : {
      "value" : 7596.900000000001
    }
  }
}

由结果可以看出设置 missing 值后,_id 为 7 的数据参与了计算,平均值变小了,这就是 missing 的作用,以下其他指标的 missing 与之类似,将不再赘述。

 

3)Histogram fields

 

当计算平均值的字段为直方图字段时,聚合结果是使用每组数据中的 value 位置的数据乘以相同位置的 count 从而计算出的加权平均值。

 

以存储不同网络的预聚合直方图和延迟度量的索引为例,数据结构如下:


PUT metrics_index
{
  "mappings" : {
    "properties" : {
      "network_name":{
        "type" : "keyword"
      },
      "latency_histo" : {
        "type" : "histogram"
      }
    }
  }
}
PUT metrics_index/_doc/1
{
"network_name" : "net-1",
  "latency_histo" : {
      "values" : [0.1, 0.2, 0.3, 0.4, 0.5], 
      "counts" : [3, 7, 23, 12, 6] 
   }
}
PUT metrics_index/_doc/2
{
  "network_name" : "net-2",
  "latency_histo" : {
      "values" :  [0.1, 0.2, 0.3, 0.4, 0.5], 
      "counts" : [8, 17, 8, 7, 6] 
   }
}

计算 latency_histo 字段的聚合结果:


POST /metrics_index/_search?size=0
{
  "aggs": {
      "avg_latency": {
        "avg": {
       "field": "latency_histo" 
      }
      }
  }
}


计算 latency_histo 平均值的方法为找到所有的文档,将所有文档中 value 乘以对应位置的

count 后计算出总和,再除以所有文档 count 之和,由此可得到如下结果。

{
  ...
  "aggregations" : {
    "avg_latency" : {
      "value" : 0.29690721649484536
    }
  }
}


4)脚本

 

纠正价格后重新计算:


GET order/_search?size=0
{
  "runtime_mappings": {
    "price.corrected": {
      "type": "double",
      "script": {
        "source": "emit(Math.max(100, doc['price'].value * params.correction))",
        "params": {
          "correction": 0.8
        }
      }
    }
  },
  "aggs": {
    "avg_corrected_grade": {
      "avg": {
        "field": "price.corrected"
      }
    }
  }
}

需要注意的是,如果脚本计算的字段中存在缺失的情况,那么在使用脚本的时候需要加上对字段非 null 的判断,否则将会出现计算失败的错误。例如:

if (price ! = null) emit(price);

《Elastic Stack 实战手册》——三、产品能力——3.4.入门篇——3.4.2.Elasticsearch基础应用——3.4.2.21.Aggregations(3) https://developer.aliyun.com/article/1229243

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
相关文章
|
1天前
|
数据采集 人工智能 安全
|
10天前
|
云安全 监控 安全
|
2天前
|
自然语言处理 API
万相 Wan2.6 全新升级发布!人人都能当导演的时代来了
通义万相2.6全新升级,支持文生图、图生视频、文生视频,打造电影级创作体验。智能分镜、角色扮演、音画同步,让创意一键成片,大众也能轻松制作高质量短视频。
904 150
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
1642 8
|
6天前
|
人工智能 前端开发 文件存储
星哥带你玩飞牛NAS-12:开源笔记的进化之路,效率玩家的新选择
星哥带你玩转飞牛NAS,部署开源笔记TriliumNext!支持树状知识库、多端同步、AI摘要与代码高亮,数据自主可控,打造个人“第二大脑”。高效玩家的新选择,轻松搭建专属知识管理体系。
364 152
|
7天前
|
人工智能 自然语言处理 API
一句话生成拓扑图!AI+Draw.io 封神开源组合,工具让你的效率爆炸
一句话生成拓扑图!next-ai-draw-io 结合 AI 与 Draw.io,通过自然语言秒出架构图,支持私有部署、免费大模型接口,彻底解放生产力,绘图效率直接爆炸。
600 152
|
9天前
|
人工智能 安全 前端开发
AgentScope Java v1.0 发布,让 Java 开发者轻松构建企业级 Agentic 应用
AgentScope 重磅发布 Java 版本,拥抱企业开发主流技术栈。
561 13
|
2天前
|
编解码 人工智能 机器人
通义万相2.6,模型使用指南
智能分镜 | 多镜头叙事 | 支持15秒视频生成 | 高品质声音生成 | 多人稳定对话

热门文章

最新文章