ElasticSearch学习笔记(九) 聚合查询之Metric

简介: Elasticsearch的Metric聚合主要用于统计在某个字段中的最大、最小、平均数、和、标准差等数值型数据统计指标。下面让我们详细介绍Metric聚合的使用方法,并给出一个完整的示例。

Elasticsearch的Metric聚合主要用于统计在某个字段中的最大、最小、平均数、和、标准差等数值型数据统计指标。下面让我们详细介绍Metric聚合的使用方法,并给出一个完整的示例。

Metric聚合

Metric聚合是用于计算数值型数据统计指标的一类聚合方法。它可以计算一些统计数据,如最大值,最小值,平均值和加和等,以便对搜索结果进行分析。

以下是Metric聚合常用的几种类型:

  • avg:计算某个字段的平均值。
  • max:计算某个字段的最大值。
  • min:计算某个字段的最小值。
  • sum:计算某个字段值的和。
  • cardinality:计算某个字段的基数(即唯一值的数量)。
  • stats:计算某个字段的平均值、最小值、最大值和总和。
  • extended_stats:计算某个字段的平均值、最小值、最大值、总和以及标准差和方差。

使用Metric聚合需要构造一个聚合对象,它由两个部分组成:聚合名称和聚合类型。

例如,我们可以通过以下方式创建一个名为 "average_price" 的聚合,用于计算商品价格的平均值:

{
  "aggs": {
    "average_price": {
      "avg": {
        "field": "price"
      }
    }
  }
}

这个聚合将统计所有匹配查询条件的文档集中商品价格(即字段 "price")的平均值,并将结果保存到名为 "average_price" 的桶(bucket)中。

完整示例

下面是一个完整的示例,它将根据不同用户在不同时间段内访问的页面进行统计,并返回每一个用户每天平均访问的页面数量,以及每个时间段内访问量最大的前10个页面。

首先,假设我们有这样一个索引,记录了所有用户的访问记录:

PUT /log_index
{
  "mappings": {
    "properties": {
      "user_id": {"type": "keyword"},
      "page_url": {"type": "keyword"},
      "timestamp": {"type": "date"}
    }
  }
}

然后,我们需要向索引中添加一些数据,用于测试聚合操作。以下是一些典型的访问记录,它们包括用户ID、访问页面的URL以及时间戳:

POST /log_index/_doc
{
  "user_id": "user1",
  "page_url": "/product/123",
  "timestamp": "2023-06-01T10:00:00"
}

POST /log_index/_doc
{
  "user_id": "user1",
  "page_url": "/blog/456",
  "timestamp": "2023-06-01T11:00:00"
}

POST /log_index/_doc
{
  "user_id": "user1",
  "page_url": "/product/789",
  "timestamp": "2023-06-02T10:00:00"
}

POST /log_index/_doc
{
  "user_id": "user2",
  "page_url": "/blog/789",
  "timestamp": "2023-06-02T12:00:00"
}

POST /log_index/_doc
{
  "user_id": "user2",
  "page_url": "/product/123",
  "timestamp": "2023-06-03T09:00:00"
}

POST /log_index/_doc
{
  "user_id": "user2",
  "page_url": "/product/456",
  "timestamp": "2023-06-03T15:00:00"
}

接下来,我们可以使用以下查询来计算每个用户每天平均访问的页面数量,并返回每个时间段内访问量最大的前10个页面:

POST /log_index/_search
{
  "size": 0,
  "aggs": {
    "user_page_stats": {
      "composite": {
        "sources": [
          {"user_id": {"terms": {"field": "user_id.keyword"}}},
          {"date": {"date_histogram": {"field": "timestamp", "interval": "day"}}}
        ]
      },
      "aggs": {
        "page_count": {
          "cardinality": {
            "field": "page_url.keyword"
          }
        },
        "top_pages": {
          "terms": {
            "field": "page_url.keyword",
            "size": 10
          }
        }
      }
    }
  }
}

在这个查询中,我们首先使用 composite 聚合按照用户ID和日期对访问记录进行分组。其中 "date_histogram" 表示将时间戳按照天进行划分。

然后,我们在 "user_page_stats" 桶中添加了两个子聚合:

  • "page_count" 子聚合使用 cardinality 聚合计算每个用户在每天访问的不同页面数量。
  • "top_pages" 子聚合使用 terms 聚合计算每个时间段内访问量最大的前10个页面。

执行以上查询后,返回的结果如下所示:

{
  ...
  "aggregations": {
    "user_page_stats": {
      "buckets": [
        {
          "key": {
            "user_id": "user1",
            "date": 16804
          },
          "doc_count": 2,
          "page_count": {
            "value": 2
          },
          "top_pages": {
            "buckets": [
              {
                "key": "/product/123",
                "doc_count": 1
              },
              {
                "key": "/blog/456",
                "doc_count": 1
              }
            ]
          }
        },
        {
          "key": {
            "user_id": "user1",
            "date": 16805
          },
          "doc_count": 1,
          "page_count": {
            "value": 1
          },
          "top_pages": {
            "buckets": [
              {
                "key": "/product/789",
                "doc_count": 1
              }
            ]
          }
        },
        {
          "key": {
            "user_id": "user2",
            "date": 16805
          },
          "doc_count": 1,
          "page_count": {
            "value": 1
          },
          "top_pages": {
            "buckets": [
              {
                "key": "/blog/789",
                "doc_count": 1
              }
            ]
          }
        },
        {
          "key": {
            "user_id": "user2",
            "date": 16806
          },
          "doc_count": 2,
          "page_count": {
            "value": 2
          },
          "top_pages": {
            "buckets": [
              {
                "key": "/product/123",
                "doc_count": 1
              },
              {
                "key": "/product/456",
                "doc_count": 1
              }
            ]
          }
        }
      ]
    }
  }
}

根据返回结果可以看出,这个查询实现了我们的需求。例如,针对用户 "user1",在日期 "2023-06-01",他访问了2个不同的页面("/product/123" 和 "/blog/456"),在日期 "2023-06-02",他访问了1个不同的页面("/product/789")。而在每个日期内,他访问量最大的前10个页面,也被正确地计算了出来。

这个示例展示了如何使用Metric聚合对Elasticsearch中的数据进行分析和统计。需要注意的是,具体的聚合方式和参数取决于我们的需求和数据特征。

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
相关文章
|
9月前
|
数据采集 JSON 数据挖掘
Elasticsearch 的DSL查询,聚合查询与多维度数据统计
Elasticsearch的DSL查询与聚合查询提供了强大的数据检索和统计分析能力。通过合理构建DSL查询,用户可以高效地搜索数据,并使用聚合查询对数据进行多维度统计分析。在实际应用中,灵活运用这些工具不仅能提高查询效率,还能为数据分析提供深入洞察。理解并掌握这些技术,将显著提升在大数据场景中的分析和处理能力。
489 20
|
存储 SQL 监控
|
存储 JSON 监控
大数据-167 ELK Elasticsearch 详细介绍 特点 分片 查询
大数据-167 ELK Elasticsearch 详细介绍 特点 分片 查询
838 4
|
存储 自然语言处理 关系型数据库
ElasticSearch基础3——聚合、补全、集群。黑马旅游检索高亮+自定义分词器+自动补全+前后端消息同步
聚合、补全、RabbitMQ消息同步、集群、脑裂问题、集群分布式存储、黑马旅游实现过滤和搜索补全功能
ElasticSearch基础3——聚合、补全、集群。黑马旅游检索高亮+自定义分词器+自动补全+前后端消息同步
|
JSON 自然语言处理 算法
ElasticSearch基础2——DSL查询文档,黑马旅游项目查询功能
DSL查询文档、RestClient查询文档、全文检索查询、精准查询、复合查询、地理坐标查询、分页、排序、高亮、黑马旅游案例
ElasticSearch基础2——DSL查询文档,黑马旅游项目查询功能
|
自然语言处理 搜索推荐 Java
SpringBoot 搜索引擎 海量数据 Elasticsearch-7 es上手指南 毫秒级查询 包括 版本选型、操作内容、结果截图(一)
SpringBoot 搜索引擎 海量数据 Elasticsearch-7 es上手指南 毫秒级查询 包括 版本选型、操作内容、结果截图
319 0
|
存储 自然语言处理 搜索推荐
SpringBoot 搜索引擎 海量数据 Elasticsearch-7 es上手指南 毫秒级查询 包括 版本选型、操作内容、结果截图(二)
SpringBoot 搜索引擎 海量数据 Elasticsearch-7 es上手指南 毫秒级查询 包括 版本选型、操作内容、结果截图(二)
302 0
|
存储 自然语言处理 Java
ElasticSearch 实现分词全文检索 - 经纬度定位商家距离查询
ElasticSearch 实现分词全文检索 - 经纬度定位商家距离查询
318 0
|
8月前
|
安全 Java Linux
Linux安装Elasticsearch详细教程
Linux安装Elasticsearch详细教程
1505 64
|
7月前
|
JSON 安全 数据可视化
Elasticsearch(es)在Windows系统上的安装与部署(含Kibana)
Kibana 是 Elastic Stack(原 ELK Stack)中的核心数据可视化工具,主要与 Elasticsearch 配合使用,提供强大的数据探索、分析和展示功能。elasticsearch安装在windows上一般是zip文件,解压到对应目录。文件,elasticsearch8.x以上版本是自动开启安全认证的。kibana安装在windows上一般是zip文件,解压到对应目录。elasticsearch的默认端口是9200,访问。默认用户是elastic,密码需要重置。
3776 0

热门文章

最新文章