ElasticSearch学习笔记(九) 聚合查询之Metric-阿里云开发者社区

ElasticSearch学习笔记(九) 聚合查询之Metric

2023-07-12 356

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Elasticsearch的Metric聚合主要用于统计在某个字段中的最大、最小、平均数、和、标准差等数值型数据统计指标。下面让我们详细介绍Metric聚合的使用方法，并给出一个完整的示例。

Elasticsearch的Metric聚合主要用于统计在某个字段中的最大、最小、平均数、和、标准差等数值型数据统计指标。下面让我们详细介绍Metric聚合的使用方法，并给出一个完整的示例。

Metric聚合

Metric聚合是用于计算数值型数据统计指标的一类聚合方法。它可以计算一些统计数据，如最大值，最小值，平均值和加和等，以便对搜索结果进行分析。

以下是Metric聚合常用的几种类型：

avg：计算某个字段的平均值。
max：计算某个字段的最大值。
min：计算某个字段的最小值。
sum：计算某个字段值的和。
cardinality：计算某个字段的基数（即唯一值的数量）。
stats：计算某个字段的平均值、最小值、最大值和总和。
extended_stats：计算某个字段的平均值、最小值、最大值、总和以及标准差和方差。

使用Metric聚合需要构造一个聚合对象，它由两个部分组成：聚合名称和聚合类型。

例如，我们可以通过以下方式创建一个名为 "average_price" 的聚合，用于计算商品价格的平均值：

{
  "aggs": {
    "average_price": {
      "avg": {
        "field": "price"
      }
    }
  }
}

这个聚合将统计所有匹配查询条件的文档集中商品价格（即字段 "price"）的平均值，并将结果保存到名为 "average_price" 的桶(bucket)中。

完整示例

下面是一个完整的示例，它将根据不同用户在不同时间段内访问的页面进行统计，并返回每一个用户每天平均访问的页面数量，以及每个时间段内访问量最大的前10个页面。

首先，假设我们有这样一个索引，记录了所有用户的访问记录：

PUT /log_index
{
  "mappings": {
    "properties": {
      "user_id": {"type": "keyword"},
      "page_url": {"type": "keyword"},
      "timestamp": {"type": "date"}
    }
  }
}

然后，我们需要向索引中添加一些数据，用于测试聚合操作。以下是一些典型的访问记录，它们包括用户ID、访问页面的URL以及时间戳：

POST /log_index/_doc
{
  "user_id": "user1",
  "page_url": "/product/123",
  "timestamp": "2023-06-01T10:00:00"
}

POST /log_index/_doc
{
  "user_id": "user1",
  "page_url": "/blog/456",
  "timestamp": "2023-06-01T11:00:00"
}

POST /log_index/_doc
{
  "user_id": "user1",
  "page_url": "/product/789",
  "timestamp": "2023-06-02T10:00:00"
}

POST /log_index/_doc
{
  "user_id": "user2",
  "page_url": "/blog/789",
  "timestamp": "2023-06-02T12:00:00"
}

POST /log_index/_doc
{
  "user_id": "user2",
  "page_url": "/product/123",
  "timestamp": "2023-06-03T09:00:00"
}

POST /log_index/_doc
{
  "user_id": "user2",
  "page_url": "/product/456",
  "timestamp": "2023-06-03T15:00:00"
}

接下来，我们可以使用以下查询来计算每个用户每天平均访问的页面数量，并返回每个时间段内访问量最大的前10个页面：

POST /log_index/_search
{
  "size": 0,
  "aggs": {
    "user_page_stats": {
      "composite": {
        "sources": [
          {"user_id": {"terms": {"field": "user_id.keyword"}}},
          {"date": {"date_histogram": {"field": "timestamp", "interval": "day"}}}
        ]
      },
      "aggs": {
        "page_count": {
          "cardinality": {
            "field": "page_url.keyword"
          }
        },
        "top_pages": {
          "terms": {
            "field": "page_url.keyword",
            "size": 10
          }
        }
      }
    }
  }
}

在这个查询中，我们首先使用 composite 聚合按照用户ID和日期对访问记录进行分组。其中 "date_histogram" 表示将时间戳按照天进行划分。

然后，我们在 "user_page_stats" 桶中添加了两个子聚合：

"page_count" 子聚合使用 cardinality 聚合计算每个用户在每天访问的不同页面数量。
"top_pages" 子聚合使用 terms 聚合计算每个时间段内访问量最大的前10个页面。

执行以上查询后，返回的结果如下所示：

{
  ...
  "aggregations": {
    "user_page_stats": {
      "buckets": [
        {
          "key": {
            "user_id": "user1",
            "date": 16804
          },
          "doc_count": 2,
          "page_count": {
            "value": 2
          },
          "top_pages": {
            "buckets": [
              {
                "key": "/product/123",
                "doc_count": 1
              },
              {
                "key": "/blog/456",
                "doc_count": 1
              }
            ]
          }
        },
        {
          "key": {
            "user_id": "user1",
            "date": 16805
          },
          "doc_count": 1,
          "page_count": {
            "value": 1
          },
          "top_pages": {
            "buckets": [
              {
                "key": "/product/789",
                "doc_count": 1
              }
            ]
          }
        },
        {
          "key": {
            "user_id": "user2",
            "date": 16805
          },
          "doc_count": 1,
          "page_count": {
            "value": 1
          },
          "top_pages": {
            "buckets": [
              {
                "key": "/blog/789",
                "doc_count": 1
              }
            ]
          }
        },
        {
          "key": {
            "user_id": "user2",
            "date": 16806
          },
          "doc_count": 2,
          "page_count": {
            "value": 2
          },
          "top_pages": {
            "buckets": [
              {
                "key": "/product/123",
                "doc_count": 1
              },
              {
                "key": "/product/456",
                "doc_count": 1
              }
            ]
          }
        }
      ]
    }
  }
}

根据返回结果可以看出，这个查询实现了我们的需求。例如，针对用户 "user1"，在日期 "2023-06-01"，他访问了2个不同的页面（"/product/123" 和 "/blog/456"），在日期 "2023-06-02"，他访问了1个不同的页面（"/product/789"）。而在每个日期内，他访问量最大的前10个页面，也被正确地计算了出来。

这个示例展示了如何使用Metric聚合对Elasticsearch中的数据进行分析和统计。需要注意的是，具体的聚合方式和参数取决于我们的需求和数据特征。

ElasticSearch学习笔记(九) 聚合查询之Metric

Metric聚合

完整示例

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

ElasticSearch学习笔记(九) 聚合查询之Metric

Metric聚合

完整示例

热门文章

最新文章

相关课程

相关电子书