Elasticsearch 聚合 API

2025年3月17日 | 阅读 7 分钟

Elasticsearch 提供了聚合 API，用于数据聚合。聚合框架根据搜索查询提供聚合数据。简单来说，聚合框架收集由搜索查询选择的所有数据并提供给用户。它包含几个构建块，有助于构建复杂的数据摘要。聚合生成在 Elasticsearch 中可用的分析信息。

以下是需要注意的关于聚合的一些重要点

聚合可以组合在一起以构建复杂的数据摘要。
它可以被认为是 工作单元，它在 Elasticsearch 中可用的一组文档上进行分析信息。
它基本上基于构建块。
聚合函数与 SQL AVERAGE 和 GROUP BY COUNT 函数相同。
在使用 Elasticsearch 中的聚合时，我们可以对任何数字字段执行 GROUP BY 聚合，但是对于文本字段，我们必须是 keyword 类型（keyword 类似于索引）或具有 fielddata = true。

查看下图，了解聚合的样式

聚合语法

聚合的基本结构 -

"aggregation" : {
    "<aggregation_name1>" : {
         "<aggregation_type>" : {
                  <aggregation_body>
              "field " : "document_field_name" 
}

[ , "meta" : { [<meta_data_body>] } ]?
[ , "aggregation" : { [<sub_aggregation>] + } ]?
     }
     [ , "<aggregation_name_2>"  : { . . . } ]*
}

我们可以在一个操作中使用多个聚合。

aggregation - 它是 JSON 中的一个对象，用于保存要计算的聚合。您也可以使用 aggs 关键字代替 aggregation。

aggregation_name - 每个聚合都有一个由用户定义的逻辑名称。例如，使用 avg_price 来计算平均价格。

aggregation_type - 它是聚合的类型，因为每个聚合都有一个特定的名称。

aggregation_body - 每个聚合类型都包含其自己的聚合主体，这取决于聚合的性质。

field - 这是一个字段关键字。

document_field_name - 它是文档中目标列的名称。

聚合类型

在 Elasticsearch 中，有几种类型的聚合可用，其中每个聚合都有其自己的目的和输出。为了简化，它们被概括为 4 个主要系列，如下所示 -

度量聚合
分桶聚合
矩阵聚合
管道聚合

度量聚合

度量聚合是一种聚合类型，负责跟踪度量指标。度量聚合从聚合文档的字段值计算矩阵。它还有助于计算一组文档的度量指标。

一些聚合生成数值度量指标，它们要么是 -

单值数值度量聚合，例如 平均聚合 或
多值数值度量聚合，例如 stats

分桶

分桶是一组聚合，负责构建桶。它不像度量聚合那样计算字段的度量指标。在此聚合中，每个桶都与一个键和一个文档相关联。桶聚合用于分组或创建数据桶。这些数据桶可以基于现有字段、范围和自定义过滤器等。

矩阵聚合

矩阵聚合是一种对多个字段进行操作的聚合。它对多个字段起作用，并从从请求文档字段中提取的值生成矩阵结果。矩阵不支持脚本。

流水线

正如名称本身所暗示的那样，它从其他聚合的输出中获取输入。换句话说，我们可以说 - 管道聚合负责聚合其他聚合的输出。

所有这些聚合都进一步分类，特别是桶、管道和度量聚合。

五个重要的聚合

下面通过示例描述了 Elasticsearch 的一些重要聚合。

平均聚合
词条聚合
基数聚合
Stats 聚合

Avg 聚合

平均聚合用于计算索引中任何数值字段的平均值。在创建查询时，在查询中指定聚合名称 avg。查看以下示例以查找字段 “fees” 的平均值

复制代码

POST student1/ _search/
{
  "aggs": {  
       "avg_fees": {
               "avg" : { 
                    "field": "fees"
                }
          }
    }
}

通过执行上述代码，我们将获得文档中存在的费用的平均值。

响应

您将获得类似以下响应的输出。

{ 
"took": 1251,
"timed_out": false,
"_shards": {
"total": 1,
"successful": 1,
"skipped": 0,
"failed": 0
},
"hits": {
                   "total": {
 "value": 3,
 "relation": "eq"
          },
"max_score": 1,
"hits": [
   {
         "index": "student1",
         "type": "_doc",
         "id": "01",
         "score": 1,
         "_source": {
 "name ": "Denial Parygen",
 "dob": "07/Aug/1998",
 "course": "Mass Communication",
 "Addmission year": "2018",
 "email": "denial@gmail.com",
 "street": "3511 Rodney Street", 
 "state": "Missouri", 
 "country": "United States", 
 "zip": "62208",
 "fees": "24800"
   }
            },
 {
         "index": "student1",
         "type": "_doc",
         "id": "03",
         "score": 1,
         "_source": {
 "name ": "Bob Hana",
 "dob": "13/Sep/1998",
 "course": "BFA",
 "Addmission year": "2019",
 "email": "bob@gmail.com",
 "street": "724 Monroe Street", 
 "state": "Hauston", 
 "country": "United States", 
 "zip": "77063",
 "fees": "18900"
   }
           },
{
         "index": "student1",
         "type": "_doc",
         "id": "02",
         "score": 1,
         "_source": {
 "name ": "Jass Fernandiz",
 "dob": "07/Aug/1996",
 "course": "Bcom (H)",
 "Addmission year": "2019",
 "email": "jassf@gmail.com",
 "street": "4225 Ersel Street", 
 "state": "Texas", 
 "country": "United States", 
 "zip": "76011",
 "fees": "22900"
   }
           }
       ]
   },
   "aggregations": {
           "avg_fees": {
                  "value": "22200"
         }
     }
}

如果该字段缺失

如果该字段不存在（您正在计算平均值），则默认情况下会忽略它并返回一个空值。您可以在聚合中添加一个缺失字段（“missing”: 0）以将缺失值视为默认值。执行以下代码

复制代码

POST new_student/ _search/
{
    "aggs": {  
       "avr_fees": {
               "avg" : { 
                    "field": "fees",
                    "missing": 0
                }
          }
    }
}

词条聚合

词条聚合负责通过字段值生成桶。通过选择一个字段（如名称、入学年份等），它生成桶。在创建查询时，在查询中指定聚合名称。

执行以下代码以搜索按入学年份字段分组的值

复制代码

POST student/ _search/
{
   "size": 0,  
    "aggs": {  
       "group_by_Addmission year": {
               "terms" : { 
                    "field": "Addmission year.keyword"
                }
          }
    }
}

通过执行上述代码，输出将作为按入学年份分组的结果返回。

响应

您将获得类似以下响应的输出。

{ 
"took": 179,
"timed_out": false,
"_shards": {
"total": 1,
"successful": 1,
"skipped": 0,
"failed": 0
},
"hits": {
                   "total": {
 "value": 3,
 "relation": "eq"
          },
"max_score": null,
"hits": [ ]
},
  "aggregations":  {
         "group_by_Addmission year": {
             "student1",
             "doc_count_error_upper_bound": 0,
             "sum_other_doc_count": 0,
              "buckets": [
              {
      "key ": "2019",
      "doc_count": 2 
 },
 {
      "key": "2018",
      "doc_count": 1
}
                  ]
          }
     }
}

上面的查询和响应将类似于 elasticsearch-head 插件中的以下屏幕截图

基数聚合

找到一个字段的唯一值是一个常见的要求。基数聚合有助于查找任何特定字段的唯一值。它有助于确定索引中存在的唯一元素的数量。

在创建查询时，在查询中指定聚合名称。执行以下代码以查找字段的唯一值的数量

复制代码

POST student/ _search/
{
   "size": 0,  
    "aggs": {  
       "unique_fees": {
               "cardinality" : { 
                    "field": "fees"
                }
          }
    }
}

通过执行上述代码，输出将返回 fees 字段在 student 索引中的唯一值的总数。

响应

您将获得类似以下响应的输出。

{ 
"took": 85,
"timed_out": false,
"_shards": {
"total": 1,
"successful": 1,
"skipped": 0,
"failed": 0
},
"hits": {
                   "total": {
 "value": 3,
 "relation": "eq"
          },
"max_score": null,
"hits": [ ]
},
  "total":  {
              "value": 3,
              "relation": "eq":             
       }
       "max_score ": null
        "hits": [ ]
},
"aggregations": {
      "unique_fees": {
      "value": 3
}
                  ]
          }
     }
}

请参阅以下屏幕截图，了解如何在 elasticsearch head 插件中运行查询并返回结果 -

Stats 聚合

Stats 聚合代表统计信息，它是一个多值数值矩阵聚合。它有助于一次生成总和、平均值、最小值、最大值和计数。当聚合文档很大时，此聚合允许为特定的数值字段生成所有统计信息。查询结构与其他聚合相同。

执行以下代码以一次查找总和、平均值、最小值、最大值和计数

复制代码

POST student/ _search/
{
       "aggs": {  
       "stats_fees": {
               "extended_stats" : { 
                    "field": "fees"
                }
          }
    }
}

响应

通过执行上述代码，您将获得如下响应。

{ 
"took": 75,
"timed_out": false,
"_shards": {
"total": 1,
"successful": 1,
"skipped": 0,
"failed": 0
},
"hits": {
                   "total": {
 "value": 3,
 "relation": "eq"
          },
"max_score": null,
"hits": [ ]
},
"aggregation": {
    "stats_fees": {
            "count": 3,
"min": 18900,
"max": 24800,
"avg": 22200,
"sum": 66600,
"sum_of_square": 1496660000,
"variance": 9070000,
"std_deviation": 3011.644,
"std_deviation_bounds": {
       "upper": 2600,
       "lower": 700
                  }
          }
     }
}

过滤器聚合

过滤器聚合有助于在单个桶中过滤文档。它的主要目的是通过过滤文档为用户提供最佳结果。让我们举一个例子，根据 “fees” 和 “Addmission year” 过滤文档。这将返回与查询中指定的条件匹配的文档。您可以使用您想要的任何字段来过滤文档。

执行以下代码以过滤与您在查询中指定的条件匹配的文档

复制代码

POST student/ _search/
{
       "query": {  
            "bool": {
                "filter": [
                     { "term": { "fees": "22900" } },
                     { "term": { "Addmission year": "2019" } },
                ]
          }
    }
}

响应

通过执行上述代码，您将获得如下响应。

{ 
"took": 5,
"timed_out": false,
"_shards": {
"total": 1,
"successful": 1,
"skipped": 0,
"failed": 0
},
"hits": {
                   "total": {
 "value": 1,
 "relation": "eq"
          },
"max_score": 0,
"hits": [ ]
{
          "index": "student",
         "type": "_doc",
         "id": "02",
         "score": 1,
         "_source": {
 "name ": "Jass Fernandiz",
 "dob": "07/Aug/1996",
 "course": "Bcom (H)",
 "Addmission year": "2019",
 "email": "jassf@gmail.com",
 "street": "4225 Ersel Street", 
 "state": "Texas", 
 "country": "United States", 
 "zip": "76011",
 "fees": "22900"
                  }
             }
         ]
     }
}

上面的查询和响应将类似于 elasticsearch head 插件中的以下屏幕截图 -