Splunk 警报

17 Mar 2025 | 6 分钟阅读

在本 Splunk 教程 中,我们将学习 Splunk 中的警报如何创建警报、警报类型、警报工作流程、不同类型警报的比较、实时警报、计划警报、滚动时间窗口触发。

警报

当搜索结果满足特定条件时,就会发生警报。当警报激活时,我们可以使用警告操作来响应。它用于监视特定事件并对其做出响应。它包括用于使用的事实、说明和警告操作方案。

警报工作流程

警报结合了已保存的搜索、类型和触发器配置以及操作警报。以下是警报各个部分如何协同工作的一些详细信息。

搜索:我们想跟踪什么?

首先搜索我们希望跟踪的事件。将搜索另存为警报。

警报类型:我们希望多久检查一次事件?

警报使用我们保存的搜索来检查事件。设置警报类型以配置搜索的运行频率。使用计划警报定期检查事件。我们还可以使用实时警报来持续监控事件。

Splunk 平台中的警报触发条件和节流:我们希望多久触发一次警报?

警报不必在每次生成搜索结果时都触发 - 设置条件来管理警报触发时的触发。我们还可以限制警报以控制在初始警报后下一个警报可以触发的速度。

警报操作:当警报在 Splunk 环境中触发时会发生什么?

当警报触发时,可以初始化一个或多个警报操作。警报操作可以通知我们已触发的警报,并可以帮助我们开始响应。我们可以自定义警告操作的频率和类型。

警报类型

存在两种类型的警报,即计划警报和实时警报。警报类型的定义基于搜索警报的时间。我们可以根据情况自定义两种警报的时间、激活和其他操作。

警报类型比较

以下是计划和实时警报的比较。

警报类型它何时搜索事件触发选项节流选项
预定根据计划进行搜索。从可用的计时选项中选择,或使用 cron 表达式来安排搜索。根据结果或响应区域计数指定警告原因条件。在任何情况下,一组搜索结果满足 Splunk 中的触发条件时,警报可以针对每个结果触发一次。指定抑制时间段。
实时持续搜索。每个结果:每次有搜索结果时,都会触发。指定时间跨度和可选的抑制字段值。
实时持续搜索。滚动时间窗口:根据结果或结果字段计数,指定滚动时间窗口内的条件以触发警报。例如,当在五分钟的时间窗口内有 10 个以上的结果时,可以触发实时警报。指定抑制时间段。

警报类型和触发方案

一旦我们选择了计划或实时警报,我们就可以配置警报将如何触发结果。根据我们正在监视的事件,我们可能需要一个针对每个结果触发的实时警报,或者一个仅在结果满足特定条件时触发的计划警报。以下方案显示了警报和触发器类型的各种用例。

计划警报

使用计划警报定期搜索事件,并监视它们是否满足特定条件。如果即时或实时监控不是优先事项,则计划警报很有用。

场景

  • 一家在线零售商的目标是每天销售 500 件商品。零售商管理员创建一个计划警报来监控销售业绩。管理员将警告安排为每天 23:00 尝试销售事件。她将警告配置为在结果数量低于 500 时激活。
  • 管理员希望监控用户访问 404 错误页面的频率。管理员生成一个计划警告,每小时搜索一次 404 错误,如果结果超过 100 个,则触发警报。
  • 管理员生成一个计划警告,以检查在过去几个小时内是否没有数据提交到 Splunk 平台,如果该主机在过去几个小时内没有向 Splunk 平台提交数据。他将警报安排为每三个小时从主机搜索事件。管理员将警告配置为在搜索结果不存在时激活。

实时警报

实时警报不断扫描事件。在即时监控和响应相关的情况下,它们可能很有用。我们可以使用每次结果发生或仅在滚动限定时间段内满足这些条件的实时警告。

每个结果触发

具有触发条件的实时警报有时被称为“每个结果警报”。使用这种类型的警报和触发器持续搜索事件,并在事件发生时收到通知。

注意:在高可用性部署中使用每个结果触发时请谨慎。如果对等方不可用,则实时搜索不会警告搜索可能不完整。对于此部署,建议使用计划警报。

场景

以下是使用实际时间警报和每个结果触发的一些示例。

  • 社交网络上的网站管理员需要了解是否发生身份验证错误。她设置了一个实时警报以查找登录失败的尝试。她选择了一个每个结果的触发条件,以便她可以跟踪任何登录失败的尝试。
  • 管理员需要实时控制一系列主机的错误。一些错误需要比其他错误更立即的响应。管理员使用每个结果触发条件设置了一个实时警告。他是使用代表不太紧急的错误代码的字段和一小时的抑制期来控制警报流的。警报会导致任何紧急错误,但对于不太关键的错误,最多每小时触发一次。

滚动时间窗口触发

触发滚动时间窗口的实时警报有时被称为“滚动窗口警报”。当特定时间段是我们跟踪的事件序列的重要组成部分时,这种形式的警报和激活很有用。

场景

以下是使用实际时间警告来激活滚动时间窗口的一些示例。

  • 管理员希望每次用户在 10 分钟内有三次登录失败时收到通知。管理员设置一个实时警报来搜索登录失败,并配置一个 10 分钟的滚动时间窗口。管理员限制警报,以便它每小时仅导致来自同一用户的登录失败一次。
  • 管理员希望在 Web 应用程序在一分钟内发生 5 个以上连接错误时收到通知。管理员配置一个实时警报以搜索错误事件并指定一分钟的滚动窗口。如果搜索返回一个结果,然后在五分钟后返回另外四个结果,则警报不会触发。

在 Splunk Web 中创建实时警报

我们使用实时警报来监视事件或事件模式的发生情况。我们可以创建具有每个结果或滚动时间窗口触发的实时警报。实时警报在计算资源方面可能很昂贵,因此如果可能,请考虑使用计划警报。

创建具有每个结果触发的实时警报

具有每个输出触发的实时警报有时被称为每个结果警报。这种类型的警报和触发器使用连续的实时搜索来搜索事件。搜索的任何结果都会激活警告。

注意:如果我们在 Splunk Enterprise 中有高可用性部署,请谨慎使用每个结果触发。如果对等方不可用,则实时搜索不会警告搜索可能不完整。使用计划警报来避免该问题。

按照以下步骤生成带有每个结果触发的实际时间警告。

  1. 转到 Splunk Web 平台中的搜索和报告应用程序中的 搜索 页面。
  2. 创建搜索。
  3. 转到选择 另存为,然后点击警报
  4. 输入警报的标题和可选描述。
  5. 此外,为警报提供必要的权限。
  6. 在窗口中选择 实时 警报类型。
  7. (可选)如果希望警报在一段时间后过期,请更改 过期时间 设置。
  8. 选择 每个结果 触发选项。
  9. 选择警报触发时发生的一个或多个警报操作。
  10. 单击 保存

下一个主题Splunk 知识管理