您现在的位置是:主页 > 数据存储 >

云服务器租用-标记监视器的最佳实践

2020-10-27 10:41数据存储 人已围观

简介提示/标记/监视器/警报/datadogtag为跨环境的任何维度解决问题提供了关键上下文。通过应用标记系统的最佳实践,您可以高效地组织和分析所有监视数据,并设置自动多警报以简化警报...

标记监视器的最佳实践

提示/标记/监视器/警报/datadogtag为跨环境的任何维度解决问题提供了关键上下文。通过应用标记系统的最佳实践,您可以高效地组织和分析所有监视数据,并设置自动多警报以简化警报工作流。类似添加到服务和基础设施中的任何标记,云呢拿,应用于监视器的监视标记标记是组织和简化工作流的基本功能。这篇博客文章将重点介绍标记监视器的推荐最佳实践,并介绍了广泛使用监视器标记的许多好处:轻松筛选监控器和事件配置监控器的停机时间构建丰富的仪表板更好地组织您的服务级别目标标记监控器标记的好处为监控器添加维度,允许您筛选、聚合,并将其可视化,就像Datadog中的任何其他类型的监视数据(即度量、日志和跟踪)一样。如果使用得当,监视器标记可以帮助您有效地组织监视器,并简化管理和使用监视器的方式,从而使故障排除变得更容易问题。如果您的组织中有许多团队都使用广泛的监视器来跟踪他们的服务监视器标记允许每个人获得每个监视器的基本上下文,并且立即使用这些信息做出适当的回应。只要查看监控器的标记,组织中的任何人都可以立即了解该监控器的存在原因、由哪个团队拥有它、涉及哪个服务,并在格兰斯。得到从监视器标记开始创建监视器时,应该考虑如何用描述如何此监视器与您的基础结构、应用程序、团队和其他监控器相关。虽然有很多方法可以使用标记来组织监视器,但通常,我们推荐:在至少,在每个监视器上标记相关的团队、服务和环境键:值格式。标记使用组织的内部优先级术语或分数,返利助手,按严重性/优先级划分监控器。这不仅使按优先级筛选监控器变得更容易,大数据是什么,还可以帮助您思考在创建监控器时特定监控器的重要性。这也是一个重要的考虑因素,可以帮助你减少由大量不必要的警觉疲劳引起的监视器。标记每个APM监视器及其正在发出警报的特定端点/资源开。如果您打算将监视器用作服务级别目标(SLO)中的服务级别指示器(SLI),用SLI类型标记该监视器它表示(吞吐量、延迟、可用性等)。在Datadog中,您还可以选择用值标记监视器,但不使用键。在某些情况下,无键标记可以用于描述特定监视器的某些特性,而这些特性对于使用键与其他值分组没有意义。例如,如果要将监视器创建为测试,则可以简单地用test标记它。但是,一般来说,我们建议使用键:值标记只要有可能,因为很难组织和标准化没有有意义的键来帮助分组的标记一起。下面是一个带有上述所有建议的APM监视器的示例。此APM监视器已标记为:'服务:网络商店', '环境:shop.ist','资源_名称:shoppingcartcontroller_checkout', '严重程度:高', '团队:后端'测试'和'sli:吞吐量'使用有用的元数据标记监视器和事件,您可以使用这些标记快速查找Datadog帐户中的特定监视器。只需在搜索查询中包含一个标记方面,对于键值对标记使用tag::,对于无键标记使用tag:。您还可以使用布尔逻辑运算符来搜索标签。输入在下面的示例中,我们正在"管理监控器"页面中搜索标记为的监控器服务:网络商店,资源_名称:shoppingcartcontroller_checkout,和团队:后端。要以编程方式管理或搜索监视器,可以使用datadog_monitor Terraform资源中的tags参数。还可以使用Datadog Monitors API以编程方式搜索特定监控器,使用相同的标记查询。这样做将返回与搜索查询匹配的所有监控器的ID和其他详细信息,这些信息又可以作为其他API功能(如静音和解析)的输入监视器。复制自数据狗导入初始化,api选项={"api密钥":"",返现网,"应用程序密钥":""}初始化(**选项)#搜索监视器api.Monitor.search(query="标签:(服务:网络商店和资源_名称:shoppingcartcontroller_checkout以及团队:后端))每当监控器触发或从警报状态恢复时,Datadog都会创建一个事件,帮助您跟踪状态的此更改。你可以包括来源:警报在Datadog的事件流中查找与监视器相关的事件的搜索查询。通过添加标记查询,可以使用标记精确地向下钻取。在本例中,我们使用monitor标记筛选与特定团队和服务关联的事件。使用Datadog事件API,还可以使用tags参数以编程方式查询与监视器相关的Datadog事件流事件。复制自数据狗导入初始化,api导入时间选项={"api密钥":"","应用程序密钥":""}初始化(**选项)结束时间=时间。时间()开始时间=结束时间-100api.Event.query(开始=开始时间,end=结束时间,云服务器商,来源=警报"],标签=团队:demo env,服务:网络商店,资源_名称:shoppingcartcontroller_checkout"],未聚合=真)在搜索中利用标记可以让您更快地响应触发的监视器,更快地开始故障排除过程,并将问题对您的潜在影响降到最低用户。配置监视器停机在某些情况下,您可能不希望触发监视器(例如,在计划的维护窗口期间)。要计划这些情况并减少潜在的警报疲劳,可以为监视器配置停机时间,这将禁止在指定时间段内发送的任何通知。这不会影响监控器的状态(即,这不会阻止监控器输入触发状态,如警报或警告),但有助于确保您的团队不会收到不必要的警报通知。你可以通过搜索要静音的监控器的名称来安排停机时间。但是,如果有大量监视器会受到维护窗口的影响,那么手动输入每个监视器的名称将很快成为一个非常繁琐的过程。幸运的是,如果您已经标记了监控器,则可以输入一组特定的标记来安排有意义的监控器组的停机时间。因此,使用相同的示例,如果要禁用与后端团队、web商店服务和shoppingcartcheckout_控制器资源关联的所有监控器,可以在Datadog UI中输入这些标记,如下所示。在以编程方式安排停机时间时,也可以通过Datadog downttimes API的monitor_tags参数或地形。复制自数据狗导入初始化,api导入时间选项={"api密钥":"","应用程序密钥":""}初始化(**选项)#每周六重复2小时(从现在开始),持续4周。开始时间=int(时间。时间())结束时间=开始时间+(2*60*60)结束时间=开始时间(4*7*24*60*60)#4周后重复次数={'类型':'周',"句点":1,'星期几':['星期六'],"截止日期":结束记录}#计划停机时间api.Downtime.create(作用域='环境:演示',监视器标记='团队:演示,服务:网络商店,资源_名称:shoppingcartcontroller_checkout'start=开始,end=结束,recurrence=重复)增强仪表板还可以使用监视器标记增强仪表板。例如,您可以向任何屏幕板添加监视器摘要小部件,以便快速查看相关监视器的状态。要在监控器摘要小部件中创建和筛选结果,请在小部件编辑器中输入搜索查询,就像在管理监控器或触发监控器页面中一样。您还可以使用Monitor Summary小部件以编程方式创建监控器摘要小部件API.以下是一个监控器摘要小部件的示例,该小部件使用与上面的管理监控器页面示例相同的搜索查询。您还可以使用相同的基于标记的查询来覆盖事件,例如仪表板中timeseries图形上的已触发监控器。组织服务级别对象如果要将监控器用作SLO中的SLI,建议使用它跟踪的SLI类型标记该监控器。这允许您通过使用SLI标记搜索Manage monitors或trigged monitors来轻松查找跟踪特定类型SLI的所有监控器页面。标记基于SLI的监视器还可以帮助您更好地组织slo。创建基于监视器的SLO时,该SLO将自动继承其组成监控器的标记。这意味着您可以在需要快速筛选服务级别目标视图以根据团队、环境或任何其他相关标记查找特定SLO时使用这些标记。下面,我们可以看到SLO的details面板,它使用与SLI相同的监视器。由于SLO自动继承了此监视器的标记,因此我们可以使用这些标记在"服务级别目标"视图中搜索此SLO。主要收获在这篇文章中,我们介绍了标记监视器的最佳实践,并探讨了标记如何帮助您快速找到实时故障排除所需的信息。我们也看到了键:值标记帮助你:简化为监控器安排停机时间的方式;创建显示特定监控器的实时状态的丰富仪表板;和

Tags: 最佳  实践  监视器  标记 

站点信息

  • 文章统计3903篇文章
  • 标签管理标签云
  • 微信公众号:扫描二维码,关注我们