一份运维监控的终极秘籍！监控不到位，宕机两行泪

发布时间：2019-02-14 16:48:41 所属栏目：资本来源：高效开发运维

导读：副标题#e# 有很多文章都提到过白盒监控和黑盒监控，以及监控的四个黄金指标。关于白盒与黑盒监控的定义，这里不再赘述。一般来说，白盒与黑盒分别从内部和外部来监控系统的运行状况，例如机器存活、CPU 内存使用率、业务日志、JMX 等监控都属于白盒监控，而

基础功能单元使用率，大多数系统对其基础的功能单元都有其处理能力的上限，接近或达到该上限时可能会导致服务的错误、延迟增大。例如 HDFS 的 Block 数量上升会导致 NameNode 堆内存使用率上升，Kafka 的 Topics 和 Partitions 的数量、Zookeeper 的 node 数的上升都会对系统产生压力。

消息队列长度，不少系统采用消息队列存放待处理数据，所以消息队列长度在一定程度上可以代表系统的繁忙程度。如 ElasticSearch、HDFS 等都有队列长度相关指标可供采集。

总结

以上总结了常见的监控指标采集方法，以及四个黄金指标所包含的常见内容。在实际工作中，不同的监控系统的设计多种多样，没有统一标准，并且不同的业务系统通常也有着特定的监控采集方法和不同的黄金指标定义，具体如何采集监控指标和添加告警都需要我们针对不同系统特点灵活应对。