专业接各种小工具软件及爬虫软件开发，联系Q：2391047879

Python小工具资源库 > 小工具 >

Linux系统资源监控与报警通知工具

发布时间: 2025-07-16 13:24:01 浏览量: 本文共包含874个文字，预计阅读时间3分钟

运维工程师最怕凌晨三点的告警电话，但比这更可怕的是系统崩溃后才发现问题。选择得力的监控工具如同雇佣全年无休的机房巡检员，本文将以实战视角解析七款工具的组合策略。

一、老牌监控三剑客

终端里的htop像是系统资源的显微镜，彩色进程列表与快捷键操作让新手也能快速锁定异常进程。当某个Java服务吃掉80%内存时，它的内存柱状图会像温度计般直观变红，按F9送它去「休息室」比直接kill优雅得多。

Nagios的cfg文件配置如同搭积木，在/usr/local/nagios/etc目录下新建service.cfg，添加：

```bash

define service{

use generic-service

host_name web-server

service_description CPU Load

check_command check_nrpe!check_load

```

就能监控远程服务器的CPU负载。其插件库支持对接微信机器人，当磁盘使用率超90%时，会自动@运维组成员。

Zabbix的自动发现功能堪称服务器版金属探测器，在云主机频繁伸缩的场景下，自动注册新节点并关联监控模板。其触发器表达式支持类似：

```bash

{web01:system.cpu.load[all,avg1].last(0)}>5

```

这种条件判断能精准捕捉到凌晨突发的CPU过载事件。

二、云原生监控新势力

Prometheus的时间序列数据库采用拉取模式，在k8s集群中部署exporters后，配置scrape_configs抓取指标数据。当某个Pod内存泄漏时，PromQL查询语句：

```promql

container_memory_working_set_bytes{namespace="prod"} > 1e9

```

能快速筛选出内存超限的容器，配合Grafana的饼图展示，问题容器会像信号灯般突出显示。

Netdata的web仪表盘藏着五十多种监控面板，其分布式架构支持将十台服务器的指标汇聚到中央仪表盘。在Nginx监控模块里，每秒请求数、4xx错误率、响应延时三个曲线图同屏显示，流量突增导致的错误率攀升一目了然。

三、轻量级监控利器

Monit的守护进程像贴身保镖，在/etc/monitrc中配置：

```bash

check process nginx with pidfile /var/run/nginx.pid

start program = "/etc/init.d/nginx start

stop program = "/etc/init.d/nginx stop

if failed port 80 then restart

```

当Nginx意外挂掉，它会先尝试重启服务，失败后自动发邮件给管理员。这种「先处理再通知」的机制，比直接告警更实用。

用Python写自定义监控脚本时，建议结合psutil库和钉钉webhook：

```python

import psutil

import requests

mem = psutil.virtual_memory

if mem.percent > 90:

requests.post(dingtalk_url, json={"text":"内存爆了！使用率"+str(mem.percent)+"%"})

```

这种脚本适合监控特定业务进程，比如游戏服务器的玩家连接数突增检测。

报警策略设置需避免「狼来了」效应：设置CPU持续5分钟超80%才触发告警；磁盘预测模块会根据历史数据预估填满时间，提前三天预警；报警信息必须包含IP、时间戳、当前值、历史曲线链接四个要素。当收到告警时，先查关联系统的日志文件，比如/var/log/messages里的OOM记录能解释内存告警的根源。