Мониторинг

Мониторинг — непрерывный сбор метрик, логов и трасс, чтобы видеть деградацию до того, как пользователи позвонят в поддержку. Типичная цепочка: экспортёр → хранилище временных рядов → дашборд → алерт.

Уровни зрелости

1. Локально — `htop`, `glances`, `journalctl`.

2. Сервер / VMПрактикум Prometheus и Grafana или Практикум Zabbix.

3. Кластер и облако — kube-prometheus, Datadog, Zabbix с SLA-картами.


Локальный мониторинг (один хост)

Инструмент Метрики
htop CPU, RAM, процессы
glances Всё в одном + веб/API
nmon CPU, диск, сеть → CSV
bpytop Визуализация в терминале
sysstat (iostat, vmstat, mpstat) Диск, память, CPU
dstat Нагрузка с плагинами
sudo apt install htop glances sysstat

Сетевой мониторинг

Инструмент Назначение
iftop, nethogs Трафик по соединениям / процессам
tcpdump, Wireshark Захват пакетов
nmap Доступность портов

См. также Трафик.


Prometheus-экосистема

Пошаговый учебный стенд — Практикум Prometheus и Grafana, Практикум Zabbix. Теория — мониторинг в sysadmin, справочник — Справочник по Prometheus.

Компонент Роль
Prometheus Хранение метрик, PromQL
node_exporter Метрики ОС
cAdvisor Метрики контейнеров
Blackbox Exporter Проверка HTTP/TCP/DNS снаружи
Alertmanager Маршрутизация алертов
# Упрощённо: скачать бинарники с GitHub Releases prometheus и node_exporter
wget https://github.com/prometheus/prometheus/releases/latest/download/prometheus-*.linux-amd64.tar.gz

Визуализация и "всё в одном"

Продукт Особенность
Grafana Дашборды для Prometheus, Loki, InfluxDB — практикум, шаг 4
Netdata Агент + UI без долгой настройки

Логи

Стек Назначение
ELK (Elasticsearch, Logstash, Kibana) Централизованный поиск
Graylog Упрощённая альтернатива ELK
Loki + Promtail Логи в стиле Prometheus — практикум, шаг 7
journalctl Локальные логи systemd
journalctl -u nginx --since "1 hour ago" -f

Корпоративный и облачный мониторинг

Система Сильные стороны
Zabbix Агенты, карты, SLA, оповещения — практикум Zabbix
Prometheus + Grafana Cloud-native метрики и дашборды — практикум
Nagios / Checkmk Классическая доступность служб
Datadog, New Relic, Dynatrace SaaS, APM, облака

Быстрая диагностика нагрузки

Утилита Задача
stress-ng Стресс CPU/RAM/IO
sysbench Бенчмарк CPU/диска
iperf3 Пропускная способность сети
mtr ping + traceroute

См. также