Мониторинг
Мониторинг — непрерывный сбор метрик, логов и трасс, чтобы видеть деградацию до того, как пользователи позвонят в поддержку. Типичная цепочка: экспортёр → хранилище временных рядов → дашборд → алерт.
Уровни зрелости
1. Локально — `htop`, `glances`, `journalctl`.
2. Сервер / VM — Практикум Prometheus и Grafana или Практикум Zabbix.
3. Кластер и облако — kube-prometheus, Datadog, Zabbix с SLA-картами.
Локальный мониторинг (один хост)
| Инструмент | Метрики |
|---|---|
| htop | CPU, RAM, процессы |
| glances | Всё в одном + веб/API |
| nmon | CPU, диск, сеть → CSV |
| bpytop | Визуализация в терминале |
sysstat (iostat, vmstat, mpstat) |
Диск, память, CPU |
| dstat | Нагрузка с плагинами |
sudo apt install htop glances sysstat
Сетевой мониторинг
| Инструмент | Назначение |
|---|---|
| iftop, nethogs | Трафик по соединениям / процессам |
| tcpdump, Wireshark | Захват пакетов |
| nmap | Доступность портов |
См. также Трафик.
Prometheus-экосистема
Пошаговый учебный стенд — Практикум Prometheus и Grafana, Практикум Zabbix. Теория — мониторинг в sysadmin, справочник — Справочник по Prometheus.
| Компонент | Роль |
|---|---|
| Prometheus | Хранение метрик, PromQL |
| node_exporter | Метрики ОС |
| cAdvisor | Метрики контейнеров |
| Blackbox Exporter | Проверка HTTP/TCP/DNS снаружи |
| Alertmanager | Маршрутизация алертов |
# Упрощённо: скачать бинарники с GitHub Releases prometheus и node_exporter
wget https://github.com/prometheus/prometheus/releases/latest/download/prometheus-*.linux-amd64.tar.gz
Визуализация и "всё в одном"
| Продукт | Особенность |
|---|---|
| Grafana | Дашборды для Prometheus, Loki, InfluxDB — практикум, шаг 4 |
| Netdata | Агент + UI без долгой настройки |
Логи
| Стек | Назначение |
|---|---|
| ELK (Elasticsearch, Logstash, Kibana) | Централизованный поиск |
| Graylog | Упрощённая альтернатива ELK |
| Loki + Promtail | Логи в стиле Prometheus — практикум, шаг 7 |
| journalctl | Локальные логи systemd |
journalctl -u nginx --since "1 hour ago" -f
Корпоративный и облачный мониторинг
| Система | Сильные стороны |
|---|---|
| Zabbix | Агенты, карты, SLA, оповещения — практикум Zabbix |
| Prometheus + Grafana | Cloud-native метрики и дашборды — практикум |
| Nagios / Checkmk | Классическая доступность служб |
| Datadog, New Relic, Dynatrace | SaaS, APM, облака |
Быстрая диагностика нагрузки
| Утилита | Задача |
|---|---|
| stress-ng | Стресс CPU/RAM/IO |
| sysbench | Бенчмарк CPU/диска |
| iperf3 | Пропускная способность сети |
| mtr | ping + traceroute |