Всем привет доброго лета!
Задача из уст заказчика звучала следующим образом : \»мониторинг яндекса сказал что сайт не работает, при этом сервер пингуется\».
Ну первым делом лезу на подвластный мне сервер, смотрю логи :
- аптайм 100 дней, перезагрузок не было
- интерфейсы не гасились
- ддоса не было
- и как оказывается дц говорит что перебоев со связью тоже не было
тут я понимаю что нужно наконец таки поставить систему логирования состояния системы, процессов, трафика и тд. Дабы в будущем можно было смотреть что происходило. Сначала рука дернулась в сторону zabbix, но представив сколько данных нужно туда запихнуть, отложил на пару дней, решил поставить что-то крайне простое изученное и стабильное. Первым же вспомнился atop, почитав мануал, 5 минут гугл и 10 хабр, понял что это на 90% то что нужно! Есть логирование в raw, есть чтение из raw, и что само приятное есть стартовый скрипт init.d из коробочки!
Настраиваем:
# update-rc.d atop enable
#echo \"Уменьшаем интервал логирования с 60 до 5 секунд:\"
# sed -i \"s/DARGS=\\\"-a -w \\/var\\/log\\/atop.log 5\\\"/DARGS=\\\"-a -w \\/var\\/log\\/atop.log 50\\\"/\" /etc/init.d/atop
# service atop start
# ps aux|grep atop
root 18856 0.4 0.0 17224 4944 ? S<L 17:49 0:07 /usr/bin/atop -a -w /var/log/atop.log 5
Замечательно, настала пора посмотреть что же мы наделали 🙂
Для начала основные ключи программы в режиме просмотра бинарных файлов:
t — перематываем время вперед
shift+t — перематываем назад. Перемотка по умолчанию ведется в интервале который мы указывали в конфигурационном файле = 5 секунд
-b 18:03 — Время на которое произойдет перемотка и которое нам интересно.
#atop -r /var/log/atop.log
Наслаждаемся и учим клавиши!
Далее список просто полезных клавиш, знание которых необходимо для грамотной работы с atop:
- h — покажет полную понятную справку
- сортировки:
- m — сортировка по занятой памяти
- d — сортировка по использованию диска
- v — подробная информация о процессах (пользователь, дата, время начала процесса)
- u — сортировка по пользователям
- Использование shift+(d,m,n) выстроит текущий список по выше указанным параметрам.
- i — изменение времени проверки, по умолчанию 10 секунд.
- n — сортировка по использованию сети
- g — вернет все в дефолтный вывод.
Ждем повторения инцедента во всеоружии.
Попутно прикручиваем zabbix, продолжение статей на тему статистики -мониторинга следует…