Сервер упал «вчера» или назад в будущее. Настраиваем atop! — Администрирование devops сопровождение проектов

Сервер упал «вчера» или назад в будущее. Настраиваем atop!

Всем привет доброго лета! Задача из уст заказчика звучала следующим образом : \»мониторинг яндекса сказал что сайт не работает, при этом сервер пингуется\». Ну первым делом лезу на подвластный мне сервер, смотрю логи :
  • аптайм 100 дней, перезагрузок не было
  • интерфейсы не гасились
  • ддоса не было
  • и как оказывается дц говорит что перебоев со связью тоже не было
тут я понимаю что нужно наконец таки поставить систему логирования состояния системы, процессов, трафика и тд. Дабы в будущем можно было смотреть что происходило. Сначала рука дернулась в сторону zabbix, но представив сколько данных нужно туда запихнуть, отложил на пару дней, решил поставить что-то крайне простое изученное и стабильное.  Первым же вспомнился atop, почитав мануал, 5 минут гугл и 10 хабр, понял что это на 90% то что нужно! Есть логирование в raw, есть чтение из raw, и что само приятное есть стартовый скрипт init.d из коробочки! Настраиваем:
# update-rc.d atop enable

#echo \"Уменьшаем интервал логирования с 60 до 5 секунд:\"

# sed -i \"s/DARGS=\\\"-a -w \\/var\\/log\\/atop.log 5\\\"/DARGS=\\\"-a -w \\/var\\/log\\/atop.log 50\\\"/\"  /etc/init.d/atop

# service atop start

# ps aux|grep atop
root 18856 0.4 0.0 17224 4944 ? S<L 17:49 0:07 /usr/bin/atop -a -w /var/log/atop.log 5
    Замечательно, настала пора посмотреть что же мы наделали 🙂 Для начала основные ключи программы в режиме просмотра бинарных файлов: t — перематываем время вперед shift+t — перематываем назад. Перемотка по умолчанию ведется в интервале который мы указывали в конфигурационном файле = 5 секунд -b 18:03 — Время на которое произойдет перемотка и которое нам интересно. #atop -r /var/log/atop.log Наслаждаемся и учим клавиши!   Далее список просто полезных клавиш, знание которых необходимо для грамотной работы с atop:
  • h — покажет полную понятную справку
  • сортировки:
    • m — сортировка по занятой памяти 
    • d — сортировка  по использованию диска 
    • v — подробная информация о процессах (пользователь, дата, время начала процесса)
    • u — сортировка по пользователям
    • Использование shift+(d,m,n) выстроит текущий список по выше указанным параметрам.
    • i — изменение времени проверки, по умолчанию 10 секунд.
    • n — сортировка по  использованию сети 
  • g — вернет все в дефолтный вывод.
  Ждем повторения инцедента во всеоружии. Попутно прикручиваем zabbix,  продолжение статей на тему статистики -мониторинга следует…
Другие новости
03.08.2024
Сервер упал «вчера» или назад в будущее. Настраиваем atop!

Всем привет доброго лета! Задача из уст заказчика звучала следующим образом : \»мониторинг яндекса сказал что сайт не работает, при этом сервер пингуется\». Ну первым делом лезу на подвластный мне сервер, смотрю логи : аптайм 100 дней, перезагрузок не было

Хранение конфигурационных файлов в Git (Gitlab)

Было время не хранил я ничего в гите, и было это не торт. Один неверный символ мог съесть уйму времени! Годы шли и однажды прислушался к совету друга программиста использовать гитлаб.   Сервисы которые по своей идеологии не пересекаются я