Событийный мониторинг под микроскопом

Какие состояния бывают у мониторинговой "лампочки"?

13 Mar 2021


...

Вглядываюсь в то, какие состояния бывают у мониторинговой “лампочки” (алерта, проверки).

Казалось бы

Может показаться, что все просто: OK и CRIT/CRITICAL, и два перехода между ними:

Схема простая… Слишком простая. Мне на этой схеме не хватает людей: как они видят и обрабатывают “лампочку”.

Если присмотреться

Если брать в расчет команду, которая реагирует на проверки (алерты, лампочки), то состояний становится больше. Я вижу так:

  1. OK – все хорошо
  2. unknown critical – лампочка уже красная, но люди об этом (еще) не знают
  3. known critical – лампочка красная, люди об этом знают и что-то подходящее делают
  4. overdue unknown critical – лампочка красная, люди об этом (еще) не знают, и прошло уже много времени (=больше, чем мы хотели бы)
  5. overdue known critical – лампочка долго была красная, возможно люди о ней забывали, но сейчас вспомнили/заметили и делают что-то подходящее

Схема получается такая:

Переходы между unknown и known могут быть в обе стороны и по многу раз: заметили, начали что-то делать, отвлеклись-забыли, вспомнили, продолжили, снова отвлеклись и так далее.

Переходы между непросроченной проверкой и просроченной очевидно происходят только в одну сторону.

Что хорошего в новой схеме?

Новая схема мне нравится тем, что она высвечивает кучу вопросов:

  • Есть ли ясные ожидания по скорости реакции на проверки (=когда начинается overdue)?
  • Как именно команда узнает о срабатывании проверки?
  • Как команда может вспомнить о проверке после того, как забыла?
  • В каких сценариях команда узнает о срабатывании позже, чем хотелось бы?
  • Что подталкивает команду забыть о проверке?
  • Что команда делает, чтобы предотвращать и отлавливать забывания?
  • Понятно ли, что делать с каждой из загоревшихся проверок?
  • Какие практики по работе с критичными проверками приняты в команде?
  • Как для внешнего наблюдателя различаются unknown critical, known critical, overdue unknown critical, overdue known critical?

Схема с вопросами

Вопросы распределяются по схеме вот так:

И что с этим делать?

В некоторых пунктах могут помочь инструменты, в некоторых нужны договоренности и процедуры.

У каждой команды ответы будут свои, главное – задаться вопросами.

А какие ответы у вас?

Итого

Сводная картинка: