...
Вглядываюсь в то, какие состояния бывают у мониторинговой “лампочки” (алерта, проверки).
Казалось бы
Может показаться, что все просто: OK и CRIT/CRITICAL, и два перехода между ними:

Схема простая… Слишком простая.
Мне на этой схеме не хватает людей: как они видят и обрабатывают “лампочку”.
Если присмотреться
Если брать в расчет команду, которая реагирует на проверки (алерты, лампочки), то состояний становится больше. Я вижу так:
- OK – все хорошо
- unknown critical – лампочка уже красная, но люди об этом (еще) не знают
- known critical – лампочка красная, люди об этом знают и что-то подходящее делают
- overdue unknown critical – лампочка красная, люди об этом (еще) не знают, и прошло уже много времени (=больше, чем мы хотели бы)
- overdue known critical – лампочка долго была красная, возможно люди о ней забывали, но сейчас вспомнили/заметили и делают что-то подходящее
Схема получается такая:

Переходы между unknown и known могут быть в обе стороны и по многу раз:
заметили, начали что-то делать, отвлеклись-забыли, вспомнили, продолжили, снова отвлеклись и так далее.
Переходы между непросроченной проверкой и просроченной очевидно происходят только в одну сторону.
Что хорошего в новой схеме?
Новая схема мне нравится тем, что она высвечивает кучу вопросов:
- Есть ли ясные ожидания по скорости реакции на проверки (=когда начинается overdue)?
- Как именно команда узнает о срабатывании проверки?
- Как команда может вспомнить о проверке после того, как забыла?
- В каких сценариях команда узнает о срабатывании позже, чем хотелось бы?
- Что подталкивает команду забыть о проверке?
- Что команда делает, чтобы предотвращать и отлавливать забывания?
- Понятно ли, что делать с каждой из загоревшихся проверок?
- Какие практики по работе с критичными проверками приняты в команде?
- Как для внешнего наблюдателя различаются unknown critical, known critical, overdue unknown critical, overdue known critical?
Схема с вопросами
Вопросы распределяются по схеме вот так:

И что с этим делать?
В некоторых пунктах могут помочь инструменты, в некоторых нужны договоренности и процедуры.
У каждой команды ответы будут свои, главное – задаться вопросами.
А какие ответы у вас?
Итого
Сводная картинка:
