Skip to content
PПромтбук
RUEN
Тег

incident

9промтов
site / deploy

Playbook отката деплоя

От симптома до отката: как обнаружить, как откатить (git revert / pm2 prev / db), smoke-тесты, пост-мортем.

deployrollbackincident
Продвинутый30-60 мин
code / docs

Runbook для инцидента: шаблон

Симптомы → first response → escalation → проверки → восстановление → пост-мортем. Живой документ, не отчёт.

docsrunbookincident
Средний30-60 мин
devops / cicd

Автоматизация rollback

Автоматический откат: триггеры (error rate spike, SLO breach, health fail), data integrity, ограничения (БД-миграции), manual override.

ci/cdrollbackincident
Продвинутый30-60 мин
devops / observability

Alerting playbook

Symptom vs cause, severity tiers, routing, борьба с alert fatigue и runbook'и в каждом alert'е.

alertingon-callpagerduty
Средний30-60 мин
devops / incidentFeatured

Orchestrator: incident response от alert до post-mortem

Семь фаз с таймерами, выходами и ролями — от детекта до post-mortem. Управляет шумом, ролями и коммуникацией под давлением.

incidentsreon-call
Продвинутый1-2 часа
devops / incident

Post-mortem template (blameless)

Blameless шаблон с timeline, 5 whys, action items под owner+deadline и анти-паттерн «post-mortem theater».

post-mortemincidentblameless
Средний1-2 часа
devops / incident

Runbook design checklist

Чеклист runbook'а: trigger, severity, первые 5 команд, диагностика, mitigation, эскалация, verification, что НЕ делать.

runbookincidenton-call
Средний30-60 мин
devops / incident

Дизайн эскалационных путей

Тиры (L1/L2/L3 + leadership), критерии и тайминги эскалации, как не перегрузить senior'ов, конвенции war room.

escalationincidenton-call
Средний30-60 мин
devops / incident

Kubernetes troubleshooting playbook

Playbook диагностики K8s: pod не стартует, OOMKilled, PVC застрял, services не отвечают, scheduling failure. Command-by-command.

kubernetestroubleshootingincident
Продвинутый30-60 мин (когда инцидент — секунды)