Playbook отката деплоя
От симптома до отката: как обнаружить, как откатить (git revert / pm2 prev / db), smoke-тесты, пост-мортем.
Runbook для инцидента: шаблон
Симптомы → first response → escalation → проверки → восстановление → пост-мортем. Живой документ, не отчёт.
Автоматизация rollback
Автоматический откат: триггеры (error rate spike, SLO breach, health fail), data integrity, ограничения (БД-миграции), manual override.
Alerting playbook
Symptom vs cause, severity tiers, routing, борьба с alert fatigue и runbook'и в каждом alert'е.
Orchestrator: incident response от alert до post-mortem
Семь фаз с таймерами, выходами и ролями — от детекта до post-mortem. Управляет шумом, ролями и коммуникацией под давлением.
Post-mortem template (blameless)
Blameless шаблон с timeline, 5 whys, action items под owner+deadline и анти-паттерн «post-mortem theater».
Runbook design checklist
Чеклист runbook'а: trigger, severity, первые 5 команд, диагностика, mitigation, эскалация, verification, что НЕ делать.
Дизайн эскалационных путей
Тиры (L1/L2/L3 + leadership), критерии и тайминги эскалации, как не перегрузить senior'ов, конвенции war room.
Kubernetes troubleshooting playbook
Playbook диагностики K8s: pod не стартует, OOMKilled, PVC застрял, services не отвечают, scheduling failure. Command-by-command.