Skip to content
PПромтбук
RUEN
Главная/DevOps/Инциденты
08DevOps

Инциденты

Response, post-mortem, runbooks, on-call, эскалация.

7промтов
Сложность:Теги:
Featured

Orchestrator: incident response от alert до post-mortem

Семь фаз с таймерами, выходами и ролями — от детекта до post-mortem. Управляет шумом, ролями и коммуникацией под давлением.

incidentsreon-call
Продвинутый1-2 часа

Post-mortem template (blameless)

Blameless шаблон с timeline, 5 whys, action items под owner+deadline и анти-паттерн «post-mortem theater».

post-mortemincidentblameless
Средний1-2 часа

Runbook design checklist

Чеклист runbook'а: trigger, severity, первые 5 команд, диагностика, mitigation, эскалация, verification, что НЕ делать.

runbookincidenton-call
Средний30-60 мин

Дизайн on-call ротации

Размер ротации, длительность шифта, follow-the-sun, primary/secondary, компенсация, признаки burnout и протокол handoff.

on-callrotationteam
Средний30-60 мин

Дизайн эскалационных путей

Тиры (L1/L2/L3 + leadership), критерии и тайминги эскалации, как не перегрузить senior'ов, конвенции war room.

escalationincidenton-call
Средний30-60 мин

Chaos engineering: программа с нуля

Запуск chaos engineering без поломки прода: hypothesis-driven experiments, blast radius control, GameDays, инструменты (Gremlin/Litmus), metrics.

chaosresiliencereliability
Продвинутыйдень+ (программа, не одно мероприятие)

Kubernetes troubleshooting playbook

Playbook диагностики K8s: pod не стартует, OOMKilled, PVC застрял, services не отвечают, scheduling failure. Command-by-command.

kubernetestroubleshootingincident
Продвинутый30-60 мин (когда инцидент — секунды)
7 из 7