DevOps

Выбор стратегии деплоя

Rolling / blue-green / canary / shadow / feature-flag: критерии (риск, трафик, statefulness, бюджет), таблица сравнения, decision tree.

ci/cddeploymentcanary

Автоматизация rollback

Автоматический откат: триггеры (error rate spike, SLO breach, health fail), data integrity, ограничения (БД-миграции), manual override.

ci/cdrollbackincident

Продвинутый30-60 мин

Стратегия кеширования сборки

Docker layers, npm/pnpm, Bazel remote cache. Что меняет cache key, что НЕ кешировать (секреты, dev deps), мониторинг hit rate.

Дизайн SLO/SLI

Выбор SLI, пороги, multi-window multi-burn-rate alert'ы, error budget policy и как договариваться с бизнесом.

sloslierror-budget

Alerting playbook

Symptom vs cause, severity tiers, routing, борьба с alert fatigue и runbook'и в каждом alert'е.

alertingon-callpagerduty

Стратегия агрегации логов

Structured JSON-логи, что логировать, где хранить (Loki/Elastic/Datadog), retention tiers и cost optimization.

logginglokielasticsearch

Rollout distributed tracing

OpenTelemetry instrumentation, head vs tail sampling, что обязательно span'ить, как читать traces и не убить latency.

tracingopentelemetryotel

metricsprometheuscardinality

Конвенция именования метрик

Формат имён, low vs high cardinality labels, aggregation rules, federation и deprecation flow.

Featured

Orchestrator: incident response от alert до post-mortem

Семь фаз с таймерами, выходами и ролями — от детекта до post-mortem. Управляет шумом, ролями и коммуникацией под давлением.

incidentsreon-call

post-mortemincidentblameless

Post-mortem template (blameless)

Blameless шаблон с timeline, 5 whys, action items под owner+deadline и анти-паттерн «post-mortem theater».

Средний1-2 часа

Runbook design checklist

Чеклист runbook'а: trigger, severity, первые 5 команд, диагностика, mitigation, эскалация, verification, что НЕ делать.

runbookincidenton-call

Дизайн on-call ротации

Размер ротации, длительность шифта, follow-the-sun, primary/secondary, компенсация, признаки burnout и протокол handoff.

on-callrotationteam

escalationincidenton-call

Дизайн эскалационных путей

Тиры (L1/L2/L3 + leadership), критерии и тайминги эскалации, как не перегрузить senior'ов, конвенции war room.

chaosresiliencereliability

Chaos engineering: программа с нуля

Запуск chaos engineering без поломки прода: hypothesis-driven experiments, blast radius control, GameDays, инструменты (Gremlin/Litmus), metrics.

Продвинутыйдень+ (программа, не одно мероприятие)

Kubernetes troubleshooting playbook

Playbook диагностики K8s: pod не стартует, OOMKilled, PVC застрял, services не отвечают, scheduling failure. Command-by-command.

kubernetestroubleshootingincident