DevOps
Инфраструктура, CI/CD, observability, инциденты — выкатывать и держать.
Инфраструктура, CI/CD, observability, инциденты — выкатывать и держать.
- Начальный0 (0%)
- Средний10 (50%)
- Продвинутый10 (50%)
Инфраструктура
Terraform, Kubernetes, multi-region, секреты, оптимизация затрат.
CI/CD
Архитектура пайплайнов, стратегии деплоя, откаты, кеш сборки.
Observability
SLO/SLI, алерты, логи, distributed tracing, метрики.
Инциденты
Response, post-mortem, runbooks, on-call, эскалация.
Все промты в разделе DevOps
Дизайн Terraform-модуля
Проектирование переиспользуемого модуля: что выносить, как описать inputs/outputs, версионирование и тесты на terratest.
Паттерн деплоя в Kubernetes
Выбор workload-типа, стратегии выката, probes, лимитов, anti-affinity и автомасштабирования под конкретный сервис.
Стратегия multi-region
Active-active vs active-passive, репликация данных, маршрутизация, автоматизация failover и предотвращение split-brain.
Аудит и оптимизация облачных затрат
Структурный разбор счёта: топ-spender'ы, idle-ресурсы, reserved/spot, оптимизация трафика и встраивание FinOps в процесс.
Архитектура CI/CD pipeline end-to-end
Полный дизайн пайплайна от триггера до прод-деплоя: 7 фаз (trigger, build, tests, артефакты, deploy, verification, rollback) с outputs и anti-patterns на каждом шаге.
Выбор стратегии деплоя
Rolling / blue-green / canary / shadow / feature-flag: критерии (риск, трафик, statefulness, бюджет), таблица сравнения, decision tree.
Автоматизация rollback
Автоматический откат: триггеры (error rate spike, SLO breach, health fail), data integrity, ограничения (БД-миграции), manual override.
Стратегия кеширования сборки
Docker layers, npm/pnpm, Bazel remote cache. Что меняет cache key, что НЕ кешировать (секреты, dev deps), мониторинг hit rate.
Дизайн SLO/SLI
Выбор SLI, пороги, multi-window multi-burn-rate alert'ы, error budget policy и как договариваться с бизнесом.
Alerting playbook
Symptom vs cause, severity tiers, routing, борьба с alert fatigue и runbook'и в каждом alert'е.
Стратегия агрегации логов
Structured JSON-логи, что логировать, где хранить (Loki/Elastic/Datadog), retention tiers и cost optimization.
Rollout distributed tracing
OpenTelemetry instrumentation, head vs tail sampling, что обязательно span'ить, как читать traces и не убить latency.
Конвенция именования метрик
Формат имён, low vs high cardinality labels, aggregation rules, federation и deprecation flow.
Orchestrator: incident response от alert до post-mortem
Семь фаз с таймерами, выходами и ролями — от детекта до post-mortem. Управляет шумом, ролями и коммуникацией под давлением.
Post-mortem template (blameless)
Blameless шаблон с timeline, 5 whys, action items под owner+deadline и анти-паттерн «post-mortem theater».
Runbook design checklist
Чеклист runbook'а: trigger, severity, первые 5 команд, диагностика, mitigation, эскалация, verification, что НЕ делать.
Дизайн on-call ротации
Размер ротации, длительность шифта, follow-the-sun, primary/secondary, компенсация, признаки burnout и протокол handoff.
Дизайн эскалационных путей
Тиры (L1/L2/L3 + leadership), критерии и тайминги эскалации, как не перегрузить senior'ов, конвенции war room.
Chaos engineering: программа с нуля
Запуск chaos engineering без поломки прода: hypothesis-driven experiments, blast radius control, GameDays, инструменты (Gremlin/Litmus), metrics.
Kubernetes troubleshooting playbook
Playbook диагностики K8s: pod не стартует, OOMKilled, PVC застрял, services не отвечают, scheduling failure. Command-by-command.