08Инциденты

Chaos engineering: программа с нуля

Запуск chaos engineering без поломки прода: hypothesis-driven experiments, blast radius control, GameDays, инструменты (Gremlin/Litmus), metrics.

Действуй как Principal SRE / Chaos engineering lead, запускающий программу с нуля. Цель: систематически находить failure modes ДО того, как их найдут пользователи. Не "ломать ради лома" — а проверять гипотезы о надёжности.

Принципы

Chaos engineering — это эксперимент, не тестирование.

Тестирование: "проверяем что код работает как ожидается".
Chaos: "проверяем гипотезу о том, как система ведёт себя при сбое". Гипотеза может быть подтверждена или опровергнута — оба исхода ценны.

Hypothesis-driven, не "давайте сломаем что-нибудь". Каждый эксперимент = формальная гипотеза.

Hypothesis format

Title: <short name>
Steady state hypothesis: <измеримая метрика "система здорова">
  Example: p99 checkout latency < 800ms, error rate < 0.5%, throughput > 1000 rps
Experiment: <что меняем>
  Example: kill 1 of 3 payment-service pods
Expected outcome: <что должно произойти>
  Example: traffic перераспределяется на оставшиеся 2 pods, p99 растёт до < 1200ms, error rate стабилен, новый pod стартует за < 60s, steady state восстанавливается за < 90s
Blast radius: <границы импакта>
  Example: 1 zone, 10% traffic, staging only
Abort criteria: <когда стоп>
  Example: error rate > 5%, p99 > 3s, downstream dependency 5xx > 1%
Rollback: <как откатить>
  Example: experiment auto-stops через 5 мин ИЛИ ручной abort через runbook

Mean time framework (Russ Miles):

Mean time before (steady state): metrics ДО эксперимента, baseline.
Mean time during: что происходит ВО ВРЕМЯ инжекции.
Mean time after: как быстро восстанавливается steady state.

Blast radius control (главное правило)

Начинай маленьким, расширяй постепенно. Этапы:

Никогда не начинай со step 2. Staging первый — даже если "тут точно сработает". Staging ловит 70% сюрпризов бесплатно.

Что НЕ ломать (никогда, ни при каких blast radius)

Data integrity systems: не инжектить chaos в БД писатели, не убивать quorum (Raft/Paxos leader kill — только если ты УВЕРЕН, что replication работает). Потеря данных ≠ resilience test, это инцидент.
Compliance / audit systems: логирование транзакций, audit trail для регуляторов. Если упустишь запись — fine.
Security perimeter: WAF, auth service в момент атаки. Chaos != "оставим открытым на 5 минут посмотрим".
Billing / financial systems в момент закрытия периода: конец квартала, отчётность — заморозка.
Customer-facing в часы пиковой нагрузки (Black Friday, прайм-тайм). Pick low-traffic window.

Культурная подготовка

До первого эксперимента (не код, а люди):

Buy-in от leadership. Подпись engineering director: "мы знаем, что chaos может вызвать инциденты, мы это принимаем, потому что это дешевле, чем настоящие".
Blameless post-mortem culture есть. Если нет — chaos engineering = генератор обвинений. Сначала культура, потом chaos.
On-call ЗНАЕТ про эксперименты. Slack-канал #chaos, расписание. Ничего "втайне".
Customer support / sales знают. Если что-то пойдёт не так — они первыми получат тикеты.
Communications plan: что говорим клиентам, если эксперимент vyzval инцидент.

GameDay format

GameDay = командное упражнение, симуляция сбоя.

Подготовка (за 2 недели):

Выбрать scenario (например: "region us-east-1 полностью недоступен").
Подготовить hypothesis + abort criteria.
Пригласить участников: on-call, service owners, IC, observer (не вмешивается, записывает).
Объявить во всех каналах: "GameDay <дата>, scenario <описание>, blast radius <границы>".

День проведения (3-4 часа):

00:00 — Brief: gameday lead напоминает hypothesis, правила (abort кнопка, кто IC).
00:15 — Injection. Лид руками выполняет fault injection.
00:15-02:00 — Команда реагирует как на реальный инцидент. Observer записывает: что заметили? через сколько минут? кто escalated? что в runbook не сработало?
02:00 — Recovery. Откатили.
02:15-03:00 — Hotwash (мини post-mortem): что узнали? что в runbook надо обновить? какие алерты не сработали?
Через неделю — формальный post-mortem с action items.

Чего НЕ делает GameDay: "тренировка для галочки". Если команда уже знает scenario заранее по деталям — это театр. Лид должен импровизировать в рамках hypothesis.

Инструменты (выбор по контексту)

Gremlin (commercial): hosted, GUI, хорошие safeguards, дорого, lock-in. Хорошо для enterprise, у которой нет capacity на DIY.
Chaos Mesh (CNCF, K8s): декларативный YAML, отличная интеграция с K8s, бесплатно. Если ты на K8s — default choice.
Litmus (CNCF, K8s): похож на Chaos Mesh, более широкая библиотека experiments, ChaosHub.
AWS Fault Injection Simulator (FIS): native для AWS, IAM-integrated, безопасно для prod. Хорошо для multi-service experiments на AWS.
Toxiproxy (Shopify): network-layer chaos (latency, packet loss). Точечный инструмент для разработки.
Pumba (Docker): chaos для docker containers без K8s. Legacy / on-prem.

Не нужно: писать свой framework. Это годами поддерживать. Возьми что-то.

Metrics программы

Что измерять, чтобы доказать ROI программы:

MTTD (detect): улучшается? До chaos vs после.
MTTR (recover): улучшается?
Unknown failure modes найдено: счётчик. Каждый — runbook update / fix.
Incident reduction: incidents/month, severity distribution. Менее SEV1 — хороший знак.
Coverage: какой % сервисов покрыт хотя бы базовыми experiments (instance kill, dep latency, dep failure).

Anti-patterns

❌ Первый эксперимент сразу на проде "потому что в стейдже неинтересно". Гарантированный инцидент + кризис доверия к программе.
❌ Эксперимент без hypothesis — "давайте убьём ноду посмотрим что будет". Это breakage, не chaos engineering. Не научишься ничему, кроме "упало".
❌ Без metrics / observability — нечем подтвердить ни steady state, ни recovery. Сначала observability, потом chaos.
❌ Chaos engineering = работа одного человека ("chaos engineer Вася"). Bus factor 1. Должна быть программа с несколькими owner'ами + ритуалы (GameDays), которые делает разная команда.
❌ Игнорирование abort criteria ("уже почти увидим что будет, ещё минуту"). Дисциплина — главное.
❌ Не делать follow-up. Эксперимент выявил проблему → если её не починили → следующий аналогичный эксперимент через месяц выявит её снова. ROI = 0.
❌ Запускать chaos во время реального инцидента / freeze period (черная пятница).
❌ Surprise drills для команды без предупреждения. Это не chaos, это harassment.

Output format

## Chaos engineering program proposal

### Стадия 1: подготовка (месяц 1-2)
- Culture readiness checklist
- Tooling выбор: <инструмент> почему
- Observability gaps: <что закрыть до старта>

### Стадия 2: staging experiments (месяц 2-4)
Каталог experiments (5-10 базовых):
| # | Hypothesis | Service | Tool | Blast radius |
| 1 | payment-service tolerates 1/3 pod kill, p99 < 1200ms, recovery < 90s | payment | Chaos Mesh | staging, 1 pod |

### Стадия 3: prod experiments — small (месяц 4-6)
Те же experiments, но 1 instance / 1% traffic. Abort criteria жёстче.

### Стадия 4: GameDays (месяц 6+)
Каденс: 1 GameDay / месяц.
Scenarios queue:
1. Region failover (us-east-1 down)
2. Database failover (primary lost)
3. Cache layer down (Redis cluster)

### Metrics
| Метрика | Baseline | Цель 6 мес | Цель 12 мес |
| Unknown failure modes found | 0 | 15 | 40 |
| MTTR (median) | 45 min | 30 min | 20 min |
| Incident rate (SEV1+SEV2) | 8/month | 5/month | 3/month |
| Service coverage | 0% | 30% | 70% |

### Governance
- Chaos review board: <кто>
- Approval для prod experiments: <процесс>
- Communication plan: <как>
- Abort authority: <у кого>

Принцип: chaos engineering — это practice, не event. Один GameDay в год = театр. Программа = постоянное расширение coverage, культура регулярных experiments, обучение через сбои в контролируемых условиях. ROI измеряется в инцидентах, которых НЕ случилось.

К подразделу «Инциденты»

Похожие промты

site / audit

Аудит error-state и fallback UI

Карта того что показывает UI при 500 / timeout / validation fail / auth expired / no permission / empty / network down. Самая невидимая зона, заметная только когда сломалось.

auditerror-statesfallback

Открыть

Средний45-90 мин

code / architecture

Дизайн async очередей и воркеров

At-least/exactly-once, idempotency, retry, DLQ, ordering, observability — очередь, которая не теряет и не дублирует.

architecturequeuesasync

Открыть

Продвинутый1-2 часа

code / architecture

Идемпотентность: ключи, storage, retry

Idempotency keys (UUID), Redis storage с TTL, retry strategy, edge-cases с concurrent same-key и retry после success.

idempotencyapiretry

Открыть

Продвинутый1-2 часа