Сложность:Теги:
Featured
Дизайн SLO/SLI
Выбор SLI, пороги, multi-window multi-burn-rate alert'ы, error budget policy и как договариваться с бизнесом.
sloslierror-budget
Открыть
Продвинутый1-2 часа
Alerting playbook
Symptom vs cause, severity tiers, routing, борьба с alert fatigue и runbook'и в каждом alert'е.
alertingon-callpagerduty
Открыть
Средний30-60 мин
Стратегия агрегации логов
Structured JSON-логи, что логировать, где хранить (Loki/Elastic/Datadog), retention tiers и cost optimization.
logginglokielasticsearch
Открыть
Средний30-60 мин
Rollout distributed tracing
OpenTelemetry instrumentation, head vs tail sampling, что обязательно span'ить, как читать traces и не убить latency.
tracingopentelemetryotel
Открыть
Продвинутый1-2 часа
Конвенция именования метрик
Формат имён, low vs high cardinality labels, aggregation rules, federation и deprecation flow.
metricsprometheuscardinality
Открыть
Средний30-60 мин
5 из 5