observability

evalstelemetryobservability

agents / evals

Телеметрия для агентов

Что логировать (tool calls, latency, ошибки, cost), куда складывать, как смотреть и как не утечь данные.

debuggingtraceobservability

agents / debugging

Анализ trace агента

Разобрать trace агентской сессии: timeline tool calls, latency per step, поиск loops, redundant calls, missed tools, hallucinated args. Формат отчёта.

Продвинутый30-60 мин

code / performance

Observability: метрики, логи, трейсы

Что и где собирать, как соединять три пилара, какой бюджет на cardinality и хранение.

observabilitymetricslogs

debuggingobservabilitytracing

code / debugging

Чтение distributed traces: critical path и fan-out

Как читать trace: critical path (длиннейший span), fan-out (parallel calls), latency budget, паттерны медлительности (N+1, серийные calls).

observabilitylineageopenlineage

Продвинутый30-60 мин

data / pipelines

Observability data-пайплайнов: latency, throughput, lineage, SLO

Что мерить на каждой стадии, lineage через OpenLineage/Marquez, SLO для свежести, как алертить без шума.

devops / observabilityFeatured

Дизайн SLO/SLI

Выбор SLI, пороги, multi-window multi-burn-rate alert'ы, error budget policy и как договариваться с бизнесом.

sloslierror-budget

devops / observability

Стратегия агрегации логов

Structured JSON-логи, что логировать, где хранить (Loki/Elastic/Datadog), retention tiers и cost optimization.

logginglokielasticsearch

devops / observability

Rollout distributed tracing

OpenTelemetry instrumentation, head vs tail sampling, что обязательно span'ить, как читать traces и не убить latency.

tracingopentelemetryotel

metricsprometheuscardinality

devops / observability

Конвенция именования метрик

Формат имён, low vs high cardinality labels, aggregation rules, federation и deprecation flow.