Мониторинг и алёрты
Что мерить, какие алёрты ставить, как не превратить on-call в ад.
Телеметрия для агентов
Что логировать (tool calls, latency, ошибки, cost), куда складывать, как смотреть и как не утечь данные.
Анализ trace агента
Разобрать trace агентской сессии: timeline tool calls, latency per step, поиск loops, redundant calls, missed tools, hallucinated args. Формат отчёта.
Observability: метрики, логи, трейсы
Что и где собирать, как соединять три пилара, какой бюджет на cardinality и хранение.
Чтение distributed traces: critical path и fan-out
Как читать trace: critical path (длиннейший span), fan-out (parallel calls), latency budget, паттерны медлительности (N+1, серийные calls).
Observability data-пайплайнов: latency, throughput, lineage, SLO
Что мерить на каждой стадии, lineage через OpenLineage/Marquez, SLO для свежести, как алертить без шума.
Дизайн SLO/SLI
Выбор SLI, пороги, multi-window multi-burn-rate alert'ы, error budget policy и как договариваться с бизнесом.
Стратегия агрегации логов
Structured JSON-логи, что логировать, где хранить (Loki/Elastic/Datadog), retention tiers и cost optimization.
Rollout distributed tracing
OpenTelemetry instrumentation, head vs tail sampling, что обязательно span'ить, как читать traces и не убить latency.
Конвенция именования метрик
Формат имён, low vs high cardinality labels, aggregation rules, federation и deprecation flow.