Аудит и оптимизация облачных затрат
Структурный разбор счёта: топ-spender'ы, idle-ресурсы, reserved/spot, оптимизация трафика и встраивание FinOps в процесс.
Действуй как FinOps-практик. Проведи аудит затрат в {{cloud}}. Текущий счёт: {{monthly_spend}}.
Шаги
-
Снимок состояния.
- {{cloud}} = AWS → Cost Explorer: 90 дней, группировка по сервису, потом по тегу окружения.
- {{cloud}} = GCP → Billing Reports + BigQuery export для детального drill-down.
- Найди топ-5 сервисов по spend. Обычно 80% счёта — это compute (EC2/GCE) + storage (S3/GCS) + databases (RDS/CloudSQL) + data transfer + managed services (EKS/GKE, OpenSearch).
-
Tagging hygiene. Без тегов аудит — гадание. Перед глубоким анализом проверь:
- Покрытие тегами
environment,team,service,cost-center(>90% ресурсов). - Cost Allocation Tags активированы.
- Untagged spend в отдельной категории — это всегда первый кандидат на разбор.
- Покрытие тегами
-
Топ-spender'ы — что искать в каждом.
- EC2/GCE compute: right-sizing (CPU/mem utilization < 20% за 14 дней → даунсайз на 1-2 размера), старые поколения инстансов (m4 → m6/m7 даёт 10-20% за ту же цену), не выключенные dev/staging по ночам и выходным (-65% при scheduler'е 9-21 Mon-Fri).
- RDS/CloudSQL: провижн storage vs gp3 (миграция даёт 20%+), unused read replicas, prod-размер на dev/staging, отсутствие графика остановки на нерабочее время для dev.
- S3/GCS: Intelligent-Tiering на бакеты с непредсказуемым доступом, lifecycle policy на logs (Glacier/Coldline через 30-90 дней, удаление через 365), incomplete multipart uploads (часто гигабайты мусора), versioning без expiration.
- Data transfer: cross-AZ трафик (бесплатно внутри AZ, $0.01-0.02/GB между), egress в интернет (CloudFront/Cloud CDN перед бакетом часто окупается), NAT Gateway processing fee ($0.045/GB — VPC endpoints для S3/DynamoDB убирают это).
- Idle/orphan resources: unattached EBS/Persistent Disks, старые snapshots, неиспользуемые Elastic IP ($0.005/час за каждый), load balancer'ы без targets, NAT Gateway в dev окружении 24/7.
-
Reserved & Spot.
- Savings Plans / Committed Use Discounts для baseline load (то, что точно работает 24/7 ближайший год): 1-year no upfront ≈ 30%, 3-year all upfront ≈ 60%. Покрывай не более 70-80% baseline, иначе при оптимизации сами останетесь с лишними коммитментами.
- Spot/Preemptible для stateless, fault-tolerant нагрузок (batch, CI runners, stateless web с двумя AZ): -70-90% к on-demand. Не для БД и stateful воркеров.
- Compute Optimizer / Recommender покажет recommendations, но всегда проверяй вручную — иногда рекомендует машину, которая не подходит по сети или GPU.
-
FinOps процесс. Разовый аудит сэкономит раз, процесс — навсегда.
- Месячный cost review с владельцами сервисов: каждая команда видит свой spend и trend.
- Anomaly detection (Cost Anomaly Detection в AWS, GCP recommender) → алерт в Slack при spike >20%.
- Budgets per team/environment с алертами на 50/80/100%.
- "Cost as a feature" в дизайн-доках: новая фича — оценка ежемесячного incremental cost до запуска.
Anti-patterns
- ❌ Решение "переключим всё на spot" — stateful воркеры внезапно перезапускаются, инциденты дороже экономии.
- ❌ 3-year all upfront на 100% инстансов — coupled к текущей архитектуре, миграция через год съест экономию.
- ❌ Удаление "ненужных" ресурсов без аппрува владельца — один удалённый snapshot оказывается единственной копией.
- ❌ Снижение качества (логи реже, метрики грубее) ради экономии 5% — наблюдаемость стоит дороже при первом инциденте.
- ❌ Аудит раз в год — между аудитами накапливается такой же мусор обратно.
Формат вывода
## Текущий счёт
| Сервис | Spend | % от total | Trend (90d) |
## Топ-10 quick wins (Impact / Effort / Risk)
1. [-$X/мес, S, low] Включить S3 Intelligent-Tiering на bucket Y
2. ...
## Стратегические инициативы
- Reserved/Savings coverage analysis
- Right-sizing программа
- Cross-AZ траффик redesign
## FinOps процесс (если ещё нет)
- ...
## Ожидаемая экономия
| Категория | Сейчас | После | Δ |
Принцип: FinOps — это не "выключить всё в dev на ночь" разово. Это видимость, accountability команд и встроенность в product process.
Cost optimization для агентов
Снижаем cost/request без потери качества: модель, кеш, контекст, batch. Что мерить и что НЕ оптимизировать.
Стратегия prompt caching
Что кешировать, как считать ROI, что invalidates кеш, TTL, cache key design. Anthropic prompt caching specifics.
Дизайн Terraform-модуля
Проектирование переиспользуемого модуля: что выносить, как описать inputs/outputs, версионирование и тесты на terratest.