Skip to content
PПромтбук
RUEN
08Инфраструктура

Аудит и оптимизация облачных затрат

Структурный разбор счёта: топ-spender'ы, idle-ресурсы, reserved/spot, оптимизация трафика и встраивание FinOps в процесс.

Действуй как FinOps-практик. Проведи аудит затрат в {{cloud}}. Текущий счёт: {{monthly_spend}}.

Шаги

  1. Снимок состояния.

    • {{cloud}} = AWS → Cost Explorer: 90 дней, группировка по сервису, потом по тегу окружения.
    • {{cloud}} = GCP → Billing Reports + BigQuery export для детального drill-down.
    • Найди топ-5 сервисов по spend. Обычно 80% счёта — это compute (EC2/GCE) + storage (S3/GCS) + databases (RDS/CloudSQL) + data transfer + managed services (EKS/GKE, OpenSearch).
  2. Tagging hygiene. Без тегов аудит — гадание. Перед глубоким анализом проверь:

    • Покрытие тегами environment, team, service, cost-center (>90% ресурсов).
    • Cost Allocation Tags активированы.
    • Untagged spend в отдельной категории — это всегда первый кандидат на разбор.
  3. Топ-spender'ы — что искать в каждом.

    • EC2/GCE compute: right-sizing (CPU/mem utilization < 20% за 14 дней → даунсайз на 1-2 размера), старые поколения инстансов (m4 → m6/m7 даёт 10-20% за ту же цену), не выключенные dev/staging по ночам и выходным (-65% при scheduler'е 9-21 Mon-Fri).
    • RDS/CloudSQL: провижн storage vs gp3 (миграция даёт 20%+), unused read replicas, prod-размер на dev/staging, отсутствие графика остановки на нерабочее время для dev.
    • S3/GCS: Intelligent-Tiering на бакеты с непредсказуемым доступом, lifecycle policy на logs (Glacier/Coldline через 30-90 дней, удаление через 365), incomplete multipart uploads (часто гигабайты мусора), versioning без expiration.
    • Data transfer: cross-AZ трафик (бесплатно внутри AZ, $0.01-0.02/GB между), egress в интернет (CloudFront/Cloud CDN перед бакетом часто окупается), NAT Gateway processing fee ($0.045/GB — VPC endpoints для S3/DynamoDB убирают это).
    • Idle/orphan resources: unattached EBS/Persistent Disks, старые snapshots, неиспользуемые Elastic IP ($0.005/час за каждый), load balancer'ы без targets, NAT Gateway в dev окружении 24/7.
  4. Reserved & Spot.

    • Savings Plans / Committed Use Discounts для baseline load (то, что точно работает 24/7 ближайший год): 1-year no upfront ≈ 30%, 3-year all upfront ≈ 60%. Покрывай не более 70-80% baseline, иначе при оптимизации сами останетесь с лишними коммитментами.
    • Spot/Preemptible для stateless, fault-tolerant нагрузок (batch, CI runners, stateless web с двумя AZ): -70-90% к on-demand. Не для БД и stateful воркеров.
    • Compute Optimizer / Recommender покажет recommendations, но всегда проверяй вручную — иногда рекомендует машину, которая не подходит по сети или GPU.
  5. FinOps процесс. Разовый аудит сэкономит раз, процесс — навсегда.

    • Месячный cost review с владельцами сервисов: каждая команда видит свой spend и trend.
    • Anomaly detection (Cost Anomaly Detection в AWS, GCP recommender) → алерт в Slack при spike >20%.
    • Budgets per team/environment с алертами на 50/80/100%.
    • "Cost as a feature" в дизайн-доках: новая фича — оценка ежемесячного incremental cost до запуска.

Anti-patterns

  • ❌ Решение "переключим всё на spot" — stateful воркеры внезапно перезапускаются, инциденты дороже экономии.
  • ❌ 3-year all upfront на 100% инстансов — coupled к текущей архитектуре, миграция через год съест экономию.
  • ❌ Удаление "ненужных" ресурсов без аппрува владельца — один удалённый snapshot оказывается единственной копией.
  • ❌ Снижение качества (логи реже, метрики грубее) ради экономии 5% — наблюдаемость стоит дороже при первом инциденте.
  • ❌ Аудит раз в год — между аудитами накапливается такой же мусор обратно.

Формат вывода

## Текущий счёт
| Сервис | Spend | % от total | Trend (90d) |

## Топ-10 quick wins (Impact / Effort / Risk)
1. [-$X/мес, S, low] Включить S3 Intelligent-Tiering на bucket Y
2. ...

## Стратегические инициативы
- Reserved/Savings coverage analysis
- Right-sizing программа
- Cross-AZ траффик redesign

## FinOps процесс (если ещё нет)
- ...

## Ожидаемая экономия
| Категория | Сейчас | После | Δ |

Принцип: FinOps — это не "выключить всё в dev на ночь" разово. Это видимость, accountability команд и встроенность в product process.

К подразделу «Инфраструктура»
Похожие промты