В начале 2023 года вызов GPT-4 обходился в $30 за миллион входных токенов и $60 — за выходные. Сегодня, в середине 2026-го, GPT-4-эквивалентное качество стоит от $0,06 до $0,40 за миллион токенов (per million tokens). Падение в 1000 раз — за три года. Беспрецедентно для любой вычислительной технологии. Для контекста: чтобы добиться 100-кратного снижения стоимости транзисторов, полупроводниковой индустрии потребовалось 18 лет. AI-инференс сделал это за 24 месяца.

🎯
Стоимость AI-инференса упала в 1000× за три года — с $20 до $0,02–0,40 за миллион токенов на уровне GPT-4

Драйверы: архитектурная эффективность моделей (MoE, дистилляция), хардверные скачки (новые GPU, LPU), софтверная оптимизация (vLLM, TensorRT-LLM, continuous batching — непрерывная пакетная обработка)

Парадокс: падение цены за токен не снижает счета — агентные AI-системы потребляют в 50–500× больше токенов на задачу, чем чат-интерфейсы

Последствия: AI превращается из экспериментального инструмента в инфраструктуру — юнит-экономика меняется для стартапов, энтерпрайза и самих разработчиков моделей (model labs)

Главный сюжет в AI прямо сейчас — не очередной бенчмарк и не новая модель. Главный сюжет — экономика. Стоимость интеллекта падает быстрее, чем падала стоимость любого вычислительного ресурса в истории человечества, и это меняет правила игры для всех участников.

Четыре двигателя коллапса

Снижение стоимости не было плавным. Оно произошло дискретными скачками, каждый из которых умножал эффект предыдущего.

1000× падение за 3 года ↓ с $20 до $0,02/1M токенов

Стоимость GPT-4-класса инференса

Стоимость миллиона токенов упала с $20 в конце 2022-го до $0,02–0,40 в 2026 году — в зависимости от провайдера и модели. · Artificial Analysis, GPUnex, 2026

Хардвер. Каждое новое поколение GPU даёт 2–3× больше токенов на доллар. H100 против A100 — трёхкратный рост производительности инференса. Blackwell B200 за первые два месяца после запуска — дополнительное 5× снижение стоимости за счёт софтверных оптимизаций TensorRT-LLM.

GB300 NVL72, по данным SemiAnalysis InferenceX, обеспечивает $0,123 за миллион токенов при 116 токен/с на пользователя — самая низкая стоимость среди всех платформ. B200 опустил стоимость до $0,02 за миллион токенов на GPT-OSS-120B в течение двух месяцев после запуска — исключительно за счёт софтверных улучшений.

Архитектура моделей. Mixture-of-Experts (MoE) — ключевой прорыв: DeepSeek V3.2 при 671B параметров активирует только часть, выдавая качество уровня передовых моделей (frontier) при 3–5× меньших вычислительных затратах на токен. Дистилляция (distillation) позволила Llama 4 Scout (17B) достичь 95% качества GPT-3 на MMLU при в 20 раз меньшем инференс-футпринте.

Софтверная оптимизация. Фреймворки vLLM, TensorRT-LLM и SGLang подняли утилизацию GPU с 30–40% до 70–80%. Непрерывная пакетная обработка (continuous batching), PagedAttention и спекулятивное декодирование (speculative decoding) позволили одному серверу обслуживать 100 одновременных запросов вместо 10.

Парадокс: дешевле, но дороже

Вот где история перестаёт быть линейной. Цена за токен падает — но счета растут.

Причина — агентные AI-системы. Чат-интерфейс потребляет 1–3 вызова LLM на задачу. Агентный конвейер (workflow) — от 50 до 500 вызовов. Если цена токена упала на 90%, но потребление выросло в 300 раз, итоговый счёт вырастает в 30 раз.

По данным AnalyticsWeek, 85% AI-бюджета энтерпрайза уходит на инференс, а не на тренировку. Капитальные затраты на обучение модели — единоразовые. Текущие расходы на инференс — бесконечные. Они растут с каждым новым пользователем, каждым новым агентом, каждой новой автоматизацией.

Gartner в марте 2026 года спрогнозировал, что стоимость инференса на модели с 1 трлн параметров упадёт более чем на 90% к 2030 году. Но это не утешение для финансовых директоров: агентные AI-системы потребляют в 50–500 вызовов LLM на задачу против 1–3 у чат-интерфейса. Объём растёт быстрее, чем падает цена.

📊
Ключевые сигналы для отслеживания

● 85% AI-бюджета энтерпрайза уходит на инференс — не на тренировку
● Средний AI-бюджет организации: $7 млн/год, рост 483% с 2024 года
● Рынок инференс-чипов превысил $50 млрд, обогнав рынок тренировочных чипов
● DeepSeek V3.2 на 92% дешевле GPT-5.2 при 85–90% качества

Кто выигрывает от коллапса

Стартапы. Граница жизнеспособности AI-продукта сместилась. То, что было убыточно при $30 за миллион токенов, становится экономически осмысленным при $0,30. Классы продуктов, которые были невозможны — персональные AI-агенты, непрерывные аналитические пайплайны, AI-native (изначально построенные на AI) SaaS-продукты с глубокой интеграцией — стали реальны.

Open-source модели через Groq или inference.net дают 80–95% экономии относительно API передовых (frontier) моделей. Для стартапа с ежемесячными AI-расходами $10 000 это $8000–9500 обратно в бюджет. На эти деньги можно нанять дополнительного инженера или провести в два раза больше экспериментов.

Показательный пример: Cursor с Compose 2.5, работающий на открытых моделях, сравнялся по бенчмаркам с Opus 4.7 и GPT-5.5 при кратно меньшей стоимости вызова. Agenthost, платформа для развёртывания AI-агентов, использует роутинг между пятью моделями и платит $0,03 за типичный транзакционный вызов вместо $0,50 через единый API.

Меняется и ценообразование. Вместо per-seat лицензий AI-продукты переходят на usage-based pricing — оплата за выполненную задачу, а не за доступ. Это стало возможным именно потому, что стоимость единицы интеллекта предсказуемо упала до уровня, где её можно включать в себестоимость транзакции.

Энтерпрайз. 54% организаций уже развернули AI-агентов в production по данным KPMG. При средней окупаемости 5,1 месяца по данным McKinsey — AI-инвестиции перестали быть экспериментом.

Энтерпрайз столкнулся с отсутствием дисциплины управления AI-расходами. Те же компании, которые десятилетиями оптимизировали облачные расходы, столкнулись с AI FinOps (управление финансами AI) — принципиально новой моделью, где стоимость не привязана к фиксированным ресурсам, а растёт линейно с каждым токеном.

Разработчики моделей (model labs). Парадокс для них: маржинальность сжимается, но объём потребления растёт быстрее. OpenAI, Anthropic и Google делают ставку на агентные сценарии, где один пользователь генерирует в 300 раз больше токенов. Это компенсирует падение цены за единицу — но только если пользовательская база растёт синхронно.

Tensordyne (бывший Recogni) анонсировал ожидания на $200 млн заказов на системы инференса на новом чипе Napier — разработанном совместно с Broadcom и TSMC. Это сигнал: рынок инференс-железа больше не монополия NVIDIA.

Рынок инференс-чипов превысил $50 млрд в 2026 году, обогнав рынок тренировочных чипов впервые в истории. Groq с его LPU-архитектурой показывает детерминированную задержку менее миллисекунды при более низком энергопотреблении на токен, чем GPU. Cerebras с гигантским wafer-scale чипом обеспечивает 1000 токен/с на GPT-5.2-класс моделях. Amazon Inferentia 3 и Google TPU v7 замыкают пятёрку альтернатив NVIDIA.

Но главный бенефициар коллапса — не производители чипов. Главный бенефициар — разработчики приложений. Когда стоимость интеллекта падает до уровня commodity, барьер входа исчезает. AI-стартап 2026 года не покупает GPU и не подписывает контракты с облаками на миллионы. Он использует открытые модели через inference.net за $0,04 за миллион токенов.

Это меняет структуру рынка. В 2023 году конкуренция в AI определялась доступом к капиталу для покупки GPU. В 2026 году — качеством продукта и скоростью итераций. Традиционные барьеры — вычислительные мощности — перестали быть преимуществом инкумбентов.

Управление AI-расходами: новая дисциплина

Падение цены за токен создало новую проблему: как управлять расходами, которые одновременно падают в unit-экономике и взрывно растут в объёме.

Четыре инструмента, которые стали стандартом в 2026 году:

Модельный роутинг (LLM routing). Не каждый запрос требует передовой модели. Классификация тональности текста выполняется моделью за $0,04 за миллион токенов, а не за $3,00. Системы роутинга автоматически направляют простые задачи на дешёвые модели, сложные — на дорогие. Экономия — от 30% до 85% счёта.

Кэширование промптов (prompt caching). Повторяющиеся системные промпты и контекстные префиксы не нужно пересчитывать каждый раз. Сервисы вроде Claude и GPT уже кэшируют повторяющиеся входные токены на уровне API — снижение счёта на 30–90% для сценариев с длинным контекстом.

Подбор размера модели (model right-sizing — подбор оптимальной модели). Llama 4 Scout (17B) даёт 95% качества GPT-4 на большинстве бизнес-задач при 20× меньших затратах. Инженер подбирает минимально достаточную модель для каждой задачи.

On-premise инференс. Для стабильных рабочих нагрузок аренда выделенных GPU или собственное железо окупаются за 30–60 дней по сравнению с API-тарифами. После этого себестоимость токена падает в 3–5×.

Стартапы, которые игнорируют эти инструменты, тратят 40–60% выручки на API модели. Те, кто внедрил AI FinOps с первого дня, укладываются в 10–15%.

Сравнение: стоимость токена у всех провайдеров

МодельВход ($/1M токенов)Выход ($/1M токенов)Score/$
DeepSeek V3.2$0,14$0,28✔ 257
Llama 4 Scout (17B)$0,08$0,15✔ >300
Gemini Flash 3.1$0,25$1,50◐ 45
Claude Sonnet 4.6$3,00$15,00✗ 6
GPT-5.2 Codex$1,75$14,00✗ 6,4
BenchLM.ai, данные на 18 июня 2026 · Score/$ — отношение производительности к цене

Влияние коллапса выходит за пределы IT-отрасли. Когда интеллект становится товаром, меняются бизнес-модели в логистике, образовании, здравоохранении, финансах. То, что требовало штата аналитиков, теперь делает AI-агент за копейки. Вопрос не в том, когда AI подешевеет достаточно — это уже произошло. Вопрос в том, кто первым перестроит процессы под новую экономику и получит структурное преимущество, которое невозможно отыграть.

Что дальше: сценарии

Дальнейшее снижение будет определяться тремя развилками.

Сценарий А: Хардвер продолжает ускоряться (Blackwell Ultra, специализированные чипы от Groq и Cerebras), open-source MoE-модели становятся стандартом, и стоимость падает ещё на порядок к 2028 году. В этом сценарии AI становится утилитой — цена сопоставима с пропускной способностью или хранением.

Сценарий Б: Потребление растёт быстрее снижения — и enterprise-счета продолжают расти. Рынок FinOps для AI (модельный роутинг, кэширование, подбор размера) становится основным. Компании, не имеющие дисциплины управления AI-расходами, теряют маржинальность.

Сценарий В: Расхождение: дешёвый товарный (commodity) инференс для массовых сценариев и дорогой специализированный — для медицины, права, safety-critical применений. Рынок бифурцирует на «интеллект как товар» и «интеллект как страховка».

🔮
Прогноз: стоимость передового инференса снизится ещё в 5–10× к 2028 году

Вероятность: 70% — хардверные (Blackwell Ultra, Inferentia 3) и софтверные (динамический роутинг, кэширование) факторы продолжают совокупно снижать стоимость быстрее, чем растёт сложность моделей

Источники

NVIDIA Inference Platform — GB300 NVL72: $0,123 за млн токенов
Самый низкий cost-per-token среди всех платформ по данным SemiAnalysis InferenceX — ключевой бенчмарк для понимания текущего дна стоимости инференса
Аппаратный уровень: как Blackwell меняет юнит-экономику инференса
LLM API Pricing Comparison 2026 — BenchLM.ai
Сравнение стоимости 30+ моделей у всех провайдеров с актуальными ценами на 18 июня 2026 года
Актуальная картина цен: от передовых моделей до товарных
AI Inference Economics: The 1000× Cost Collapse Reshaping GPUs
Детальный анализ экономики инференса: стоимость токена, аппаратные дорожные карты, переход от тренировки к инференсу как главного драйвера спроса на GPU
Фундаментальный обзор рыночной динамики