В 2026 году мировые расходы на инференс (inference) — процесс работы уже обученных моделей искусственного интеллекта — впервые превысят расходы на обучение новых моделей. По прогнозу Gartner, $20,6 млрд пойдёт на инференс в сегменте облачной инфраструктуры (IaaS), тогда как на обучение — $9,2 млрд. Соотношение 55/45 — исторический перелом: индустрия переходит от фазы «строительства» к фазе «эксплуатации».
Если в 2024 году соотношение было обратным — 70% бюджетов уходило на обучение, 30% — на inference, — то теперь баланс радикально сместился. Впервые за историюML-рынка совокупные расходы на работу моделей превысят расходы на создание новых. Это не эволюция — это тектонический сдвиг.
$20,6 млрд → $9,2 млрд — 2,2× больше на работу с моделями, чем на создание новых.
Цифры, которые говорят сами за себя
Сама статистика Gartner — достаточно красноречива:
$9,2 млрд → training (IaaS)
55% → inference share, 45% → training share
Это — впервые в истории.
Почему это случилось именно сейчас
В 2023–2024-м основные деньги шли в обучение: гигантские кластеры GPU, новые архитектуры, масштабные датасеты. Это был этап «фундамента». Компании соревновались, чья модель больше, мощнее, на большем количестве данных.
К 2025-му фокус сместился. Оказалось, что:
- Одна модель обучается месяцы — и работает годами.
- Каждый запрос к GPT-4 или Claude — это инференс. Триллионы токенов в день.
- Agentic AI (агентный ИИ) требует 5–30× больше токенов, чем обычный чат-бот.
- Один agentic-запрос = 5–30 вызовов модели → token consumption растёт экспоненциально.
Если обучение — разовый всплеск активности, то инференс — постоянный поток. Gartner напрямую прогнозирует: «As token consumption rises faster than token costs fall, overall inference costs are expected to increase» — совокупные расходы на инференс будут расти, даже если цена за токен падает.
Дополнительный фактор — переход к agentic AI. Если в 2024 году основной use case был «chat with document», то в 2026-м — «agent executes multi-step task». Один запрос к агенту = цепочка из 5–30 вызовов модели. Это означает, что даже при падающей цене за токен совокупный счёт растёт.
Инфраструктурный барьер
Переход к inference-first экономике создаёт новые вызовы:
Три системных проблемы, которые формируют «inference barrier»:
- Token-level контроль: Компании не трекают расходы на inference на уровне запроса. 46% компаний тратят 76–100% AI-бюджета на inference — без понимания, куда именно уходят деньги.
- Gateway отсутствует: AI gateway (прослойка маршрутизации) — новая категория инфраструктуры. Gartner называет это «критическим» для cost control. Без gateway — нет visibility, нет routing, нет контроля.
- Model mix не используется: Не каждая задача требует frontier-модель. Domain-specific модели работают в 10× дешевле при правильной архитектуре. Но компании продолжают использовать один and only one model для всех задач.
DigitalOcean Currents 2026 подтверждает: 46% компаний тратят 76–100% AI-бюджета на inference costs — ongoing cost за каждый запрос к модели. Без отдельного трекинга нет оптимизации.
Что это значит для рынка
До 2028 года минимум 70%Lifetime costs модели — это inference.
Ключевой вывод Gartner: «While lower token unit costs will enable more advanced capabilities, these advancements will drive disproportionately higher token demand. As token consumption rises faster than token costs fall, overall inference costs are expected to increase».
Это означает главное: даже при падающей цене за токен совокупные расходы растут — потому что потребление растёт быстрее, чем цена падает. Парадокс дефляции: токены дешевеют, но счёт растёт.
Что это значит для бизнеса
Для бизнеса, который использует AI, это означает несколько вещей:
- Cost visibility — без трекинга на уровне запроса компания не понимает, куда уходят деньги. AI gateway — это не «дополнительная фича», а необходимый слой.
- Model selection — не каждая задача требует GPT-4o или Claude 4. Domain-specific модели (например, специализированные модели для кода, для документов, для аналитики) работают в 10× дешевле. Но компании не знают об этом.
- Routing intelligence — победят те, кто умеет маршрутизировать между моделями: дорогие модели для сложных задач, дешёвые — для рутинных.
По сути, индустрия переходит от «какая модель круче» к «какой model mix оптимален». Это — фундаментальный сдвиг.
Архитектурные последствия
«Inference-first мир» меняет архитектурные решения:
Ключевые сигналы для отслеживания
- AI gateway — обязательный слой в enterprise-архитектуре
- Model selection по use case, не по «мощности»
- Трекинг inference costs на уровне запроса — mandatory
- Multi-model routing как конкурентное преимущество
- Domain-specific SLM — рост в 10×
- Edge AI — начало волны
Сценарии развития
🟢 Дефляция токенов + контроль потребления (40%)
Цены за токен падают, AI gateway становятся стандартом. Компании учатся контролировать consumption: model-level routing, кэширование, SLM для рутинных задач. Последствия: AI остаётся рентабельным. Frontier-модели доступны большинству через smart routing.
🔴 Дефляция токенов + рост frontier-потребления (15%)
Все хотят frontier — цена падает, но volume растёт 10×. Расходы всё равно растут. Последствия: Обвал в ROI. Проекты сворачиваются.
Путь вперед
Инциатива Gartner ясна: «Value will accrue to platforms that can orchestrate workloads across a diverse portfolio of models» — победят те, кто умеет маршрутизировать между моделями, а не гнаться за одной «самой большой».
Это — фундаментальный сдвиг от «model-centric» к «infrastructure-centric» мышлению. Не какая модель, а какой model mix, какой routing, какой gateway.
2026-й — переломный год. Inference-first.
Компании, которые первыми осознают этот сдвиг и построят правильную инфраструктуру — AI gateway, model routing, cost visibility — получат конкурентное преимущество. Те, кто продолжит «просто кидать запросы в API без трекинга», — столкнутся с бюджетными шоками.
Переход от training к inference — это не только про деньги. Это про то, как индустрия думает об AI. От «мы построили самую большую модель» к «наша инфраструктура делает больше всего».
Это — тектонический сдвиг. Меняется сама парадигма: главное — не создание модели, а эксплуатация. Не обучение — inference. Вот почему Gartner называет 2026-й «годом великой инверсии».
Для CTO и AI-руководителей это означает: нужно думать об инфраструктуре, а не только о моделях. Gateway, routing, cost visibility — это теперь mandatory, а не optional.
Gartner — авторитетный источник, прогноз взят из официального press release от марта 2026.