Стоимость одного токена упала в 280 раз за два года. Интеллект уровня GPT-4 теперь доступен за $0,30 за миллион токенов — против $60 в начале 2023-го. Это не просто снижение цены. Это структурный сдвиг, который переписывает экономику всей AI-индустрии.
Стоимость AI-инференса снизилась на 97–99% с 2023 года — это одно из самых быстрых падений цены в истории технологий
Инференс теперь занимает 85% корпоративных AI-бюджетов против 33% в 2023 году — нагрузка сместилась с обучения на эксплуатацию
Четыре фактора — железо, софт, архитектура моделей и квантизация — работают мультипликативно, создавая 1000-кратный эффект за три года
Четыре двигателя коллапса
Падение цен не объяснить одним фактором. Это одновременное действие четырёх независимых линий, каждая из которых даёт 2–5-кратный эффект, а вместе они перемножаются.
Железо. Каждое новое поколение GPU даёт в 2–3 раза больше токенов в секунду на доллар. H100 обрабатывает примерно в 3 раза больше, чем A100 при схожей цене. Blackwell продвигает планку дальше. Результат — больше вычислений за те же деньги.
Софт. Инференс-фреймворки вроде vLLM, TensorRT-LLM и SGLang подняли утилизацию GPU с 30–40% до 70–80%. Техники вроде пакетизации в реальном времени (continuous batching) и спекулятивного декодирования (speculative decoding) позволяют обслуживать больше запросов на том же оборудовании.
Архитектура. Mixture-of-Experts модели — Mixtral, DeepSeek V3 — активируют лишь часть параметров на каждый токен, выдавая качество лучших моделей при в 3–5 раз меньших вычислительных затратах.
Квантизация. Запуск моделей в INT8 или INT4 точности сокращает требования к памяти и вычислениям в 2–4 раза с минимальной потерей качества. Дистиллированные модели воспроизводят 90%+ возможностей больших моделей за долю цены.
Как мы писали в июне, 60% мировых AI-вычислений уже сосредоточено у трёх облачных провайдеров — и именно этот объём делает экономику инференса критической.
Падение цены AI-инференса
С $60 до $0,30 за млн токенов за 24 месяца. Полупроводниковой индустрии потребовалось 18 лет, чтобы достичь 100-кратного снижения. AI сделал это за два года. · Artificial Analysis, 2026
Инференс — новая доминанта
В 2023 году обучение моделей потребляло две трети всех GPU-мощностей. В 2026 пропорция инвертирована: инференс занимает примерно две трети спроса на AI-вычисления. Аналитики AnalyticsWeek оценивают долю инференса в корпоративных AI-бюджетах в 85%.
Три силы движут этим сдвигом. Массовое потребительское внедрение — ChatGPT, Claude, Gemini обслуживают сотни миллионов пользователей, и каждый диалог — это нагрузка инференса. Интеграция AI в бизнес-процессы — компании перешли от экспериментов к промышленным приложениям в поддержке, генерации кода, анализе документов. И агентные сценарии — многошаговые рассуждения (multi-step reasoning) с цепочками инструментов генерируют в 5–50 раз больше токенов на задачу, чем простой ответ на вопрос.
Совокупный эффект парадоксален: цена за единицу вычислений падает, но общий счёт растёт. Крупные компании с агентными сценариями тратят на инференс десятки миллионов долларов в год. По данным Stravoris Research, месячные AI-счета отдельных организаций достигают десятков миллионов долларов — несмотря на 80% годовое падение стоимости токена. Агентные нагрузки требуют 10–20 вызовов LLM на одну задачу, и каждый вызов генерирует в 5–50 раз больше токенов, чем простой вопрос-ответ.
Доля инференса в AI-расходах
Обучение было доминирующей статьёй расходов в 2023. Теперь эксплуатация моделей обходится дороже. Средняя компания тратит $2–5 млн в год на инференс. · AnalyticsWeek Inference Economics Report, 2026
Растёт · Падает · Новое
Что растёт
API-нагрузка. Amazon Bedrock обработала в Q1 2026 в 3 раза больше API-вызовов, чем за весь 2025 год. Выручка Azure AI выросла на 62% год к году. Гиперскейлеры тратят $700 млрд на AI-инфраструктуру в 2026 — почти вдвое больше, чем в 2025.
Собственная инфраструктура. Анализ Lenovo показывает 8-кратное преимущество в стоимости размещения 70B-модели на собственном оборудовании против облака по запросу ($0,11 против $0,89 за млн токенов). При высокой утилизации окупаемость наступает менее чем за 4 месяца.
Что падает
API-цены. OpenAI снизила GPT-4o на 33% с середины 2025 — до $10 за млн токенов. Google Gemini 1.5 Pro — с $10,50 до $7. Конкуренция open-source не даёт провайдерам поднимать цены обратно.
Барьер для стартапов. В 2023 году инференс на 1000 пользователей обходился в сотни долларов в день. В 2026 — единицы долларов. Это открыло длинный хвост сценариев использования: ночные запросы, повторные уточнения, первичная квалификация лидов.
Что появляется
Трёхуровневая архитектура. Управляемые API для экспериментов → собственное облако для регулируемых нагрузок → собственная инфраструктура для высокообъёмного производства. Выбор зависит от месячного объёма токенов, требований к суверенности данных и задержкам.
Новые бизнес-модели. Агентные системы с 10–20 LLM-вызовами на задачу становятся экономически жизнеспособными. Появляются middleware-слои для маршрутизации запросов между моделями — дешёвая модель для простых задач, дорогая для сложных.
Особенно заметен эффект в голосовых агентах. В 2024 году стоимость минуты AI-голосового диалога составляла около $0,12. В 2026 — менее $0,01. Это превратило голосовых ассистентов из экспериментального продукта в массовый канал обслуживания. По данным a16z, 22% стартапов последнего класса Y Combinator строят продукты на базе голосовых агентов.
Параллельно формируется слой AI-инфраструктурного ПО — компании вроде FPT Software предлагают GPU-кластеры с оптимизацией затрат на токен, обещая до 66% снижения расходов на инференс против стандартных облачных конфигураций. Рынок neocloud-провайдеров вырос на 40% за первое полугодие 2026, заняв нишу между гиперскейлерами и собственным оборудованием. Поставщики специализированного инференс-железа — Cerebras, Groq — наращивают присутствие через AWS Marketplace и прямые контракты с enterprise-клиентами, которым критична скорость ответа.
Как меняется стратегия корпораций
Коллапс цен на инференс перестраивает не только бюджеты, но и архитектуру принятия решений в корпорациях. FinOps Foundation в отчёте State of AI FinOps 2026 фиксирует: 78% компаний с AI-нагрузками внедрили практику маршрутизации запросов — дешёвая модель для 80% рутинных задач, дорогая для сложных.
Стандартом становится каскадная архитектура: первичный запрос обрабатывается distilled-моделью за $0,10–0,30 за млн токенов, и только при недостаточной уверенности запрос эскалируется на frontier-модель за $10–15. Такая схема снижает среднюю стоимость токена на 60–80% без потери качества ответов.
Второй тренд — промпт-кэширование. Повторяющийся контекст (инструкции, база знаний, история диалога) кэшируется и не тарифицируется как новый ввод. Sesame Disk отмечает, что repeat input — крупнейший избежимый компонент расходов, и его оптимизация даёт 30–50% экономии на API-счетах.
Третий — переход на open-source модели для стабильных высокообъёмных нагрузок. DeepSeek V3, Llama 4 и Mistral Large работают на собственном оборудовании со стоимостью токена на уровне $0,05–0,11 — в 10–20 раз дешевле API frontier-моделей при сопоставимом качестве на массовых задачах. По данным IDC, к 2027 году 75% компаний перейдут на гибридную схему: API для экспериментов и переменных нагрузок, собственные модели — для стабильного объёма.
Цены API продолжат падать — open-source модели и эффективные архитектуры не дадут провайдерам стабилизировать цены раньше 2027
Собственная инфраструктура станет стандартом для высоких объёмов — порог окупаемости снижается с каждым поколением GPU
Концентрация поставщиков — 60% мощностей у трёх облаков создаёт риск зависимости и роста цен
Агентные сценарии взрывают объём токенов — многошаговые рассуждения увеличивают нагрузку в 10–50× на задачу
Открытые и проприетарные модели: новый баланс
Коллапс цен на инференс изменил расстановку сил между открытыми и проприетарными моделями. В 2023 году выбор был прост: GPT-4 для качества, всё остальное — компромисс. В 2026 году ландшафт принципиально иной.
DeepSeek V3 при стоимости инференса $0,55 за млн токенов показывает результаты, сопоставимые с GPT-4 на большинстве бенчмарков. Llama 4 от Meta работает на потребительских GPU. Mistral Large обходится в $2 за млн токенов при качестве, достаточном для 90% бизнес-задач. Разрыв в способностях между open-source и frontier-моделями сократился до 5–10%, а разрыв в цене — до 10–50×.
Для стартапа это означает принципиально другую математику. Затраты на AI-инфраструктуру больше не являются барьером входа. Решающим фактором становится не доступ к модели, а качество данных, архитектура продукта и скорость итераций.
Для enterprise-сектора выбор усложнился. Четыре провайдера (OpenAI, Anthropic, Google, xAI) и как минимум три open-source экосистемы (Meta Llama, DeepSeek, Mistral) — каждая со своей кривой cost-per-token, latency и quality. К этому добавляются провайдеры инфраструктуры вроде Cerebras и Groq, которые специализируются на сверхбыстром инференсе для latency-critical сценариев.
Рынок движется к модели «model router» — middleware-слой, который автоматически направляет запрос на оптимальную модель по совокупности факторов: сложность задачи, бюджет, требования к скорости. Компании, которые построят эффективный router, получат 30–50% преимущества в cost-per-unit-intelligence.
Кто выигрывает, кто проигрывает
Коллапс стоимости инференса — не нейтральный процесс. Он перераспределяет ценность вдоль всей цепочки.
Выигрывают: стартапы, которые строят продуктовые слои поверх дешёвого инференса (voice-агенты, AI-кодинг, персонализация); компании с высокочастотными сценариями (поддержка, квалификация лидов, обработка документов); владельцы open-source моделей — DeepSeek, Mistral, Llama, чьи модели становятся стандартом для собственной инфраструктуры.
Проигрывают: API-провайдеры с низкой дифференциацией — конкуренция уничтожает маржу; компании, инвестировавшие в собственные модели без ценового преимущества; гиперскейлеры, которые не могут монетизировать $700 млрд инфраструктуры с положительным ROI.
Как заметил один из основателей Y Combinator: «Впервые никто не говорит „нет". Все говорят „да" — и спрос на AI-продукты беспрецедентен». Рынок AI-ПО вырос до $29 млрд в 2026 году и продолжает расти на 30%+ ежегодно.
Коллапс стоимости инференса — не эпизод, а долгосрочный структурный сдвиг. Он переводит AI из категории «дорогой эксперимент» в категорию «дешевая инфраструктура» — как электричество или интернет-трафик. Компании, которые перестроят архитектуру вокруг дешёвого инференса, получат преимущество на следующие 3–5 лет. Остальные будут платить в 10–50 раз больше за тот же результат при худшем качестве.
Главный вывод 2026 года: AI больше не про то, у кого самая умная модель. AI — про то, кто может позволить себе запускать её на каждом запросе, каждом пользователе, каждом процессе. Инференс стал новым бенчмарком конкурентоспособности.