Стоимость одного токена упала в 280 раз за два года. Интеллект уровня GPT-4 теперь доступен за $0,30 за миллион токенов — против $60 в начале 2023-го. Это не просто снижение цены. Это структурный сдвиг, который переписывает экономику всей AI-индустрии.

🎯
Ключевые выводы

Стоимость AI-инференса снизилась на 97–99% с 2023 года — это одно из самых быстрых падений цены в истории технологий

Инференс теперь занимает 85% корпоративных AI-бюджетов против 33% в 2023 году — нагрузка сместилась с обучения на эксплуатацию

Четыре фактора — железо, софт, архитектура моделей и квантизация — работают мультипликативно, создавая 1000-кратный эффект за три года

Четыре двигателя коллапса

Падение цен не объяснить одним фактором. Это одновременное действие четырёх независимых линий, каждая из которых даёт 2–5-кратный эффект, а вместе они перемножаются.

Железо. Каждое новое поколение GPU даёт в 2–3 раза больше токенов в секунду на доллар. H100 обрабатывает примерно в 3 раза больше, чем A100 при схожей цене. Blackwell продвигает планку дальше. Результат — больше вычислений за те же деньги.

Софт. Инференс-фреймворки вроде vLLM, TensorRT-LLM и SGLang подняли утилизацию GPU с 30–40% до 70–80%. Техники вроде пакетизации в реальном времени (continuous batching) и спекулятивного декодирования (speculative decoding) позволяют обслуживать больше запросов на том же оборудовании.

Архитектура. Mixture-of-Experts модели — Mixtral, DeepSeek V3 — активируют лишь часть параметров на каждый токен, выдавая качество лучших моделей при в 3–5 раз меньших вычислительных затратах.

Квантизация. Запуск моделей в INT8 или INT4 точности сокращает требования к памяти и вычислениям в 2–4 раза с минимальной потерей качества. Дистиллированные модели воспроизводят 90%+ возможностей больших моделей за долю цены.

Как мы писали в июне, 60% мировых AI-вычислений уже сосредоточено у трёх облачных провайдеров — и именно этот объём делает экономику инференса критической.

1000× снижение стоимости с 2023 ↑ быстрее закона Мура в 9×

Падение цены AI-инференса

С $60 до $0,30 за млн токенов за 24 месяца. Полупроводниковой индустрии потребовалось 18 лет, чтобы достичь 100-кратного снижения. AI сделал это за два года. · Artificial Analysis, 2026

Инференс — новая доминанта

В 2023 году обучение моделей потребляло две трети всех GPU-мощностей. В 2026 пропорция инвертирована: инференс занимает примерно две трети спроса на AI-вычисления. Аналитики AnalyticsWeek оценивают долю инференса в корпоративных AI-бюджетах в 85%.

Три силы движут этим сдвигом. Массовое потребительское внедрение — ChatGPT, Claude, Gemini обслуживают сотни миллионов пользователей, и каждый диалог — это нагрузка инференса. Интеграция AI в бизнес-процессы — компании перешли от экспериментов к промышленным приложениям в поддержке, генерации кода, анализе документов. И агентные сценарии — многошаговые рассуждения (multi-step reasoning) с цепочками инструментов генерируют в 5–50 раз больше токенов на задачу, чем простой ответ на вопрос.

Совокупный эффект парадоксален: цена за единицу вычислений падает, но общий счёт растёт. Крупные компании с агентными сценариями тратят на инференс десятки миллионов долларов в год. По данным Stravoris Research, месячные AI-счета отдельных организаций достигают десятков миллионов долларов — несмотря на 80% годовое падение стоимости токена. Агентные нагрузки требуют 10–20 вызовов LLM на одну задачу, и каждый вызов генерирует в 5–50 раз больше токенов, чем простой вопрос-ответ.

85% AI-бюджета на инференс ↑ с 33% в 2023 году

Доля инференса в AI-расходах

Обучение было доминирующей статьёй расходов в 2023. Теперь эксплуатация моделей обходится дороже. Средняя компания тратит $2–5 млн в год на инференс. · AnalyticsWeek Inference Economics Report, 2026

Растёт · Падает · Новое

Что растёт

API-нагрузка. Amazon Bedrock обработала в Q1 2026 в 3 раза больше API-вызовов, чем за весь 2025 год. Выручка Azure AI выросла на 62% год к году. Гиперскейлеры тратят $700 млрд на AI-инфраструктуру в 2026 — почти вдвое больше, чем в 2025.

Собственная инфраструктура. Анализ Lenovo показывает 8-кратное преимущество в стоимости размещения 70B-модели на собственном оборудовании против облака по запросу ($0,11 против $0,89 за млн токенов). При высокой утилизации окупаемость наступает менее чем за 4 месяца.

Что падает

API-цены. OpenAI снизила GPT-4o на 33% с середины 2025 — до $10 за млн токенов. Google Gemini 1.5 Pro — с $10,50 до $7. Конкуренция open-source не даёт провайдерам поднимать цены обратно.

Барьер для стартапов. В 2023 году инференс на 1000 пользователей обходился в сотни долларов в день. В 2026 — единицы долларов. Это открыло длинный хвост сценариев использования: ночные запросы, повторные уточнения, первичная квалификация лидов.

Что появляется

Трёхуровневая архитектура. Управляемые API для экспериментов → собственное облако для регулируемых нагрузок → собственная инфраструктура для высокообъёмного производства. Выбор зависит от месячного объёма токенов, требований к суверенности данных и задержкам.

Новые бизнес-модели. Агентные системы с 10–20 LLM-вызовами на задачу становятся экономически жизнеспособными. Появляются middleware-слои для маршрутизации запросов между моделями — дешёвая модель для простых задач, дорогая для сложных.

Особенно заметен эффект в голосовых агентах. В 2024 году стоимость минуты AI-голосового диалога составляла около $0,12. В 2026 — менее $0,01. Это превратило голосовых ассистентов из экспериментального продукта в массовый канал обслуживания. По данным a16z, 22% стартапов последнего класса Y Combinator строят продукты на базе голосовых агентов.

Параллельно формируется слой AI-инфраструктурного ПО — компании вроде FPT Software предлагают GPU-кластеры с оптимизацией затрат на токен, обещая до 66% снижения расходов на инференс против стандартных облачных конфигураций. Рынок neocloud-провайдеров вырос на 40% за первое полугодие 2026, заняв нишу между гиперскейлерами и собственным оборудованием. Поставщики специализированного инференс-железа — Cerebras, Groq — наращивают присутствие через AWS Marketplace и прямые контракты с enterprise-клиентами, которым критична скорость ответа.

Как меняется стратегия корпораций

Коллапс цен на инференс перестраивает не только бюджеты, но и архитектуру принятия решений в корпорациях. FinOps Foundation в отчёте State of AI FinOps 2026 фиксирует: 78% компаний с AI-нагрузками внедрили практику маршрутизации запросов — дешёвая модель для 80% рутинных задач, дорогая для сложных.

Стандартом становится каскадная архитектура: первичный запрос обрабатывается distilled-моделью за $0,10–0,30 за млн токенов, и только при недостаточной уверенности запрос эскалируется на frontier-модель за $10–15. Такая схема снижает среднюю стоимость токена на 60–80% без потери качества ответов.

Второй тренд — промпт-кэширование. Повторяющийся контекст (инструкции, база знаний, история диалога) кэшируется и не тарифицируется как новый ввод. Sesame Disk отмечает, что repeat input — крупнейший избежимый компонент расходов, и его оптимизация даёт 30–50% экономии на API-счетах.

Третий — переход на open-source модели для стабильных высокообъёмных нагрузок. DeepSeek V3, Llama 4 и Mistral Large работают на собственном оборудовании со стоимостью токена на уровне $0,05–0,11 — в 10–20 раз дешевле API frontier-моделей при сопоставимом качестве на массовых задачах. По данным IDC, к 2027 году 75% компаний перейдут на гибридную схему: API для экспериментов и переменных нагрузок, собственные модели — для стабильного объёма.

📊
Ключевые сигналы для отслеживания

Цены API продолжат падать — open-source модели и эффективные архитектуры не дадут провайдерам стабилизировать цены раньше 2027
Собственная инфраструктура станет стандартом для высоких объёмов — порог окупаемости снижается с каждым поколением GPU
Концентрация поставщиков — 60% мощностей у трёх облаков создаёт риск зависимости и роста цен
Агентные сценарии взрывают объём токенов — многошаговые рассуждения увеличивают нагрузку в 10–50× на задачу

Открытые и проприетарные модели: новый баланс

Коллапс цен на инференс изменил расстановку сил между открытыми и проприетарными моделями. В 2023 году выбор был прост: GPT-4 для качества, всё остальное — компромисс. В 2026 году ландшафт принципиально иной.

DeepSeek V3 при стоимости инференса $0,55 за млн токенов показывает результаты, сопоставимые с GPT-4 на большинстве бенчмарков. Llama 4 от Meta работает на потребительских GPU. Mistral Large обходится в $2 за млн токенов при качестве, достаточном для 90% бизнес-задач. Разрыв в способностях между open-source и frontier-моделями сократился до 5–10%, а разрыв в цене — до 10–50×.

Для стартапа это означает принципиально другую математику. Затраты на AI-инфраструктуру больше не являются барьером входа. Решающим фактором становится не доступ к модели, а качество данных, архитектура продукта и скорость итераций.

Для enterprise-сектора выбор усложнился. Четыре провайдера (OpenAI, Anthropic, Google, xAI) и как минимум три open-source экосистемы (Meta Llama, DeepSeek, Mistral) — каждая со своей кривой cost-per-token, latency и quality. К этому добавляются провайдеры инфраструктуры вроде Cerebras и Groq, которые специализируются на сверхбыстром инференсе для latency-critical сценариев.

Рынок движется к модели «model router» — middleware-слой, который автоматически направляет запрос на оптимальную модель по совокупности факторов: сложность задачи, бюджет, требования к скорости. Компании, которые построят эффективный router, получат 30–50% преимущества в cost-per-unit-intelligence.

Кто выигрывает, кто проигрывает

Коллапс стоимости инференса — не нейтральный процесс. Он перераспределяет ценность вдоль всей цепочки.

Выигрывают: стартапы, которые строят продуктовые слои поверх дешёвого инференса (voice-агенты, AI-кодинг, персонализация); компании с высокочастотными сценариями (поддержка, квалификация лидов, обработка документов); владельцы open-source моделей — DeepSeek, Mistral, Llama, чьи модели становятся стандартом для собственной инфраструктуры.

Проигрывают: API-провайдеры с низкой дифференциацией — конкуренция уничтожает маржу; компании, инвестировавшие в собственные модели без ценового преимущества; гиперскейлеры, которые не могут монетизировать $700 млрд инфраструктуры с положительным ROI.

Как заметил один из основателей Y Combinator: «Впервые никто не говорит „нет". Все говорят „да" — и спрос на AI-продукты беспрецедентен». Рынок AI-ПО вырос до $29 млрд в 2026 году и продолжает расти на 30%+ ежегодно.

Коллапс стоимости инференса — не эпизод, а долгосрочный структурный сдвиг. Он переводит AI из категории «дорогой эксперимент» в категорию «дешевая инфраструктура» — как электричество или интернет-трафик. Компании, которые перестроят архитектуру вокруг дешёвого инференса, получат преимущество на следующие 3–5 лет. Остальные будут платить в 10–50 раз больше за тот же результат при худшем качестве.

Главный вывод 2026 года: AI больше не про то, у кого самая умная модель. AI — про то, кто может позволить себе запускать её на каждом запросе, каждом пользователе, каждом процессе. Инференс стал новым бенчмарком конкурентоспособности.

AI Inference Pricing Collapse Is Reshaping Neocloud Economics
Согласно отчёту AnalyticsWeek, инференс составляет 85% корпоративных AI-бюджетов. Анализ того, как падение цен меняет экономику neocloud-провайдеров
Главный источник по цифрам перераспределения AI-бюджетов
AI Inference Economics: The 1,000× Cost Collapse Reshaping GPUs
Детальный разбор четырёх факторов коллапса с конкретными цифрами по каждому: железо, софт, архитектура, квантизация
Лучший технический разбор механики падения цен
AI Inference Cost Trends in 2026: Tokens, Model Size, and Economics
Сравнение ценовой динамики у OpenAI, Anthropic, Google, DeepSeek и Mistral с анализом self-hosted против API экономики
Лучшее сравнение провайдерских цен