Как NVIDIA переключилась с обучения на вывод — и что это значит для рынка чипов

$20 млрд. Именно столько NVIDIA заплатила за стартап Groq в декабре 2025 года — не за технологию, а за инженерную команду. Это крупнейшая сделка в истории inference-чипов. Но главное — цена, которую заплатили за полуторагодовалый стартап без выручки. Рынок изменился настолько, что специализированный ускоритель стал важнее универсального GPU.

Ключевые выводы

🎯
NVIDIA официально признала: центр AI-вычислений переместился с обучения на вывод — inference теперь занимает две трети всех AI-вычислений.

Платформа Vera Rubin с Groq 3 LPX обещает 10x снижение стоимости токена по сравнению с Blackwell — запуск в H2 2026 года.

Гибридные архитектуры (GPU + LPU) становятся стандартом для триллионных моделей с миллионным контекстом.

На мартовской конференции GTC 2026 CEO Jensen Huang произнёс фразу, которую ждали два года: «Точка перегиба вывода наступила» (The inference inflection point has arrived). Заявление — не маркетинг. В 2024 году на обучение приходилось 60% AI-вычислений NVIDIA. К концу 2026 года пропорция инвертировалась: на inference уходит 66% всех вычислительных ресурсов.

Переход — не отказ от GPU. Это расширение стека. Vera Rubin R100 — новый чип с 336 млрд транзисторов, построенный по 4-нм техпроцессу. В паре с Groq 3 LPU (языковой процессорной единицей) платформа разделяет задачу вывода на два этапа: предобработка (prefill) и декодирование — каждый выполняется на оптимизированном чипе.

📊
Ключевые параметры

Стоимость токена: Vera Rubin + Groq 3 — 10x ниже, чем Blackwell
Энергоэффективность: 10x выше на ватт
Пропускная способность: 35x больше на мегаватт (Groq 3)
Объём памяти: 288 ГБ HBM4
Контекстное окно: до 1 млн токенов

Архитектура разделения

До сих пор один и тот же GPU обрабатывал и предобработку промпта, и генерацию токенов ответа. Подход работал для моделей на 70 млрд параметров с контекстом в 128K токенов. Но триллионные модели с миллионным контекстом требуют иного.

Groq 3 LPX — результат сделки за $20 млрд. Чип использует 256 процессоров с 128 ГБ встроенной SRAM (Static Random Access Memory) и пропускной способностью 40 PB/s. Это в 150 раз больше, чем у типичного GPU. Главное — архитектура устраняет внешние обращения к памяти. Данные не покидают кристалл. Задержка падает.

Интеграция в NVL72 — стойку из 72 GPU Rubin и 36 CPU Vera, соединённых NVLink 6. В каждую стойку добавляют 8 модулей Groq 3 LPX. Результат — гибридная система, где:

  • предобработка выполняется на Rubin GPU (вычислительная интенсивность);
  • финальное декодирование — на Groq 3 LPU (низкая задержка).

Microsoft Azure уже развернула Vera Rubin NVL72 в своих ЦОД. Первые deploymentы — AWS, Google Cloud, Oracle и CoreWeave — ожидаются во второй половине 2026 года.

Экономика: точка перегиба

Для enterprise-клиентов снижение стоимости вывода в 10x меняет экономику каждого автоматизационного сценария. Рабочие нагрузки, которые в 2025 году не окупались при стоимости $50 за миллион токенов, к концу 2026 года становятся рентабельными при $5. Workflows, работавшие только в облаке, теперь имеют экономический смысл запускать on-premise.

NVIDIA оценивает общий рынок inference в $50 млрд к 2026 году. Рост — с $17.73 млрд в 2025 году. CAGR 15.6%. Драйвер — агентные AI-системы, требующие непрерывного вывода в реальном времени, а не пакетной обработки.

Но есть конкуренция. AMD приобрела инженерную команду Untether AI и стартап MK1 (ноябрь 2025). Intel ведёт переговоры о покупке SambaNova за $1.6 млрд (изначальная оценка — $1.1 млрд). Cerebras с WSE-3 достигла 2,522 токенов в секунду на Llama 4 Maverick против 1,038 t/s на NVIDIA DGX B200.

Консолидация неизбежна

Сделка с Groq — не просто приобретение технологии. Это сигнал рынку: специализированные inference-ускорители стали стратегическими. Пять лет назад NVIDIA могла позволить себе игнорировать нишевые решения. Сегодня — нет.

Парадокс: приобретение Groq за $20 млрд состоялось через два с половиной месяца после анонса сделки. Это рекордная скорость для такой суммы. Видимо, давление со стороны конкурентов и hyperscalers (все крупные облачные провайдеры разрабатывают собственные чипы) вынудило действовать быстро.

Прогноз на 2027 год: GPU сохранят доминирование в гибридных нагрузках и мультизадачных сценариях. Custom silicon (ASIC) займёт нишу latency-critical inference. Гибридные архитектуры — стандарт де-факто к концу 2027 года.

🔮
К 2028 году Vera Rubin Ultra с silicon photonics обеспечит 14x прирост производительности над текущими системами.

Вероятность: 75% — инженерный roadmap подтверждён, партнёры назначены.

✅ Аргументы за

Vera Rubin — уже в массовом производстве (Q1 2026). Гибридная архитектура (GPU + LPU) подтверждена партнёрами. Все major hyperscalers подписались на deployments H2 2026. Критерии подтверждения: независимые бенчмарки Vera Rubin + Groq 3 подтверждают заявленную производительность.

❌ Аргументы против

Спецификации NVIDIA — не независимые бенчмарки. Groq 3LPX ещё не поставляется (Q3 2026). AMD MI400 и Google Ironwood TPU v7 выходят одновременно. Критерии опровержения: AMD или Google получают >30% рынка inference-чипов к концу 2027.

📊
Ключевые сигналы для отслеживания

Независимые бенчмарки Vera Rubin + Groq 3 (Q3 2026)
Доля рынка AMD MI400 к концу 2026 года
Количество ЦОД-партнёров, развернувших гибридные системы
Динамика цен на inference в облаках (должна падать)

Сценарии развития

🟢 Оптимистичный сценарий (20%)

Custom silicon (Groq, Cerebras) захватывает >50% рынка production inference к Q1 2027.Гибридные архитектуры — default для всех enterprise deploymentов. Последствия: NVIDIA сохраняет доминирование через экосистему, но маржа растёт на software/solutions layer.

🟡 Базовый сценарий (60%)

Гибридные системы (GPU + LPU) — стандарт для trillion-parameter моделей.GPU остаются основной рабочей лошадкой. Custom silicon — в latency-sensitive нишах. Последствия: NVIDIA лидирует, AMD/Google делят остаток >$15 млрд.

🔴 Пессимистичный сценарий (20%)

Groq 3 LPX не достигает заявленных спецификаций.AMD MI400 или Google Ironwood получают существенную долю (>35%).Гиперскейлеры ускоряют custom silicon roadmap. Последствия: NVIDIA теряет >20% рыночной доли в inference за 18 месяцев.

Что это значит для enterprise

Три фактора определяют решение в 2026 году: latency, cost, context length.

Для high-throughput inference (RAG-системы, агентные workflows) — Vera Rubin + Groq 3 LPX даёт 10x преимущество в стоимости. Для latency-critical (real-time чат-боты) — custom silicon (Groq 3, Cerebras) обеспечивает минимальную задержку.

Ключевой вопрос — когда ожидать независимых бенчмарков. NVIDIA приводит числа: 5x inference performance, 10x lower cost per token. Это пока заявления производителя. Реальные тесты появятся в Q3 2026, когда Groq 3 LPX начнёт поставляться.

До тех пор — базовый сценарий: гибридная архитектура NVIDIA становится стандартом. Но конкуренция AMD и Google не даст монополии сформироваться.

NVIDIA Vera Rubin Platform
Официальная страница платформы Vera Rubin — спецификации всех семи чипов, включая Groq 3 LPX.

Официальные спецификации платформы — источник для проверки заявленных параметров.

NVIDIA GTC 2026 Keynote: 5 Enterprise AI Strategy Shifts
Анализ ключевых анонсов Vera Rubin и экономических последствий для enterprise AI.

Независимый анализ бизнес-имplications анонсов GTC 2026.

With Nvidia Groq 3, the Era of AI Inference Is (Probably) Here
Технический разбор Groq 3 LPU и гибридной архитектуры вывода.

Техническая журналистика — независимый взгляд на новую архитектуру.