Парадокс ИИ-чипов: $4 млрд в инференс, но вычислений всё равно не хватает
Двенадцать компаний. Четыре миллиарда долларов за пять месяцев. И ни одна не может сказать, что решила главную проблему индустрии.
С ноября 2025 года по март 2026-го стартапы, делающие чипы для искусственного интеллекта, привлекли рекордные $4 млрд+ венчурного капитала. Cerebras закрыл раунд на $1 млрд при оценке $23 млрд. SambaNova получила $350 млн и представила SN50 — чип, который, по заявлениям компании, в три раза эффективнее NVIDIA B200 для инференса. Rebellions из Южной Кореи вышла на pre-IPO с $400 млн.
И вот парадокс. Деньги идут рекой. Но дефицит вычислений не уменьшается. Он растёт.
Четыре вывода, которые меняют картину
Три из четырёх долларов в этом цикле пошли в чипы для запуска моделей, а не для их тренировки. Обучить модель — дорого, но разово. Запускать модель миллиарды раз в день — это уже операционный кошмар.
Фотонные чипы вышли из лабораторий
Neurophos привлекла $110 млн на чипы, где вычисления идут светом, а не электричеством. Olix добавил $220 млн на ту же технологию. Это больше не академический проект — это дата-центры.
Альтернативные архитектуры бросают вызов GPU
Wafer-scale (Cerebras), аналоговые вычисления (Mythic), in-memory compute (Positron) — три разных физических подхода к одной проблеме. NVIDIA больше не единственный ответ.
География гонки расширяется
Южная Корея (Rebellions), Китай (Tsing Micro, $283 млн), Техас (Neurophos) — Кремниевая долина больше не монополист. ~$700 млн из 12 раундов пошли в компании за пределами США.
Что стоит за числами
Семь из двенадцати раундов закрылись в первом квартале 2026 года. Это не плавный рост — это ускорение.
Cerebras собрал $1 млрд в серии H. Wafer Scale Engine 3 — процессор размером с пластину, а не с чип. Это физический вызов: обычно кремниевую пластину режут на сотни маленьких чипов, потому что чем больше чип, тем выше шанс дефекта. Cerebras не режет. Весь wafer — один процессор. И это работает для инференса, где параллельные вычисления важнее тактовой частоты.
SambaNova пошла другим путём. SN50 — не рекорд по размеру. Рекорд по эффективности. Компания заявляет: три ватта на ток инференса против девяти у NVIDIA B200. Для дата-центра, который запускает модель 10 миллионов раз в сутки, разница — это миллионы долларов на электричестве.
Intel заметила. Подписала со SambaNova многолетнее соглашение на развёртывание инференс-инфраструктуры. Не инвестиция. Партнёрство. Это сигнал: традиционный производитель CPU признаёт, что GPU — не единственный путь.
Фотонные чипы — отдельная история. Neurophos использует метаоптические модуляторы: свет проходит через структуру, которая выполняет матричные умножения без электричества. Скорость — ограничена только скоростью света в среде. Потребление — на порядки ниже. Компания выросла из технологии «невидимых плащей» — да, буквально метаматериалов для управления светом. Теперь они делают чипы для дата-центров.
Olix добавил $220 млн. Тоже фотоника. Тоже инференс. Два игрока на одном поле — это не совпадение, это формирующийся рынок.
Etched привлекла ~$500 млн, не отгрузив ни одного чипа. MatX — $500 млн на серии B. Инвесторы дают полмиллиарда компании на стадии «у нас есть дорожная карта». Это уровень доверия, который в полупроводниках не видели со времён NVIDIA 2010-х.
Почему инференс стал кризисом
Обучить GPT-4 стоило ~$100 млн. Один раз. Запустить GPT-4 для миллиарда пользователей — это уже миллиарды в месяц на инференс.
Google решил часть проблемы: новый алгоритм сжатия KV-cache уменьшает потребление памяти в 6 раз. KV-cache — это промежуточные вычисления, которые модель хранит для каждого запроса. Меньше памяти на запрос — больше запросов на чип. Но это оптимизация софта. Физика остаётся.
Каждый запрос к LLM — это десятки миллиардов операций с плавающей запятой. Умножение матрицы веса на вектор активации. Потом ещё раз. И ещё. Для каждого токена. Для каждого пользователя. Для каждого приложения, которое встроило ИИ в свой продукт.
OpenAI закрыла публичный API Sora. Причина: стоимость инференса на одну минуту сгенерированного видео не окупается. Модель работает. Видео красивое. Но электричество и вычисления стоят дороже, чем пользователи готовы платить.
Вот где живёт парадокс. ИИ-модели стали лучше. Но запускать их — дороже, чем кажется.
Кто и зачем вкладывается
Состав инвесторов в этих 12 раундах — не типичный венчур. Jane Street и Jump Trading — квантовые трейдинговые фирмы — лидируют раунды. Они понимают оптимизацию. Для них ИИ-чип — это не «будущее технологий». Это задача минимизации задержки при максимуме throughput.
Tiger Global led раунд Cerebras. Space Capital инвестировал в Neurophos. Gates Frontier (фонд Билла Гейтса) — тоже в фотонику. Разные тезисы, одни и те же физические ограничения: энергия, пропускная способность, тепловыделение.
Китайские и корейские компании привлекли ~$700 млн суммарно. Rebellions из Сеула — $400 млн на pre-IPO. Tsing Micro — ~$283 млн. Геополитика чипов (ограничения на экспорт NVIDIA в Китай) создала стимул для локальных игроков. Они не конкурируют с NVIDIA напрямую. Они занимают ниши, которые NVIDIA не закрывает.
Три физических ограничения, которые не обойти деньгами
Четыре миллиарда долларов — много. Но есть проблемы, которые деньги не решают.
Дата-центры потребят 1000+ ТВт·ч в 2026 году. Каждый ватт, сэкономленный на чипе, — это ватт, который не нужно генерировать. Фотонные чипы обещают на порядок меньше. Аналоговые — ещё меньше. Но физика термодинамики не отменяется: любое вычисление рассеивает тепло. Вопрос — сколько.
Чип может считать быстро. Но если данные не успевают дойти от памяти до вычислительных блоков — чип простаивает. Cerebras решает это wafer-scale дизайном (дальше данные не летят). Остальные играют в оптимизацию interconnect.
TSMC — единственный производитель передовых чипов. Очередь — на годы. Etched и MatX собрали по $500 млн, не отгрузив ничего. Они в очереди. Фотонные чипы (Neurophos, Olix) используют стандартные CMOS-процессы — это обходной путь, но с компромиссами по точности.
Как мы писали в марте, когда MCP (Model Context Protocol) surpassed 97 миллионов установок — агентный ИИ становится инфраструктурой. Но каждый агент — это инференс. Каждый вызов модели — это ватты и доллары. Инфраструктура растёт быстрее, чем физическая способность её питать.
Что говорит рынок
OpenAI вышла на annualized revenue $25 млрд. Anthropic приблизилась к $19 млрд. Это доходы, не инвестиции. Модели монетизируются. Но маржинальность — под вопросом, потому что стоимость инференса съедает значительную часть выручки.
Oracle уволила 20-30 тысяч сотрудников, чтобы направить $8-10 млрд в ИИ-инфраструктуру. Не в модели. В инфраструктуру. В чипы, в серверы, в охлаждение. Это жест: компания, которая делает софт, инвестирует в железо. Потому что софт без железа — это идея без исполнителя.
NVIDIA на GTC 2026 показала NeMoCLAW и OpenCLAW — оркестрационные фреймворки для агентного ИИ. Компания, которая доминировала в тренировке, теперь строит экосистему для инференса. Она видит, куда идёт рынок. И защищает территорию.
Прогноз: кто выиграет гонку инференс-чипов
Вероятность: 60% — деньги есть, технологии работают, но TSMC и инерция экосистемы CUDA — серьёзные барьеры.
✅ Аргументы за
❌ Аргументы против
Сигналы, которые стоит отслеживать
Rebellions IPO — южнокорейская компания с $400 млн на pre-IPO. Публичный рынок оценит инференс-чипы иначе, чем венчур. Маркер зрелости рынка.
Фотонные чипы Neurophos в продакшене — первый дата-центр, который запустит оптические вычисления для клиентского трафика. Если случится — это смена парадигмы, не просто новый вендор.
NVIDIA B300 announcement — следующее поколение. Если NVIDIA снизит стоимость инференса на порядок, альтернативным чипам придётся конкурировать с движущейся мишенью.
Сжатие KV-cache в продакшене — если Google или Anthropic внедрят 6× сжатие памяти массово, потребность в новых чипах снизится. Софт может решить то, за что борется железо.
Три сценария: как развернётся гонка
🟢 Оптимистичный сценарий (25%)
🟡 Базовый сценарий (55%)
🔴 Пессимистичный сценарий (20%)
Что это значит для тех, кто строит на ИИ
Если вы запускаете LLM-модель для пользователей — стоимость инференса ваша главная статья расходов через 12 месяцев. Не лицензия на модель. Не зарплата инженеров. Электричество и чипы.
Следите за тремя вещами: отгрузки Etched (первый кремний — Q3 2026), фотонные чипы Neurophos (первый продакшен — Q1 2027 по дорожной карте), и NVIDIA B300 (ответ на конкуренцию). Эти три события определят, стоит ли оптимизировать софт под альтернативные чипы или ждать следующего поколения GPU.
Инференс — это не проблема софта. Это проблема физики. И деньги не покупают физику. Деньги покупают время, чтобы её обойти.
Обсуждение