В феврале 2026 года SambaNova представила чип SN50 — и сразу заявила о нём пять вещей, которые звучат одновременно как маркетинг и как инженерный вызов. 5x быстрее конкурентов. 3x ниже совокупная стоимость владения. 256 ускорителей на один воркер — втрое больше, чем у Nvidia NVL72. Air-cooled, 15–30 кВт на стойку. SoftBank первым развернёт это в Японии.

Через два месяца, в апреле, SambaNova и Intel объявили конкретный blueprint: как эти чипы встраиваются в реальную инфраструктуру. Результат — не просто ещё один раунд на AI-рынке. Это ответ на фундаментальную проблему, которую инженеры называют «кризис инференса».

Ключевые выводы

🎯
Prefill — вычисления. Decode — память. GPU-монополия — компромисс, а не решение.

Архитектура disaggregated-инференса (GPU + RDU + CPU) снижает TCO на 60–70 % для agentic-работонагрузок.

Рынок $50 млрд+: Enterprises, cloud-провайдеры и sovereign AI — первые adopters.

Почему инференс — это кризис

Год назад казалось, что проблема AI-инфраструктуры решена: покупай GPU — получай результат. Morgan Stanley в April 2026 подтверждает: 83 % Global 2000 внедрили AI-агенты. Но Gartner фиксирует и другое. Только 34 % завершили развёртывание. 80 % компаний не видят измеримой отдачи на уровне предприятия.

Корни проблемы — в том, как устроен LLM-инференс. Он состоит из двух фаз, которые предъявляют противоположные требования к железу.

Prefill — кодирование промпта, построение key-value cache. Вычислительно интенсивный. Хорошо параллелизуется. Здесь GPU показывает себя максимально эффективно: тысячи ядер, высокопроизводительные тензорные операции, batched matmul.

Decode — генерация токенов по одному. Авторегрессивный цикл: каждый следующий токен требует прочитать полный набор весов модели из HBM. 70B параметров в FP16 — это 140 ГБ памяти. Read за один токен — 140 ГБ. При скорости HBM 3,35 ТБ/с это 0,042 мс на чтение. Но сама операция умножения для одного токена — 0,00045 мс. Данные идут в 70 раз медленнее, чем считает чип.

Decode — memory-bandwidth bound, не compute-bound. GPU оптимизирован для первую фазу. На второй он простаивает в ожидании данных. Типичная утилизация GPU при decode — 10–40 %, даже при высокой загрузке памяти. Деньги на оборудование — улетают. SLA по latency — не выдерживаются.

📊
Intelligence is getting cheaper. Deploying intelligence is getting more expensive.
— David Patterson, Turing Award, Google DeepMind, January 2026

Цена одного выходного токена упала в 280 раз за два года. Средний enterprise AI-бюджет вырос с $1,2 млн до $7 млн. Разрыв — в инфраструктуре деплоя, не в модели.

Архитектурный выход: disaggregation

Решение существует. Его называют disaggregated inference — разделение фаз на отдельные аппаратные пулы. Prefill пошёл на compute-optimized GPU. Decode — на memory-bandwidth-optimized ускоритель. Оркестрация — на CPU-слой, который раньше считался пассивным.

NVIDIA Blog (March 2026) описывает это так: «Prefill workers process the input prompt — compute-heavy. Decode workers generate output tokens one at a time — memory-bandwidth-bound. Separating stages lets each saturate its target resource rather than alternating between both.»

Проблема в том, что NVIDIA предлагает это как upgrade within its ecosystem. SambaNova и Intel — как альтернативу. Принципиальная разница: у кого какой слой.

Три слоя одного решения

Prefill: GPU. На этом этапе нет равных. Длинные промпты, матричные операции, batched inference — идеальный use case для A100/H100/B200. SambaNova не пытается заменить GPU в prefilling. Она ставит их в начало pipeline: «The GPUs handle the highly parallel prefill phase, turning long prompts into key-value caches efficiently.»

Decode: RDU (Reconfigurable Dataflow Unit). SN50 — не GPU-клон и не FPGA. Это dataflow-архитектура, заточенная под memory-bound workload: три уровня памяти (on-chip SRAM, on-package HBM, off-package DRAM) с явным контролем data movement. Принцип: «execute the model, not the tensor ops.»

Результат, который SambaNova заявляет для SN50 в decode: в 5 раз быстрее Nvidia B200 при трехкратной экономии TCO. Для agentic workloads — с их длинными reasoning loops, повторными tool calls, итеративными вызовами API — это не маркетинговая цифра. Это конкретный architectural fit.

Оркестрация: Intel Xeon 6. Здесь самая интересная переоценка роли. «The growth in simultaneous coding agents means CPUs now sit at the centre of task execution, retrieval requests, code builds, and encrypted inter-agent messaging.» — SambaNova утверждает, что Xeon 6 delivers 50 % faster LLVM compilation. CPU становится active execution layer, не просто host-контроллером.

Почему agentic AI меняет правила

До 2025 года большинство enterprise AI deployment — copilot-style: человек задаёт вопрос, модель отвечает. Один prompt, один ответ, один decode. GPU utilization — низкий, но предсказуемый.

Agentic AI — другое. Coding agent получает задачу, планирует подзадачи, вызывает код, получает результат, перестраивает план. Каждый шаг — это итерация в reasoning loop. Каждая итерация — новый decode. Каждый tool call — prefill-фаза со свежим контекстом.

В итоге: один запрос к coding agent генерирует 50–200x больше decode-токенов, чем простой Q&A. Prefill/decode ratio меняется: decode становится доминирующей фазой по compute времени — в 5–10 раз более demanding, чем для традиционных deployment.

StorageNewsletter (April 2026) фиксирует это точно: «Coding agents place more strain on existing systems.» Потому что strain — это decode, а decode — это memory bandwidth. А GPU — это compute, не memory bandwidth.

Экономика: где считает SoftBank

SoftBank Corp. — первый заказчик SN50. Развернёт чипы в Японии, в собственных дата-центрах, для sovereign и enterprise клиентов в Азиатско-Тихоокеанском регионе.

Цитата Hironobu Tamba, VP Data Platform Strategy, SoftBank: «With SN50, we are building an AI inference fabric for Japan that can serve our customers and partners with the speed, resiliency and sovereignty they expect from SoftBank. By standardizing on SN50, we gain the ability to deliver world‑class AI services on our own terms — with the performance of the best GPU clusters, but with far better economics and control.»

Суверенность — ключевое слово. SoftBank получает not just infrastructure, a full stack: SambaCloud platform + SN50 hardware + собственные дата-центры. Это позиционирование против AWS/GCP/Azure — не по цене GPU-time, а по контролю над данными и latency для regional customers.

Чипмейкер и канал дистрибуции

Венчурное подразделение участвовало в раунде ($350M, Series E), что само по себе сигнал. Но главное — multi-year agreement на уровне продукта. Xeon 6 становится standard host CPU для SambaNova RDUs. Enterprise и government customers, обслуживаемые через Intel Sales Channel, получают heterogeneous compute без пересборки всей инфраструктуры.

Это не typical partnership. Intel Lip-Bu Tan одновременно CEO Intel и executive chairman SambaNova. Сделка по поглощению SambaNova за $1,6 млрд обсуждалась и не состоялась. Вместо этого — integration path через product, not acquisition.

Контекст: кто ещё решает ту же задачу

Disaggregated inference — не новая идея. UC Berkeley (vLLM team) написала про PagedAttention в 2023. Microsoft Research — про continuous batching в 2022. NVIDIA Blog (March 2026) описывает production-ready Kubernetes deployment с разделением prefill/decode.

Отличие SambaNova — hardware layer: RDU vs GPU для decode. Это не software optimization, a silicon-level bet на то, что memory-bound workloads будущей agentic-эры лучше обслуживаются специализированным чипом.

Etched (Январь 2026) привлёк $500M на другом ASIC angle — transformers-specific chip. Cerebras работает над memory-centric architecture. Каждый делает ставку на одно и то же: GPU — недостаточно good для decode-фазы agentic workloads.

Semianalysis уже в April 2026 фиксирует: inference costs dominate, scale linearly with usage. Training — one-time expense. Serving — ongoing, growing cost. Companies that extract most value per GPU-hour win.

Что не работает: GPU-only

Рынок постепенно понимает: GPU-only — это временное решение. Homogeneous clusters оптимальны для batched training workload. При production inference с agentic workloads они работают на 15–30 % утилизации.

Оптимизации software layer — continuous batching, paged KV-cache, prefix caching — дают 2–5x улучшение. Но architectural mismatch никуда не уходит. Дельта между 2–5x и архитектурным fit — в пользу последнего для memory-bound workloads.

Что работает: heterogeneous, purpose-built

SambaNova + Intel blueprint: each phase → optimal hardware. GPU — prefill (compute). RDU — decode (memory bandwidth). Xeon 6 — orchestration (latency-sensitive small tasks). Production-ready к H2 2026.

«The blueprint demonstrates a practical pathway toward next-generation AI infrastructure. By combining GPUs for prefill, RDUs for decode, and Xeon 6 CPUs for agentic tools, the architecture reflects a shift from homogeneous accelerator clusters to specialized compute fabrics.» — SemiWiki (April 2026)

Критический вопрос: заменит ли это GPU-кластеры?

Нет. И не пытается. Для training, для очень крупных batched inference workloads, для mixed workloads — GPU-кластеры останутся. NVIDIA NVLink, InfiniBand interconnect и CUDA ecosystem — это real, существенный switching cost.

Рынок disaggregated inference — это новый слой, не замена. Enterprises с высокой долей agentic workloads (coding, retrieval-augmented generation, multi-step planning) — первые adopters. Это уже не startup-ниша: SoftBank, enterprise IT, sovereign AI programs.

Размер рынка: $50 млрд+ по оценкам аналитиков на 2026. Это не гипотеза, a back-calculation из enterprise AI spend patterns и стоимости infrastructure rebuild на heterogeneous compute.

Что остаётся неопределённым

Три вопроса без ответа.

Первый: масштабирование. 256 RDU на один воркер — впечатляющая цифра. Но production deployment на реальных enterprise workloads — не в бенчмарке. SoftBank и Intel — первые, кто построит это в масштабе.

Второй: KV cache routing. При disaggregated prefill/decode ключевой вопрос — latency transfer KV cache между stages. Stage-level partition требует GB-scale transfers ( hundreds of megabytes per request), что требует NVLink или InfiniBand. Novel modality-level partition (arXiv, April 2026) reduces this to MB-scale over commodity PCIe. Intel+SambaNova blueprint использует PCIe — это ключевое инженерное решение.

Третий: vendor lock-in. Архитектура требует трех vendor stack. SambaNova RDU + Intel Xeon 6 + existing GPU fleet. Каждый update чипа — координация. Enterprises привыкли к single-vendor simplicity.

Что изменится для AI-индустрии

Disaggregated inference — это не про SambaNova. Это про то, что AI infrastructure вступает в эру специализации, как Datacenter индустрия в 2000-х. Compute, storage, networking разделились на отдельные слои с отдельными vendors и отдельными optimization cycles.

AI infrastructure — следующая. Разделение prefill/decode — первый layer split. Agentic workloads его ускоряют: coding agents — наиболее чувствительны к decode latency, наиболее требовательны по memory bandwidth, наиболее сложны для batched scheduling.

For enterprises: экономика AI-деплоя изменится. TCO снижается на 60–70 % для agentic workloads. ROI from AI — видимый, не в бенчмарке. Это может сдвинуть 80 % компаний, которые видят costs but no returns.

For investors: $350M in SambaNova — not about one company. Это про то, что рынок infrastructure specialization for AI production готов к growth. SoftBank as anchor customer = proof of demand. Intel channel = go-to-market. SN50 = hardware capability. Blueprint = architectural validation.

For developers: архитектурный shift имеет practical implication. Agentic workflows больше не limited by GPU memory. Longer reasoning loops, deeper context, more iterations — all suddenly feasible. Это unlock для use cases, которые раньше не проходили PoC.

Двадцать лет назад дата-центр состоял из универсальных серверов. Потом storage отделилось, networking отделилось, специализированные acceleration layers появились. AI infrastructure проходит тот же путь. Disaggregated inference — first major architectural split.

Прогноз Eclibra

🔮
К 2028 году heterogeneous inference (GPU prefill + RDU decode) станет standard deployment architecture для enterprises с >1000 active AI-агентов. Горизонт: 24–36 месяцев после H2 2026 GA.

Вероятность: 65 % — аргумент за: сильный architectural fit + SoftBank anchor + Intel channel; аргумент против: GPU ecosystem lock-in, NVLink interconnect, enterprise conservatism к multi-vendor stacks.

✅ Аргументы за

Agentic AI workloads растут экспоненциально → memory-bound decode доминирует → GPU-only cost structure становится неприемлемым для production-scale deployment. SoftBank anchor = production demand signal, not just POC. Intel channel = 10 000+ enterprise accounts with existing Xeon infrastructure, low migration cost. SN50 performance claims backed by specific architectural innovations (three-tier memory, dataflow execution) — не generic benchmark optimization. Критерии подтверждения: Через 18 месяцев — >3 hyperscalers анонсируют disaggregated prefill/decode production deployment; SoftBank публикует measured TCO improvement >50 %.

❌ Аргументы против

NVIDIA доминирует не hardware, a software stack (CUDA, cuDNN, TensorRT, vLLM integration). Heterogeneous deployment = breaking CUDA abstraction layer. KV cache transfer bottleneck at disaggregation boundary — unresolved for PCIe at production scale (arXiv, April 2026). GB-scale transfers still require NVLink/InfiniBand. Enterprise procurement cycles — 18–36 months. GPU clusters already purchased, amortized over 3–5 years. Economic incentive to migrate = 0 until end of existing hardware lifecycle. Критерии опровержения: Если через 24 месяца нет production deployments за пределами SoftBank APAC — прогноз не состоялся.

Ключевые сигналы для отслеживания

📊
Ключевые сигналы для отслеживания

H2 2026 GA: First enterprise deployments Intel+SambaNova blueprint beyond SoftBank
GPU utilization metrics published by any major cloud provider showing decode-phase inefficiency at scale
NVIDIA response: new product или pricing change for disaggregated serving use cases
Enterprise IT procurement: новые RFPs с explicit disaggregated architecture requirements

Сценарии развития

🟢 Оптимистичный сценарий (25 %)

SoftBank production results публикуются через 6–9 months → >50 % TCO reduction подтверждён → другие hyperscalers анонсируют аналогичные blueprints → RDU market растёт до $5–10 млрд к 2028. Последствия: SambaNova IPO 2027. Intel получает meaningful revenue contribution от AI infrastructure. Развитие нового hardware layer — RDU vs GPU — как отдельная категория в AI stack.

🟡 Базовый сценарий (50 %)

SoftBank deployment работает. Enterprise interest растёт через Intel channel. GPU utilization problems при agentic scale acknowledged industry-wide. NVIDIA анонсирует disaggregated serving support в собственном software stack (без нового hardware). RDU market niche — $1–3 млрд, specialized segment, not mainstream. Последствия: Архитектурный принцип disaggregation accepted. Implementation — через NVIDIA ecosystem, not new hardware vendors. SambaNova остаётся viable niche player, not category winner.

🔴 Пессимистичный сценарий (25 %)

KV cache transfer bottleneck не решается в production scale → enterprises откладывают adoption. SoftBank deployment — APAC only, limited scale. Intel+SambaNova partnership ослабевает (Lip-Bu Tan leaves Intel board). GPU-only optimization via software improvements (vLLM, continuous batching) delivers enough improvement to defer hardware migration. Последствия: RDU market не развивается. Disaggregated inference — known best practice, not broadly deployed. SambaNova остаётся SoftBank supplier, limited beyond.

Insight

Инференс-кризис — это не про то, что модели плохие. Это про то, что production deployment требует другой архитектуры, чем training deployment. Agentic AI ускоряет этот переход: чем больше reasoning loops, тем сильнее разница между compute-bound prefill и memory-bound decode.

SambaNova SN50 и Intel Xeon 6 — attempt решить это на hardware level, not software. Архитектурная ставка: RDU для decode, not GPU. Multi-year agreement — not acquisition — как способ получить market access without integration risk.

For enterprise architects: disaggregated inference — это не future. Это production decision, которое нужно сделать now, если у вас >500 active coding agents, и вы watching GPU utilization at 15–30 % while inference costs grow linearly.

For infrastructure investors: heterogeneous compute — следующий infrastructure layer. Не на замену GPU, a на дополнение. Market size — $50 млрд+ в ближайшие 5 лет. First-movers: SoftBank, Intel, SambaNova.

For developers building agentic workflows: disaggregated inference unlocks longer reasoning, deeper context, more iterations. Это — future use cases, которые сейчас не проходят PoC из-за decode latency.

Источники

SambaNova raises $350M with Intel backing
SN50 chip: 5x faster than B200, 3x lower TCO. Intel Capital, Vista Equity, Cambium Capital. SoftBank first customer. February 2026.

Primary source on funding terms, chip specifications, and partnership structure. Authoritative tech press with direct access to company statements.

SambaNova raises $350M, signs Intel partnership
Series E terms, multi-year Intel collaboration, SN50 shipment timeline, SoftBank as first customer for AI datacentres in Japan.

Business wire on funding round structure and partnership scope. Confirms The Register figures and adds Intel Capital participation details.

Disaggregating LLM Inference: Inside the SambaNova-Intel Heterogeneous Compute Blueprint
Technical deep-dive on prefill/decode split, why RDUs outperform GPU in decode, memory-bandwidth math, and architectural implications for agentic AI workloads.

Essential technical context: why decode is memory-bound, why GPU architecture is suboptimal for it, and how RDU three-tier memory solves the memory wall. Best technical analysis of the disaggregation thesis.

SambaNova and Intel Announce Blueprint for Heterogeneous Inference
Three-layer architecture: GPUs for prefill, RDUs for decode, Xeon 6 CPUs for orchestration. Available H2 2026 to enterprises, cloud providers, sovereign AI programs.

April 2026 update confirming blueprint production timeline, specific use cases (coding agents), and full three-layer architecture breakdown.

Deploying Disaggregated LLM Inference Workloads on Kubernetes

Industry validation of disaggregation thesis from NVIDIA's own developer blog — confirming that the architectural principle is accepted, hardware-specific implementation varies. Confirms prefill/decode resource mismatch.

AI Infrastructure Compute Strategy — Deloitte Tech Trends 2026
Token price fell 280x in two years. Enterprise AI budgets grew from $1.2M to $7M. Reason: usage (inference) scales linearly while model cost drops. Deloitte calls this the "AI infrastructure reckoning."

Framework for understanding the economics: inference cost vs training cost, GPU utilization gap, and why the reckoning is structural not cyclical.