🎯
Эпоха гетерогенных вычислений: как специализированные чипы переопределяют архитектуру центров обработки данных

Ключевые выводы:
• От 4-8 GPU на 1 CPU к оптимальному соотношению 2 GPU на 1 CPU благодаря специализированным процессорам
• Интеграция GPU, CPU, NPU, TPU в единые системы трансформирует ЦОД из универсальных в AI-ориентированные
• Гибридные архитектуры (облако + on-premises + edge) становятся стандартом, а не исключением

От монолитного к многоуровневому: новая парадигма инфраструктуры AI

Эпоха, когда все вычисления сосредоточивались в облаке, подходит к концу. На смену облачному оптимизму приходит практический расчёт: когда облачные счета начинают превышать 60–70% стоимости эквивалентного оборудования на месте, организации пересматривают свои стратегии. Но переход от облака к локальной инфраструктуре — это лишь часть головоломки. Реальная трансформация происходит внутри самых ЦОД, где традиционная архитектура с доминирующей ролью процессоров общего назначения уступает место гетерогенным системам со специализированными вычислителями.

Это не просто техническое усовершенствование — это фундаментальный сдвиг в парадигме. Когда большие языковые модели требуют непрерывного инференса (непрерывного использования моделей в реальных процессах), окружение с традиционной архитектурой становится экономически нежизнеспособным. Некоторые предприятия уже видят счета в десятки миллионов долларов в месяц только за облачные AI-услуги.

💡
Математика AI потребления коренным образом изменила расчёты IT-лидеров. Если два года назад инференс стал в 280 раз дешевле, это позволило использованию выспрос выросший в тысячи раз. Итог: общие AI-расходы растут экспоненциально, несмотря на падение стоимости единицы операции.

Архитектурные решения: облако, локальность и грань одновременно

Ведущие организации отказались от двоичного выбора «облако или локально» в пользу трёхуровневых гибридных архитектур. Каждый слой выполняет определённую функцию:

Облако для упругости и экспериментов. Публичные облачные сервисы обрабатывают переменные обучающие нагрузки, импульсные нужды в мощности и этапы экспериментов. Гиперскейлеры предоставляют доступ к передовым AI-сервисам, упрощая управление быстро эволюционирующими архитектурами моделей.

On-premises для предсказуемости. Локальная инфраструктура запускает производственный инференс с предсказуемыми затратами для высокообъёмных непрерывных нагрузок. Организации получают контроль над производительностью, безопасностью и управлением расходами, одновременно развивая внутреннюю экспертизу в управлении AI-инфраструктурой.

Edge для немедленности. Локальная обработка на грани сети решает критичные по времени задачи с минимальной задержкой — особенно важно для производства и автономных систем, где миллисекундные задержки определяют успех операций.

Как отметил Dave Linthicum, глобальный эксперт в области AI и облачных вычислений: «Облако имеет смысл для определённых вещей. Это как кнопка "просто сделай это" для AI. Но речь идёт о выборе правильного инструмента для работы. Компании строят системы на разнородных платформах, выбирая то, что обеспечивает лучшую оптимизацию затрат. Иногда это облако, иногда on-premises, иногда edge».

Специализированные чипы: переход от универсального к оптимизированному

Революция на уровне железа происходит на глазах. Вместо доминирования универсальных процессоров общего назначения, данные центры теперь интегрируют четыре категории специализированных вычислителей:

GPU (Графические процессоры)

Параллельная архитектура с тысячами ядер идеальна для матричных операций, лежащих в основе глубокого обучения. NVIDIA Blackwell и его конкуренты обрабатывают большие объёмы данных одновременно, обеспечивая масштабирование обучения моделей.

CPU (Центральные процессоры)

Несмотря на шумиху вокруг GPU, CPU остаются критичны для оркестрации рабочих нагрузок, выполнения условной логики и управления. Большинство реальных AI-приложений в предприятиях по-прежнему работают на CPU и отлично функционируют без специализированных процессоров.

NPU (Нейронные процессоры)

Специализированные для эффективного инференса на грани (на устройствах). NPU потребляют на порядки меньше энергии, чем GPU для задач распознавания образов, обработки естественного языка на мобильных и IoT-устройствах.

TPU (Тензорные процессоры)

Разработаны Google для оптимизации конкретных ML-задач. TPU предоставляют исключительную производительность на задачах, для которых они настроены, но требуют специализированного программного обеспечения и глубокого понимания архитектуры.

Эта архитектурная эволюция отражается в конфигурациях серверов. Всего несколько лет назад стойка с четырьмя-восьмью GPU, координируемыми одним CPU, была стандартом. Сегодня оптимальное соотношение сместилось к двум GPU на один CPU — не потому, что CPU стали мощнее, а потому что гетерогенные рабочие нагрузки требуют меньше параллельной обработки для координации и управления данными.

AI-фабрики: от переоборудованного к специально построенному

⚙️
Ключевое различие: попытка втиснуть AI в существующую корпоративную инфраструктуру (brownfield) — дорого и неэффективно. Построение оптимизированной инфраструктуры с нуля (greenfield) — быстрее и дешевле в долгосрочной перспективе.

Эти тренды сложились в концепцию, которую можно называть AI-фабриками — интегрированными экосистемами инфраструктуры, специально разработанными для обработки искусственного интеллекта. Эти среды объединяют несколько специализированных компонентов в единое решение:

  • Ускоренные серверы вычислений с высокой плотностью GPU/TPU/NPU
  • Слой знаний (vector databases, graph databases, knowledge graphs) вместо простого хранилища данных
  • Оптические сетевые соединения между процессорами для минимальных задержек и максимальной пропускной способности
  • Продвинутые системы охлаждения (прямое жидкостное охлаждение вместо воздушного)
  • Оркестрационные слои, специально разработанные для AI-рабочих нагрузок, а не традиционной виртуализации
  • Наблюдаемость и управление для отслеживания использования ресурсов в режиме реального времени

John Roese, главный технолог и CTO по AI в Dell Technologies, отметил: «Архитектурная дисциплина теперь критична. Когда речь идёт о reasoning-моделях и агентах, а также связанных с ними затратах, иметь архитектурный контроль — это не опция, это необходимость».

Интересно, что построение новой инфраструктуры AI-фабрики часто быстрее и дешевле, чем попытка переоборудовать существующую архитектуру. Dell Technologies и другие провайдеры уже предлагают готовые приборы — предварительно собранные комбинации хранилища, вычислений и сетей, которые запускают весь агентский AI-стек из коробки. Это позволяет организациям запустить полнофункциональную AI-инфраструктуру в масштабе месяцев, а не лет.

Энергия, масштабирование и вызовы устойчивости

Переход к гетерогенным архитектурам неразрывно связан с проблемой энергопотребления. Как отметил Dave Linthicum при обсуждении источников питания для ЦОД: «На конец дня мы не остановим рост ЦОД. Аппетит огромен. Если мы движемся в этом направлении, давайте минимизируем ущерб, используя чистые источники энергии. Ядерная энергия — один из них».

Действительно, прямое жидкостное охлаждение может быть в два раза более энергоэффективным, чем холодное воздушное охлаждение. Одна стойка с прямым жидкостным охлаждением может значительно снизить затраты и физический размер инфраструктуры. Однако эти улучшения — лишь часть головоломки устойчивости.

Организации также исследуют распределённые вычисления на граничных устройствах. AI ПК — это очень энергоэффективная распределённая вычислительная среда. Если перенести часть функциональности на эти высокоэффективные устройства вместо ЦОД, можно значительно снизить общий углеродный след.

Будущее: нейроморфные, оптические и квантовые системы

Текущая трансформация AI-инфраструктуры — лишь начало более широкой вычислительной революции. На протяжении следующих 5–20 лет, по мере созревания новых парадигм вычислений, ЦОД должны будут продолжить эволюцию:

Нейроморфные вычисления для распознавания образов и обработки событий. Эти системы имитируют архитектуру мозга с событийно-управляемой обработкой, обеспечивая экстраординарную энергоэффективность для определённых классов задач.

Оптические вычисления для более энергоэффективной обработки данных. Фотонные системы могут обрабатывать информацию со скоростью света, избегая потерь на электронное переключение.

Квантовые вычисления потенциально преобразуют требования к архитектуре ЦОД. Квантовые системы требуют специализированной инфраструктуры, включая криогенные охлаждающие системы, продвинутые форм-факторы и экстремальный контроль над шумом и температурой — это совершенно иные требования, чем текущие AI-системы.

🚀
Управление гибридной архитектурой потребует новых компетенций. Появятся новые категории специалистов: инженеры по оркестрации AI, архитекторы оптических сетей, специалисты по нейроморфным системам, специалисты по гибридной оптимизации портфеля.

Проблема таланта и переподготовка

Гибридная архитектура порождает проблему дефицита навыков. После лет миграции в облако много организаций потеряли внутреннюю экспертизу в управлении локальными ЦОД. Теперь им нужны специалисты, разбирающиеся в AI-инфраструктуре, управлении GPU-кластерами, высокополосной сетевой архитектуре и специализированных системах охлаждения.

Сетевые архитекторы сталкиваются с необходимостью проектирования для паттернов трафика, ориентированных на AI, и требований высокой пропускной способности, кардинально отличающихся от традиционной корпоративной сети. Требования AI включают GPU-to-GPU коммуникацию, массовую передачу данных и ультранизкую задержку.

Инженеры по затратам должны развивать экспертизу в оптимизации гибридного портфеля вычислений, понимая не только облачную экономику, но и сложные торговли между различными подходами к инфраструктуре. Это включает овладение новыми финансовыми моделями, учитывающими показатели использования GPU, экономику инференса и гибридные структуры затрат.

Тем не менее, этот дефицит открывает возможности для организаций, готовых инвестировать в развитие кадров. Dell, NVIDIA, AMD и другие поставщики активно предлагают программы сертификации и обучения для развития следующего поколения AI-инфраструктурных специалистов.

Стратегические выводы для лидеров технологии и инвесторов

Для CTO и инженерных лидеров: Пора переосмыслить архитектурный совет вашей организации. Новые проекты AI должны оцениваться не только по производительности, но и по стоимости на единицу вычислений, использованию ресурсов и соответствию общей гибридной стратегии. Построение новой оптимизированной инфраструктуры часто быстрее и дешевле, чем переоборудование старых ЦОД.

Для инвесторов: Гетерогенизация инфраструктуры создаёт огромные возможности для специализированных поставщиков чипов (AMD, Intel, ARM-partner) и провайдеров инфраструктуры (Dell, Supermicro, Marvell). Следите за компаниями, которые инвестируют в нейроморфные, оптические и квантовые технологии — они определят следующую волну вычислительной архитектуры.

Для исследователей: Гибридные архитектуры требуют новых парадигм программирования, которые могут абстрагировать сложность управления разнородными вычислителями. Это открывает исследовательские направления в области языков программирования, компиляторов и систем управления ресурсами для AI-фабрик.

Заключение: от облачно-первого к гибридно-оптимальному

Эпоха облачно-первой стратегии медленно, но верно уходит в прошлое. На её место приходит эпоха гибридно-оптимальной архитектуры, где облако, on-premises и edge работают в гармонии, каждый выполняя то, для чего он лучше всего подходит. Специализированные чипы — GPU, NPU, TPU и будущие нейроморфные, оптические и квантовые процессоры — определяют новую эффективность вычислений. Организации, которые успешно преодолеют эту трансформацию, получат устойчивое конкурентное преимущество. Те, кто откладывает эту адаптацию, столкнутся с растущими затратами, ограничениями производительности и стратегическими уязвимостями в эру, когда AI становится ядром всех операций.

Узнать больше

Deloitte Global Tech Trends 2026: Полный отчёт о трансформации AI-инфраструктуры, интервью с John Roese (Chief Technologist, Dell Technologies) и Dave Linthicum (AI Thought Leader), стратегические рекомендации для архитекторов и CFO.

Dell Technologies Architecture Review Board: Методология оценки AI-проектов и выбора оптимальной инфраструктуры на основе стоимости, производительности, управления и рисков.

NVIDIA Hopper & Blackwell Architectures: Технические документы о специализированных GPU-архитектурах и их применении для обучения и инференса.

Источники информации

Материал подготовлен на основе официальных публикаций Deloitte Insights (декабрь 2025), интервью с лидерами мнений в области AI-инфраструктуры (Dave Linthicum, John Roese), технических документов NVIDIA, Dell Technologies и исследований в области квантовых и оптических вычислений. Данные актуальны на декабрь 2025 г.