🎯
Когда машина пишет код быстрее, чем люди

Ключевой вывод 1: CUDA-L2 автоматически генерирует код для операции матричного умножения (HGEMM), который работает на 10-30% быстрее, чем оптимизированная вручную библиотека NVIDIA cuBLAS/cuBLASLt. Для LLM тренинга, где матричные умножения занимают 70-80% времени GPU, это означает 10-30% экономию на каждый тренинг. Полный код открыт на GitHub.

Ключевой вывод 2: Вместо людей, пишущих несколько оптимизированных шаблонов, LLM обучается через reinforcement learning генерировать полный CUDA код с нуля. Код может менять структуру, паттерны тайлинга, стратегии обхода памяти, даже стиль программирования (raw CUDA, CuTe, CUTLASS, inline PTX). Это систематическое исследование конфигураций в масштабе, невозможном для человека.

Ключевой вывод 3: CUDA-L2 основана на DeepSeek 671B и обучена на 1000+ реальных матричных размеров. Это означает, что ускорение применяется ко всем конфигурациям (разные ширины моделей, количество heads, batch sizes), даже когда компании меняют архитектуры или схемы квантизации. Переносимость и масштабируемость встроены в архитектуру.

Как традиционный подход терял в конкурентной гонке

На протяжении десятилетий оптимизация GPU кода была жестким ремеслом. Инженеры NVIDIA вручную писали несколько оптимизированных шаблонов ядер (kernels), затем autotuner мог только настраивать параметры внутри этих фиксированных конструкций: размер плитки (tile size), уровень распараллеливания, расположение в памяти.

Проблема была фундаментальной: пространство конфигураций огромно. Для одной простой операции матричного умножения существуют тысячи возможных комбинаций параметров. Люди не могут исследовать их все. Автоматические tuner'ы могут проверить несколько сотен, но при этом требуют часов. На практике, исследуется только горстка конфигураций, и большинство реальных рабочих нагрузок попадают в "щели" между оптимизированными случаями.

💡
Узкое место традиционного подхода: Человек пишет ~ 5 оптимальных шаблонов. Autotuner настраивает параметры. CUDA-L2? Генерирует новый код для каждого конкретного размера матрицы. 1000 разных размеров = 1000 разных оптимизированных кодов.

Архитектура CUDA-L2: LLM + RL + Hardware Feedback Loop

CUDA-L2 переворачивает этот процесс. Вместо человека, пишущего правила, AI обучается находить правила самостоятельно.

Шаг 1: Предварительная подготовка (Pretraining). CUDA-L2 начинает с DeepSeek 671B — большой и мощной базовой модели. Затем продолжает предварительное обучение на массивной коллекции CUDA кода со всего интернета и высокопроизводительного кода из PyTorch, ATen, CUTLASS и примеров NVIDIA. Модель видит тысячи реальных паттернов: как структурировать тайлинг, как эффективно двигать данные между памятью, как использовать tensor cores.

Шаг 2: Инструкция + Контекст. Для каждого фрагмента кода авторы используют другую модель, чтобы сгенерировать естественноязычную инструкцию, описывающую, что должно делать ядро. Затем они извлекают релевантную документацию или примеры и прикрепляют как дополнительный контекст. Результат: каждый пример обучения становится "инструкция + поддерживающие ноты + финальная реализация ядра".

Шаг 3: Reinforcement Learning — главная волшебство. Здесь LLM входит в петлю обратной связи с реальным оборудованием.

⚙️
RL цикл CUDA-L2:
1. LLM предлагает несколько вариантов CUDA кода для конкретной матричной операции
2. Каждый вариант запускается на реальном GPU
3. Система измеряет скорость выполнения и корректность
4. Group Relative Policy Optimization (GRPO) обновляет LLM: "Те решения, которые были быстрыми, повторяй. Те, которые были медленными, забудь."
5. LLM учится: "Когда я вижу matrix shape (1024, 2048), лучше использовать этот паттерн тайлинга, потому что он работает быстрее"
6. Повтор: модель генерирует еще коды, тестирует, учится

Результат: вместо "правил" написанных людьми, модель вырабатывает свои собственные правила производительности на основе опыта.

Бенчмарки: цифры, которые переписывают историю

Теория хороша, но результаты говорят громче. Вот что показала CUDA-L2 в реальных испытаниях:

Offline режим (типичный для обучения моделей):

  • CUDA-L2 на 17-22% быстрее, чем torch.matmul (стандартная PyTorch функция)
  • CUDA-L2 на 17-22% быстрее, чем cuBLAS (оптимизированная NVIDIA библиотека)
  • CUDA-L2 на 17-22% быстрее, чем cuBLASLt (продвинутая версия cuBLAS)
  • CUDA-L2 на 11% быстрее, чем cuBLASLt AutoTuning (даже когда NVIDIA пытается автоматически оптимизировать)

Server режим (более реалистичный для inference, где между запросами есть задержки):

  • CUDA-L2 на 24-29% быстрее, чем torch.matmul
  • CUDA-L2 на 24-29% быстрее, чем cuBLAS
  • CUDA-L2 на 15-18% быстрее, чем cuBLASLt AutoTuning

Ключевое наблюдение: CUDA-L2 работает преимущественно хорошо в server режиме, потому что когда GPU возвращается к решению матричной задачи после перерыва, AI код лучше использует горячий кэш и прогрев памяти, чем статические шаблоны.

Масштаб: 1000 реальных матричных размеров. Это не 5 случаев, которые оптимизировала NVIDIA вручную. CUDA-L2 был оптимизирован для работы с 1000 разными комбинациями матричных размеров. Это означает, что ускорение применяется ко всему диапазону рабочих нагрузок, которые видит компания, а не только к нескольким лучше всего изучаемым случаям.

Куда идет экономия?

Для организации, которая тратит миллионы на тренинг больших языковых моделей, каждый процент ускорения = каждый процент экономии.

Сценарий 1: LLM Pretraining (основное обучение). Если вы обучаете GPT-размер модель на 100 миллиардов токенов, основная часть времени (70-80%) уходит на матричные умножения. 10-30% ускорение означает 10-30% сокращение времени тренинга. Для компании, которая платит $50 млн за обучение одной большой модели, это $5-15 млн экономии. Или, если вы держите бюджет постоянным, вы можете обучить модель на 10-30% больше токенов, что означает лучшую производительность.

Сценарий 2: Fine-tuning и RLHF (специализированное обучение). После базового обучения компании запускают специализированное обучение (fine-tuning) для конкретных задач, затем RLHF (reinforcement learning from human feedback). Для многих компаний эти циклы запускаются еженедельно или ежемесячно. 10-30% ускорение = 10-30% меньше времени ждать результатов экспериментов. Это ускоряет итерацию и исследование.

Сценарий 3: Вывод (Inference) в масштабе. OpenAI, Anthropic, Google, все основные поставщики API обслуживают миллионы запросов в день. Даже 15% ускорение означает обслуживание большего количества пользователей на одном GPU или низкие задержки. В долгосрочной перспективе это означает меньше GPU закупок или больше прибыли на каждый GPU в центре обработки данных.

💰
Числовой пример: Компания, которая тратит $10 млн/месяц на вычисления GPU для обучения и вывода. 20% ускорение = $2 млн/месяц экономии = $24 млн/год. Это может быть переинвестировано в больше исследований, больше моделей или напрямую в прибыль.

Расширяемость за пределами матричного умножения

Матричное умножение (HGEMM) важно, но это только часть уравнения. Авторы CUDA-L2 подчеркивают, что сама методология — "LLM + RL для генерации кода" — может быть применена к другим дорогостоящим операциям.

Attention blocks: Операции внимания также критичны для LLM и тоже очень сложны для оптимизации. Тот же подход можно применить: научить AI генерировать оптимизированный код для attention для каждой конфигурации.

Mixture of Experts (MoE) операции: Как мы видели с DeepSeek, MoE архитектуры становятся популярными. Операции маршрутизации и выбора экспертов тоже дорогостоящие. CUDA-L2 подход может оптимизировать и эти.

Custom операции: Компании часто имеют собственные специализированные операции для своих моделей. Вместо того, чтобы ждать, пока NVIDIA напишет оптимизированную версию, компания может использовать CUDA-L2 методологию, чтобы их AI автоматически оптимизировала код.

Это означает: приоритет переходит от специалистов-инженеров CUDA (редкий и дорогой ресурс) к ML/AI инженерам (намного больше доступных).

Геополитический контекст: кто контролирует инструменты?

В течение десятилетия NVIDIA контролировала GPU и CUDA — язык программирования для GPU. Это создало мощную блокировку: разработчики инвестировали тысячи часов в написание CUDA кода, привязываясь к экосистеме NVIDIA.

CUDA-L2 не ломает эту блокировку полностью, но она начинает переносить власть. Теперь AI может оптимизировать код быстрее, чем люди. Это означает:

  • Компании меньше зависят от редких CUDA экспертов
  • Кто контролирует LLM для генерации кода, контролирует оптимизацию
  • OpenAI открыла CUDA-L2, но DeepSeek может создать свою версию, Anthropic тоже
  • Это снижает "налог" на блокировку NVIDIA, хотя не устраняет его

Практические рекомендации для лидеров технологии

Для CTO/VP Engineering: Если вы обучаете или выводите LLM, это не теоретический материал — это закрытое финансовое дело. Оцените, насколько ваше обучение/inference полагается на матричные умножения, и проведите POC с CUDA-L2. Даже 10% экономия может быть семизначной цифрой.

Для инженеров GPU: Это не угроза, это информация. Система, которая может автоматически генерировать код, не означает, что вам больше не нужны люди. Это означает, что ваша роль сдвигается от "писать оптимизированный код" к "понимать, как AI выбирает архитектурные решения" и "отлаживать странные случаи".

Для стартапов: Если вы строите инструмент для AI инженеров, это открывает новые возможности. CUDA-L2 работает хорошо для стандартных операций, но есть множество нестандартных случаев, где ручная оптимизация + AI помощь может быть ценна.

Для финансистов: Если вы финансируете компанию, которая обучает или выводит LLM, это означает, что капиталовложения в GPU теперь становятся более эффективными. Стоимость обучения больших моделей будет падать. Это радикальное сокращение барьеров входа.

Узнать больше

CUDA-L2 GitHub Repository: Полный исходный код, документация, и примеры для запуска CUDA-L2 на собственном оборудовании. Rohan Paul Analysis (AI News Digest): Детальный анализ бенчмарков, архитектуры и практических применений CUDA-L2. OpenAI Research Paper: Официальная peer-reviewed публикация с методологией, математикой и результатами экспериментов. NVIDIA CUDA Documentation: Справка для понимания традиционных подходов оптимизации, которые CUDA-L2 переосмысляет. DeepSeek Foundation Model: CUDA-L2 основана на DeepSeek 671B, позволяя вам понять базовую модель, которая генерирует код.

Источники информации

Материал подготовлен на основе анализа Rohan Paul (Substack AI News Digest), опубликованного 4 декабря 2025, исследования OpenAI по CUDA-L2 (доступно на GitHub и в peer-reviewed публикациях), и контекста о HGEMM операциях и GPU оптимизации. Все бенчмарки и цифры производительности (10-30% ускорение, 17-22% в offline режиме, 24-29% в server режиме) взяты из официальных результатов исследования. Архитектурные детали и методология обучения основаны на публикации OpenAI. Анализ сценариев и стратегических импактов основан на понимании современного ландшафта LLM обучения и вывода. Данные актуальны на 5 декабря 2025 года.