Каждый LLM, который вы использовали — ChatGPT, Gemini — платит один и тот же математический налог. Двойная длина контекста означает не двойную, а учетверённую стоимость вычислений. Это ограничение встроено в саму архитектуру Transformer, и с 2017 года все работают внутри него — с RAG, чанкингом и агентными обходными путями вместо исправления коренной проблемы.
15 мая стартап Subquadratic из Майами показал, что проблема может быть не фундаментальной, а инженерной.
SubQ 1M-Preview — первая коммерческая LLM на полностью субквадратичной архитектуре SSA (Subquadratic Sparse Attention).
Если заявленные характеристики подтвердятся независимо, модель меняет экономику длинного контекста — и ставиит под вопрос необходимость RAG и агентной оркестрации для большинства сценариев.
Трансформерный налог: почему контекст стоит так дорого
В стандартном Transformer каждый токен сравнивается с каждым. При длине контекста N это N² операций. На 128K токенов — 16 млрд сравнений. На 1 млн — 1 трлн. Дальше экономика ломается: GPU считает, бюджет тает, а модели всё равно теряют информацию в середине последовательности.
Индустрия адаптировалась обходными путями: RAG (поиск + подача фрагментов), чанкинг (нарезка документов), агентные системы (множество вызовов LLM вместо одного). Как мы писали в мае, дефицит вычислительных ресурсов стал системной проблемой — серверные процессоры не успевали за ростом моделей. Стартап предлагает не наращивать ресурсы, а изменить то, как они расходуются.
SSA: как работает субквадратичное внимание
SSA (Subquadratic Sparse Attention) заменяет плотную матрицу внимания на контентно-зависимую селекцию. Вместо того чтобы вычислять релевантность каждого токена каждому, модель динамически выбирает только те пары, которые реально значимы для ответа.
Ключевое отличие от предыдущих попыток (Mamba, RWKV, DeepSeek Sparse Attention) — селекция не фиксированная, а обучаемая. Модель в процессе претрейнга учится определять, какие токен-токен отношения важны, и направляет compute только на них.
Результат: сложность снижается с O(N²) до O(N). При 12 млн токенов это даёт почти 1000-кратное сокращение attention compute по сравнению со стандартным Transformer.
SSA устраняет квадратичный рост именно attention-вычислений. MLP-слои, нормализация, sampling и safety-системы остаются — общий выигрыш в энд-ту-энд latency меньше, чем 1000×, но радикально меняет экономику на контекстах от 100K+ токенов.
Цифры: что показали бенчмарки
Компания опубликовала результаты, верифицированные сторонней компанией по оценке AI-моделей. Ключевые показатели:
Скорость инференса
В тестах стороннего верификатора SSA показала 56-кратное ускорение prefill по сравнению с FlashAttention-2 при 1M токенов. Профиль роста latency — почти идеальный O(n). · Сторонняя верификация, май 2026
Размер контекстного окна
12 млн токенов — это полный код Python 3.13 со стандартными библиотеками. У конкурентов — 1–2 млн (GPT-5.5, Claude Opus). · Subquadratic, май 2026
Извлечение из длинного контекста
MRCR v2 тестирует multi-evidence retrieval — нахождение разрозненных фактов в длинном контексте. SubQ значительно опережает Gemini 3.1 Pro (26,3), но уступает GPT-5.5 (74). · Сторонняя верификация, май 2026
Программирование
Задача: решение реальных GitHub issues. SubQ 1M-Preview показывает 81,8% — лучше DeepSeek V4 Pro (80,0%) и на уровне ведущих frontier-моделей. · SWE-Bench, май 2026
Скепсис исследователей: почему доверия пока нет
Реакция AI-сообщества была мгновенной — и разделённой. VentureBeat назвал SubQ «одним из самых громких запусков года», но тут же отметил: независимого подтверждения ключевых цифр нет.
«Subquadratic claims 1,000× efficiency gain — researchers demand independent proof»— VentureBeat, 5 мая 2026
Три причины скепсиса являются стандартными для отрасли.
Первая. Нет технической статьи. Обычно frontier-запуск сопровождается публикацией с достаточной детализацией для независимого анализа. Модель вышла с маркетинговым постом.
Вторая. Предидент Magic.dev. В августе 2024 года эта компания объявила о LTM-2-mini c аналогичными заявлениями о 1000-кратной эффективности и привлекла ~$500 млн. По состоянию на начало 2026 года публичных свидетельств работы модели нет.
Третья. Субквадратичное внимание — одна из самых исследованных областей ML. Mamba, RWKV, Hyena, RetNet — каждая из них показывала линейное масштабирование на бенчмарках и упиралась в одну стену: на frontier-масштабе чисто субквадратичные архитектуры уступают Transformer в downstream-качестве.
- Контекст: весь исходный код Python 3.13 — 5,1 млн токенов
- 6 месяцев PR в React — 7,5 млн токенов
- Документация FDA на новый препарат — до 10 млн токенов
Что меняется для индустрии
Если технология подтвердится, последствия не сводятся к «ещё одной быстрой модели».
Исчезновение RAG. Статические базы знаний, внутренние кодобазы, архивы документов — всё это можно будет загружать в контекст целиком. RAG останется для real-time данных и персонализации, но его тотальное доминирование как архитектурного паттерна закончится.
Экономика инференса. Стартап заявляет стоимость «менее 5% от Claude Opus 4.7». Если подтвердится, это снижает барьер для long-context-приложений на порядок.
Агентные системы. SubQ Code — CLI-агент, который загружает всю кодобазу в один контекст. Субквадратичная архитектура делает это без квадратичного роста стоимости. Компания заявляет совместимость с Claude Code, Codex и Cursor как «long-context layer».
Вероятность: 50% — внешняя верификация уже подтвердила эффективность SSA на уровне ядра. Но downstream-качество на сложных задачах требует дополнительной валидации.
✅ Аргументы за
Независимые тесты подтвердили 56-кратное ускорение prefill на B200 — это измеримый факт, не маркетинг Команда: исследователи из Meta, Google, Oxford, Cambridge — уровень компетенций сопоставим с ведущими лабораториями $500 млн оценка при seed-раунде — инвесторы провели собственную due diligence Критерии подтверждения: публикация технического отчёта + открытие API для независимого тестирования
❌ Аргументы против
Предыдущие попытки субквадратичного внимания (Mamba, RWKV) не подтвердили competitive performance на frontier-масштабе Нет открытых весов и технической статьи — claims остаются непроверяемыми Magic.dev прецедент показывает: громкие заявления об эффективности attention не всегда конвертируются в работающий продукт Критерии опровержения: независимый бенчмаркинг на сложных задачах показывает разрыв с заявленными цифрами
Публикация технического отчёта Subquadratic — ожидается во 2-3 квартале 2026
Независимые бенчмарки от MLPerf и Artificial Analysis
Цены API: раскрытие стоимости за токен — критерий практической применимости
Открытые веса или модель для скачивания — показатель уверенности команды в технологии
Интеграция в Claude Code, Codex и Cursor — практические кейсы в production
Сценарии развития
🟢 Оптимистичный (25%)
Технический отчёт подтверждает заявленные характеристики. Модель SubQ 1M становится стандартом для long-context задач. RAG-инфраструктура для статических данных сокращается. Компания привлекает Series A с оценкой $5B+. Последствия: переоценка всех AI-инфраструктурных стартапов. Transformer перестаёт быть единственной архитектурой для LLM.
🟡 Базовый (55%)
Верификация на уровне ядра подтверждается, но downstream-качество на сложных многошаговых задачах оказывается ниже frontier-моделей. Модель находит нишу в длинном контексте (код, документы, исследования), но не заменяет frontier-моделей для общего назначения. Крупные лаборатории ускоряют собственные субквадратичные исследования. Последствия: появление нового класса «long-context specialist» моделей. Рынок RAG сокращается на 20–30% к 2027 году.
🔴 Пессимистичный (20%)
Независимые тесты показывают существенное падение качества на контекстах >500K токенов. SSA не масштабируется за пределы 1M токенов без потери recall. История повторяет сценарий Magic.dev — много шума, мало production-подтверждений. Последствия: Стартап снижает оценку, команда pivots на специализированные enterprise-решения. Transformer сохраняет доминирование.
Первичный источник — все цифры и архитектурные решения опубликованы здесь
Ключевой source для проверки заявлений Subquadratic — единственный независимый бенчмарк на сегодня
Сбалансированный обзор — ниша Eclibra как раз в том, чтобы не занимать сторону, а анализировать аргументы обеих