🎯
Новая архитектура Titans и теоретический фреймворк MIRAS открывают путь к ИИ-моделям с долгосрочной памятью, способным обрабатывать контексты свыше 2 млн токенов, конкурируя с трансформерами по точности, но с экономией вычислений как у рекуррентных сетей.

Ключевые выводы:
Titans обрабатывает экстремально длинные контексты (2M+ токенов) — превосходит GPT-4 в тестах на логический вывод при меньшем количестве параметров

Механизм "surprise metrics" позволяет модели выборочно запоминать новую информацию, игнорируя рутинные данные

MIRAS объединяет RNN-эффективность с трансформер-точностью — новый парадигм для sequence modeling

Еще десять месяцев назад проблема казалась неразрешимой

Трансформеры произвели революцию в обработке последовательностей, но их внимание с квадратичной сложностью становится узким местом при масштабировании контекстов. Рекуррентные нейросети решают эту проблему эффективностью, но теряют точность при работе с длинными зависимостями. Google Research столкнулась с классическим компромиссом: точность или скорость.

На конференции в начале декабря 2025 исследователи Google представили ответ — архитектуру Titans и теоретический фреймворк MIRAS, объединяющие сильные стороны обоих подходов. Это не просто итерация, а новое понимание того, как ИИ должен обрабатывать информацию во времени.

Как Titans помнит важное и забывает ненужное

Центр инновации Titans — механизм, который Google назвала "surprise metrics". Вместо того чтобы равномерно запоминать всё, модель отслеживает внутренние ошибки предсказания. Когда входящий токен неожидан по сравнению с текущей памятью — "surprise" высокая — модель активирует долгосрочную запись. Если информация предсказуема, модель её игнорирует.

Психология поддерживает эту логику: люди помнят неожиданные события, но забывают рутину. Titans реализует этот принцип математически через два механизма:

Momentum-эффект: модель учитывает не только текущее "удивление", но и контекст предыдущих сюрпризов, чтобы не потерять информацию из соседних токенов

Адаптивное забывание: для очень длинных последовательностей Titans применяет забывающий механизм, избирательно вытирая менее важную информацию из памяти

Результат: модель с эффективностью линейной RNN обрабатывает контексты как трансформер.

MIRAS: единая теория sequence modeling

Если Titans — инструмент, то MIRAS — теория. Google сформулировала обобщённый фреймворк, охватывающий трансформеры, Mamba и новые архитектуры. MIRAS описывает четыре компонента любого sequence model:

Memory Architecture — как система хранит информацию (матрица, многослойный перцептрон)

Attentional Bias — на какие сигналы модель обращает внимание во время обучения

Retention Gate — механизмы регуляризации, балансирующие новую информацию с сохранением прошлого

Memory Algorithm — метод оптимизации для обновления памяти

Этот фреймворк позволяет систематически проектировать модели для конкретных задач, а не полагаться на эмпирические эксперименты. MIRAS уже демонстрирует, как гибридные SSM-трансформер архитектуры могут превосходить оба подхода в изоляции.

BABILong: когда 2 млн токенов кажутся малым

Бенчмарк BABILong требует логического вывода на основе фактов, разбросанных по чрезвычайно длинным документам — ровно то, где трансформеры спотыкаются из-за вычислительных ограничений. Titans превосходит все базовые модели, включая GPT-4, при значительно меньшем количестве параметров.

Масштабируемость Titans выходит за пределы любых практических сценариев: система продемонстрировала способность обрабатывать контекстные окна превышающие 2 млн токенов. Для контекста: типичное окно GPT-4 — 128 тыс. токенов. Это 15-кратное увеличение при сохранении скорости, близкой к линейной RNN.

Значение этого не может быть переоценено для приложений, где контекст критичен: анализ многотомных документов, исторические финансовые анализы, медицинские архивы, кодовые базы миллионов строк.

Что это означает для бизнеса и технологии

На инвестиционном уровне Titans решает задачу стоимости облачного вывода. Если модель работает с линейной сложностью, а не квадратичной, то вывод масштабируется экономичнее. Для больших данных — документ-анализа, видеообработки, мониторинга в реальном времени — это означает драматическое снижение расходов на GPU-часы.

Для CTO компании структурное преимущество ясно: вместо оплаты облачного LLM-запроса для длинных контекстов можно развернуть Titans на edge-устройствах или более дешёвом аппаратном обеспечении. Google намекает на возможность вывода на мобильных устройствах с модифицированным весом, хотя это ещё не анонсировано.

Геополитический контекст: это потенциально важная разработка в рамках chip wars. Если Titans требует меньше вычислений, это ослабляет зависимость от дефицитных чипов и даёт странам конкурировать в ИИ приложениях.

Какие вопросы остаются открытыми

Несмотря на впечатляющие результаты, генерация текста в реальном времени на Titans ещё не публична. Основные тесты проводились на специализированных бенчмарках, а не на стандартных (MMLU, BIG-Bench). Нужны независимые проверки на практических задачах: суммаризация, перевод, кодогенерация.

Второе: как Titans справляется с обновлением памяти во время инференса (test-time training)? Google подчёркивает адаптивность, но детали вычислительных затрат пока закрыты. Это критично для понимания реального edge-потенциала архитектуры.

Третье: интеграция с существующими инструментами. Если Titans требует переписывания инфраструктуры LLM (tokenizers, batching, кэширование), то внедрение будет медленным, несмотря на преимущества.

💡
Практические импликации для инженеров и инвесторов:

CTOs: начните мониторинг Titans для use case с длинными контекстами (RAG, аналитика документов). Это может снизить расходы на облачный вывод на 30-50% за счёт линейной масштабируемости

Инвесторы: ищите компании, оптимизирующие вывод для SSM-архитектур (Mamba, Titans). Hardware-компании, поддерживающие эти модели на edge-чипах, получат конкурентное преимущество

Исследователи: MIRAS открывает фундаментальный вопрос — есть ли другие принципы sequence modeling, которые мы пока не открыли?

Практические идеи

Titans + MIRAS символизируют сдвиг от "больше параметров" к "умнее архитектура". Google доказала, что эффективность и масштабируемость достижимы не через дополнительные чипы, а через фундаментальный переосмысл памяти в ИИ. Эта парадигма совпадает с растущей конкуренцией в chip wars и экономическим давлением на облачную ИИ — кто первым адаптирует такие архитектуры на практике, тот выигрывает в экосистеме следующего поколения.

Узнать больше

Research Blog: Google Research. "Titans + MIRAS: Helping AI have long-term memory" (2025-12-03). Оригинальное описание архитектуры с примерами бенчмарков и визуализацией механизма surprise metrics. ArXiv: Полные академические статьи Titans и MIRAS (опубликованы в декабре 2025), содержащие математические основы и дополнительные эксперименты. Блог Binaryverse AI: "Google Titans: 5 Powerful Insights For Long-Term AI Memory" — адаптированное объяснение для практиков, содержит примеры implementation.

Источники информации

Материал подготовлен на основе официального исследования Google Research (research.google/blog, декабрь 2025), публикаций на ArXiv (авторы: Google Research Team), аналитических материалов Binaryverse AI и технических обсуждений на Reddit. Данные о производительности BABILong и масштабировании контекста до 2M+ токенов получены из исходных бенчмарков Google. Актуально на 8 декабря 2025 г.