Ключевые выводы:
Titans обрабатывает экстремально длинные контексты (2M+ токенов) — превосходит GPT-4 в тестах на логический вывод при меньшем количестве параметров
Механизм "surprise metrics" позволяет модели выборочно запоминать новую информацию, игнорируя рутинные данные
MIRAS объединяет RNN-эффективность с трансформер-точностью — новый парадигм для sequence modeling
Еще десять месяцев назад проблема казалась неразрешимой
Трансформеры произвели революцию в обработке последовательностей, но их внимание с квадратичной сложностью становится узким местом при масштабировании контекстов. Рекуррентные нейросети решают эту проблему эффективностью, но теряют точность при работе с длинными зависимостями. Google Research столкнулась с классическим компромиссом: точность или скорость.
На конференции в начале декабря 2025 исследователи Google представили ответ — архитектуру Titans и теоретический фреймворк MIRAS, объединяющие сильные стороны обоих подходов. Это не просто итерация, а новое понимание того, как ИИ должен обрабатывать информацию во времени.
Как Titans помнит важное и забывает ненужное
Центр инновации Titans — механизм, который Google назвала "surprise metrics". Вместо того чтобы равномерно запоминать всё, модель отслеживает внутренние ошибки предсказания. Когда входящий токен неожидан по сравнению с текущей памятью — "surprise" высокая — модель активирует долгосрочную запись. Если информация предсказуема, модель её игнорирует.
Психология поддерживает эту логику: люди помнят неожиданные события, но забывают рутину. Titans реализует этот принцип математически через два механизма:
Momentum-эффект: модель учитывает не только текущее "удивление", но и контекст предыдущих сюрпризов, чтобы не потерять информацию из соседних токенов
Адаптивное забывание: для очень длинных последовательностей Titans применяет забывающий механизм, избирательно вытирая менее важную информацию из памяти
Результат: модель с эффективностью линейной RNN обрабатывает контексты как трансформер.
MIRAS: единая теория sequence modeling
Если Titans — инструмент, то MIRAS — теория. Google сформулировала обобщённый фреймворк, охватывающий трансформеры, Mamba и новые архитектуры. MIRAS описывает четыре компонента любого sequence model:
Memory Architecture — как система хранит информацию (матрица, многослойный перцептрон)
Attentional Bias — на какие сигналы модель обращает внимание во время обучения
Retention Gate — механизмы регуляризации, балансирующие новую информацию с сохранением прошлого
Memory Algorithm — метод оптимизации для обновления памяти
Этот фреймворк позволяет систематически проектировать модели для конкретных задач, а не полагаться на эмпирические эксперименты. MIRAS уже демонстрирует, как гибридные SSM-трансформер архитектуры могут превосходить оба подхода в изоляции.
BABILong: когда 2 млн токенов кажутся малым
Бенчмарк BABILong требует логического вывода на основе фактов, разбросанных по чрезвычайно длинным документам — ровно то, где трансформеры спотыкаются из-за вычислительных ограничений. Titans превосходит все базовые модели, включая GPT-4, при значительно меньшем количестве параметров.
Масштабируемость Titans выходит за пределы любых практических сценариев: система продемонстрировала способность обрабатывать контекстные окна превышающие 2 млн токенов. Для контекста: типичное окно GPT-4 — 128 тыс. токенов. Это 15-кратное увеличение при сохранении скорости, близкой к линейной RNN.
Значение этого не может быть переоценено для приложений, где контекст критичен: анализ многотомных документов, исторические финансовые анализы, медицинские архивы, кодовые базы миллионов строк.
Что это означает для бизнеса и технологии
На инвестиционном уровне Titans решает задачу стоимости облачного вывода. Если модель работает с линейной сложностью, а не квадратичной, то вывод масштабируется экономичнее. Для больших данных — документ-анализа, видеообработки, мониторинга в реальном времени — это означает драматическое снижение расходов на GPU-часы.
Для CTO компании структурное преимущество ясно: вместо оплаты облачного LLM-запроса для длинных контекстов можно развернуть Titans на edge-устройствах или более дешёвом аппаратном обеспечении. Google намекает на возможность вывода на мобильных устройствах с модифицированным весом, хотя это ещё не анонсировано.
Геополитический контекст: это потенциально важная разработка в рамках chip wars. Если Titans требует меньше вычислений, это ослабляет зависимость от дефицитных чипов и даёт странам конкурировать в ИИ приложениях.
Какие вопросы остаются открытыми
Несмотря на впечатляющие результаты, генерация текста в реальном времени на Titans ещё не публична. Основные тесты проводились на специализированных бенчмарках, а не на стандартных (MMLU, BIG-Bench). Нужны независимые проверки на практических задачах: суммаризация, перевод, кодогенерация.
Второе: как Titans справляется с обновлением памяти во время инференса (test-time training)? Google подчёркивает адаптивность, но детали вычислительных затрат пока закрыты. Это критично для понимания реального edge-потенциала архитектуры.
Третье: интеграция с существующими инструментами. Если Titans требует переписывания инфраструктуры LLM (tokenizers, batching, кэширование), то внедрение будет медленным, несмотря на преимущества.
CTOs: начните мониторинг Titans для use case с длинными контекстами (RAG, аналитика документов). Это может снизить расходы на облачный вывод на 30-50% за счёт линейной масштабируемости
Инвесторы: ищите компании, оптимизирующие вывод для SSM-архитектур (Mamba, Titans). Hardware-компании, поддерживающие эти модели на edge-чипах, получат конкурентное преимущество
Исследователи: MIRAS открывает фундаментальный вопрос — есть ли другие принципы sequence modeling, которые мы пока не открыли?
Практические идеи
Titans + MIRAS символизируют сдвиг от "больше параметров" к "умнее архитектура". Google доказала, что эффективность и масштабируемость достижимы не через дополнительные чипы, а через фундаментальный переосмысл памяти в ИИ. Эта парадигма совпадает с растущей конкуренцией в chip wars и экономическим давлением на облачную ИИ — кто первым адаптирует такие архитектуры на практике, тот выигрывает в экосистеме следующего поколения.
Узнать больше
Research Blog: Google Research. "Titans + MIRAS: Helping AI have long-term memory" (2025-12-03). Оригинальное описание архитектуры с примерами бенчмарков и визуализацией механизма surprise metrics. ArXiv: Полные академические статьи Titans и MIRAS (опубликованы в декабре 2025), содержащие математические основы и дополнительные эксперименты. Блог Binaryverse AI: "Google Titans: 5 Powerful Insights For Long-Term AI Memory" — адаптированное объяснение для практиков, содержит примеры implementation.
Источники информации
Материал подготовлен на основе официального исследования Google Research (research.google/blog, декабрь 2025), публикаций на ArXiv (авторы: Google Research Team), аналитических материалов Binaryverse AI и технических обсуждений на Reddit. Данные о производительности BABILong и масштабировании контекста до 2M+ токенов получены из исходных бенчмарков Google. Актуально на 8 декабря 2025 г.