Большинство AI-агентов, работающих сегодня, заморожены в момент деплоя. Их промпты не меняются, инструменты фиксированы, а поведение остаётся неизменным, пока разработчик не выкатит новую версию. Это нормально для чат-ботов. Для агентов, которые должны решать длинные цепочки задач, — критическое ограничение.

Проблема в том, что статические агенты не учатся на собственном опыте. Каждая новая задача для них — с чистого листа. Все удачные решения, найденные вчера, забыты сегодня. Ошибки повторяются, эффективные стратегии не накапливаются.

За 2025–2026 годы сформировалось новое направление: self-evolving AI agents — системы, которые накапливают опыт, переиспользуют успешные стратегии и учатся на ошибках без переобучения модели.

От статики к эволюции


ХРОНИКА: Эволюция агентного ИИ
─────────────────────────────────────────────────────────────
  2023 ──── 2024 ──── 2025 ──── 2026 ──── 2027
  🤖       🧠       🔬       ◉ СЕЙЧАС   🔥 ДАЛЕЕ
  ReAct    Reflexion  MASE     ExpGraph  Self-evolving
  Agent    Agent      Survey   GEA       production

Эволюция архитектур: от статических промптов к самозволюционирующим системам

Путь начался с ReAct-агентов (2023), где модель просто чередовала рассуждение и действие. Затем Reflexion (Shinn et al., 2023) добавил шаг самооценки — агент мог критиковать собственный ответ и пробовать снова. К 2025 году Multi-Agent Self-Evolving (MASE) системы уже оптимизировали промпты и инструменты, но не генерировали нового кода.

В августе 2025 года вышла Comprehensive Survey of Self-Evolving AI Agents от восьми международных институтов, включая Кембридж и Национальный университет Сингапура. Она впервые формализовала концепцию: агент отслеживает собственные действия, оценивает результат, извлекает уроки и обновляет стратегию — без участия человека.

+12,2% прирост точности на статических задачах ↑ 21,4% в агентных средах

Прирост без переобучения

Модель-агностическая система графовой памяти показывает улучшение качества на 12,2% без изменения весов модели. · arXiv, май 2026

Память, которая растёт сама

Ключевая работа 2026 года — ExpGraph, опубликованная на arXiv 29 мая коллаборацией UIUC, NTU и Meta Monetization AI. Идея: исполнитель (LLM) остаётся замороженным, а вся эволюция происходит во внешнем графе памяти.

Система суммирует исторические траектории агента в переиспользуемые навыки и уроки из неудач, организуя их как узлы в самозволюционирующем графе. Когда агент получает новую задачу, лёгкий copilot (ассистент принятия решений), обученный через reinforcement learning (обучение с подкреплением), решает, какие фрагменты опыта извлечь, балансируя между семантической релевантностью и исторической полезностью.

💡
Ключевое отличие от fine-tuning
Fine-tuning (дообучение) меняет веса модели под конкретную задачу. Подход оставляет модель нетронутой — опыт хранится снаружи. Это значит, что закрытые модели (GPT-4o, Claude) можно улучшать без доступа к их весам.

Результаты на ExpSuite: +12,2% на статических задачах с малым исполнителем и +4,7% с большим. В агентных средах (ALFWorld, AppWorld) прирост достиг 21,4% и 12,7% при сокращении числа шагов на 12,7–21,6%. Система не просто улучшает качество — она делает агентов эффективнее.

Важная деталь: фреймворк не требует доступа к весам исполнителя. Это отличает его от всех предыдущих подходов, где эволюция означала fine-tuning (дообучение) модели. Графовая память — отдельный слой, который можно прикрепить к любому LLM.

Практические реализации

Параллельно с академическими работами появились проекты с открытым исходным кодом, реализующие ту же логику на практике.

GenericAgent (GitHub, 4 300+ звёзд) — всего 3 300 строк кода, из которых агент самостоятельно достраивает архитектуру. Механизм «кристаллизации навыков»: новая задача требует полного исследования (дорого), повторная — вызова сохранённого навыка (дёшево). Результат — до 6-кратной экономии токенов.

Группа UC Santa Barbara представила GEA (Group-Evolving Agents): агенты делятся опытом в общий пул и автономно модифицируют собственный код. За 30 итераций GEA достиг 71% на SWE-bench Verified — вплотную к топовым инженерным системам. Стартовая точка была 20%.

Оба проекта работают на реальных задачах — от генерации кода до браузерной автоматизации. Это уже не лабораторные эксперименты.

📊
Динамика: 20% → 71% за 30 циклов
GEA начинала с 20% решённых задач на SWE-bench. После 30 итераций самоэволюции — 71%. Человек-инженер показывает около 75%.

Точки перехода

Первая: доказательство, что model-agnostic (модель-независимый) подход работает. Исполнителя можно не трогать — эволюция через внешнюю память даёт измеримый прирост без рисков дообучения.

Вторая: появление production-ready (готовых к продакшену) реализаций. GenericAgent и GEA работают на реальных задачах — от код-генерации до браузерной автоматизации.

Третья: экономический аргумент. Графовая память сокращает число шагов агента на 12–21%. GenericAgent — на 83% (6× экономия токенов). Self-evolving (самоэволюционирующие) агенты становятся не только умнее, но и дешевле.

Что это значит для инженеров

Архитектура агентов меняется. Вместо «один промпт — одна система» приходит сборка: замороженный LLM + эволюционирующий слой памяти + copilot для принятия решений об извлечении опыта.

На практике это означает, что:

— Агентов не нужно переучивать под каждую новую задачу. Достаточно дать им внешнюю память.
— Закрытые модели можно улучшать без дообучения. ExpGraph работает с любым исполнителем.
— Стоимость эксплуатации снижается с каждым циклом. Первый запуск дорогой, каждый следующий — дешевле.

NextBigFuture назвал 2026 год «прорывным для continual learning (непрерывного обучения) прототипов». Данные это подтверждают.

Смысл сдвига очевиден: следующие пять лет инженеры будут проектировать не более умные модели, а более эффективные способы накопления и переиспользования опыта. ExpGraph, GenericAgent и GEA — первые ласточки этой архитектурной революции.

Для практикующего инженера это означает конкретные изменения в стеке. Вместо одной модели — связка: базовый LLM + эпизодическая память + механизм рефлексии. Вместо ручного написания промптов под каждую задачу — агент, который пишет и тестирует их сам. Вместо ежеквартальных обновлений модели — непрерывное улучшение на каждом запуске. Команды, которые не перестроят архитектуру сейчас, через год будут вынуждены догонять конкурентов с двукратным отставанием по стоимости инференса и с потерянными обучающими данными о поведении агентов.

Источники

ExpGraph: Model-Agnostic Experience Learning with Graph-Structured Memory for LLM Agents
Основная работа: графовая память для замороженных LLM-исполнителей, UIUC/NTU/Meta
Ключевой source: первый фреймворк, доказывающий, что исполнитель может оставаться замороженным — эволюция идёт снаружи
Awesome-Self-Evolving-Agents — GitHub
Курированная подборка фреймворков и публикаций по самозволюционирующим AI-агентам
Отслеживание направления: от ExpGraph до GenericAgent — все ключевые проекты в одном репозитории
GenericAgent — практическая реализация self-evolving архитектуры
3 300 строк кода, 6× экономия токенов через кристаллизацию навыков
Пример того, как self-evolving работает в продакшене — без fine-tuning, с измеряемой экономией