Большинство AI-агентов, работающих сегодня, заморожены в момент деплоя. Их промпты не меняются, инструменты фиксированы, а поведение остаётся неизменным, пока разработчик не выкатит новую версию. Это нормально для чат-ботов. Для агентов, которые должны решать длинные цепочки задач, — критическое ограничение.
Проблема в том, что статические агенты не учатся на собственном опыте. Каждая новая задача для них — с чистого листа. Все удачные решения, найденные вчера, забыты сегодня. Ошибки повторяются, эффективные стратегии не накапливаются.
За 2025–2026 годы сформировалось новое направление: self-evolving AI agents — системы, которые накапливают опыт, переиспользуют успешные стратегии и учатся на ошибках без переобучения модели.
От статики к эволюции
ХРОНИКА: Эволюция агентного ИИ
─────────────────────────────────────────────────────────────
2023 ──── 2024 ──── 2025 ──── 2026 ──── 2027
🤖 🧠 🔬 ◉ СЕЙЧАС 🔥 ДАЛЕЕ
ReAct Reflexion MASE ExpGraph Self-evolving
Agent Agent Survey GEA production
Эволюция архитектур: от статических промптов к самозволюционирующим системам
Путь начался с ReAct-агентов (2023), где модель просто чередовала рассуждение и действие. Затем Reflexion (Shinn et al., 2023) добавил шаг самооценки — агент мог критиковать собственный ответ и пробовать снова. К 2025 году Multi-Agent Self-Evolving (MASE) системы уже оптимизировали промпты и инструменты, но не генерировали нового кода.
В августе 2025 года вышла Comprehensive Survey of Self-Evolving AI Agents от восьми международных институтов, включая Кембридж и Национальный университет Сингапура. Она впервые формализовала концепцию: агент отслеживает собственные действия, оценивает результат, извлекает уроки и обновляет стратегию — без участия человека.
Прирост без переобучения
Модель-агностическая система графовой памяти показывает улучшение качества на 12,2% без изменения весов модели. · arXiv, май 2026
Память, которая растёт сама
Ключевая работа 2026 года — ExpGraph, опубликованная на arXiv 29 мая коллаборацией UIUC, NTU и Meta Monetization AI. Идея: исполнитель (LLM) остаётся замороженным, а вся эволюция происходит во внешнем графе памяти.
Система суммирует исторические траектории агента в переиспользуемые навыки и уроки из неудач, организуя их как узлы в самозволюционирующем графе. Когда агент получает новую задачу, лёгкий copilot (ассистент принятия решений), обученный через reinforcement learning (обучение с подкреплением), решает, какие фрагменты опыта извлечь, балансируя между семантической релевантностью и исторической полезностью.
Fine-tuning (дообучение) меняет веса модели под конкретную задачу. Подход оставляет модель нетронутой — опыт хранится снаружи. Это значит, что закрытые модели (GPT-4o, Claude) можно улучшать без доступа к их весам.
Результаты на ExpSuite: +12,2% на статических задачах с малым исполнителем и +4,7% с большим. В агентных средах (ALFWorld, AppWorld) прирост достиг 21,4% и 12,7% при сокращении числа шагов на 12,7–21,6%. Система не просто улучшает качество — она делает агентов эффективнее.
Важная деталь: фреймворк не требует доступа к весам исполнителя. Это отличает его от всех предыдущих подходов, где эволюция означала fine-tuning (дообучение) модели. Графовая память — отдельный слой, который можно прикрепить к любому LLM.
Практические реализации
Параллельно с академическими работами появились проекты с открытым исходным кодом, реализующие ту же логику на практике.
GenericAgent (GitHub, 4 300+ звёзд) — всего 3 300 строк кода, из которых агент самостоятельно достраивает архитектуру. Механизм «кристаллизации навыков»: новая задача требует полного исследования (дорого), повторная — вызова сохранённого навыка (дёшево). Результат — до 6-кратной экономии токенов.
Группа UC Santa Barbara представила GEA (Group-Evolving Agents): агенты делятся опытом в общий пул и автономно модифицируют собственный код. За 30 итераций GEA достиг 71% на SWE-bench Verified — вплотную к топовым инженерным системам. Стартовая точка была 20%.
Оба проекта работают на реальных задачах — от генерации кода до браузерной автоматизации. Это уже не лабораторные эксперименты.
GEA начинала с 20% решённых задач на SWE-bench. После 30 итераций самоэволюции — 71%. Человек-инженер показывает около 75%.
Точки перехода
Первая: доказательство, что model-agnostic (модель-независимый) подход работает. Исполнителя можно не трогать — эволюция через внешнюю память даёт измеримый прирост без рисков дообучения.
Вторая: появление production-ready (готовых к продакшену) реализаций. GenericAgent и GEA работают на реальных задачах — от код-генерации до браузерной автоматизации.
Третья: экономический аргумент. Графовая память сокращает число шагов агента на 12–21%. GenericAgent — на 83% (6× экономия токенов). Self-evolving (самоэволюционирующие) агенты становятся не только умнее, но и дешевле.
Что это значит для инженеров
Архитектура агентов меняется. Вместо «один промпт — одна система» приходит сборка: замороженный LLM + эволюционирующий слой памяти + copilot для принятия решений об извлечении опыта.
На практике это означает, что:
— Агентов не нужно переучивать под каждую новую задачу. Достаточно дать им внешнюю память.
— Закрытые модели можно улучшать без дообучения. ExpGraph работает с любым исполнителем.
— Стоимость эксплуатации снижается с каждым циклом. Первый запуск дорогой, каждый следующий — дешевле.
NextBigFuture назвал 2026 год «прорывным для continual learning (непрерывного обучения) прототипов». Данные это подтверждают.
Смысл сдвига очевиден: следующие пять лет инженеры будут проектировать не более умные модели, а более эффективные способы накопления и переиспользования опыта. ExpGraph, GenericAgent и GEA — первые ласточки этой архитектурной революции.
Для практикующего инженера это означает конкретные изменения в стеке. Вместо одной модели — связка: базовый LLM + эпизодическая память + механизм рефлексии. Вместо ручного написания промптов под каждую задачу — агент, который пишет и тестирует их сам. Вместо ежеквартальных обновлений модели — непрерывное улучшение на каждом запуске. Команды, которые не перестроят архитектуру сейчас, через год будут вынуждены догонять конкурентов с двукратным отставанием по стоимости инференса и с потерянными обучающими данными о поведении агентов.