ИИ осваивает навыки с разной скоростью: от простых задач к стратегическим

Новое исследование METR показывает, что ИИ-модели осваивают навыки с различной скоростью: от мгновенного выполнения простых задач до постепенного освоения сложных стратегических заданий. Длительность задач, выполняемых с 50% надёжностью, удваивается каждые семь месяцев.

Исследователи из METR (Model Evaluation & Threat Research) разработали новый метод оценки возможностей искусственного интеллекта, основанный на длительности задач, которые системы могут успешно выполнять по сравнению с человеком. Результаты показывают экспоненциальный рост способностей ИИ: длительность задач, которые генералистские модели могут выполнять с 50% надёжностью, удваивается примерно каждые семь месяцев за последние шесть лет.

💡
ИИ-модели выполняют задачи, занимающие у человека менее четырёх минут, с почти 100% успехом. Однако при задачах длительностью более четырёх часов успешность падает до 10%.

Методология исследования

Команда METR протестировала множество современных моделей — от Sonnet 3.7 и GPT-4 до Claude 3 Opus и более старых версий GPT — на комплексе задач различной сложности. Спектр заданий варьировался от простых операций, занимающих пару минут (например, поиск базовой информации в Wikipedia), до сложных программных задач, требующих нескольких часов экспертной работы, таких как написание CUDA-ядер или исправление тонких ошибок в PyTorch.

Для оценки использовались специализированные инструменты, включая HCAST с 189 задачами по автономной разработке в областях машинного обучения, кибербезопасности и программной инженерии, а также RE-Bench с семью открытыми исследовательскими задачами, такими как оптимизация GPU-ядер. Исследователи также разработали концепцию программных атомарных действий (SWAA) — одношаговых задач длительностью от одной до 30 секунд, которые служат базовой единицей измерения для сравнения с человеческой производительностью.

Темп освоения навыков

Ключевое открытие исследования заключается в том, что «концентрация внимания» ИИ стремительно увеличивается. Модели демонстрируют различную скорость освоения задач в зависимости от их сложности и длительности. Простые задачи осваиваются практически мгновенно, в то время как для стратегических и многоэтапных заданий требуется значительно больше времени и усилий со стороны модели.

Экстраполируя текущие тренды, исследователи прогнозируют, что к 2032 году ИИ сможет автоматизировать объём разработки программного обеспечения, эквивалентный месяцу человеческой работы. Этот прогноз основан на предположении, что наблюдаемая тенденция удвоения возможностей каждые семь месяцев сохранится в будущем.

⚠️
Исследование показывает, что ИИ-агенты чаще испытывают трудности с объединением длинных последовательностей действий, чем с недостатком навыков или знаний для решения отдельных шагов.

Практические последствия

Элеанор Уотсон, специалист по этике ИИ в Singularity University и член IEEE, отмечает, что измерение возможностей ИИ по длительности задач является «ценным и интуитивным» подходом. Метрика напрямую отражает реальную сложность, фиксируя способность ИИ поддерживать последовательное целенаправленное поведение во времени, в отличие от традиционных тестов, оценивающих производительность на коротких изолированных проблемах.

Сохроб Казеруниан, ведущий исследователь ИИ в Vectra AI, добавляет, что метрика вероятности выполнения продолжительной задачи без отклонений или ошибок становится важным показателем общих способностей систем. По его мнению, это прямая мера типов задач, для которых планируется использовать ИИ — решения сложных человеческих проблем.

К 2026 году мы увидим, как ИИ становится всё более универсальным, выполняя разнообразные задачи в течение целого дня или недели, а не только короткие, узко определённые задания— Элеанор Уотсон, Singularity University

Будущее генералистских агентов

Эксперты прогнозируют скорое появление генералистских ИИ-агентов, способных справляться с широким спектром задач. Уотсон предсказывает, что для бизнеса это означает появление систем, способных взять на себя значительные части профессиональной нагрузки, что не только снизит затраты и повысит эффективность, но и позволит людям сосредоточиться на более креативных, стратегических и межличностных задачах.

Для потребителей ИИ эволюционирует из простого ассистента в надёжного персонального менеджера, способного справляться со сложными жизненными задачами — такими как планирование путешествий, мониторинг здоровья или управление финансовыми портфелями — в течение дней или недель с минимальным надзором. Хотя специализированные ИИ-инструменты сохранятся в нишевых приложениях из соображений эффективности, мощные генералистские агенты, способные гибко переключаться между различными задачами, выйдут на первый план.

Исследование METR на arXiv

Оригинальное исследование о методологии измерения возможностей ИИ на основе длительности задач

Читать исследование

Эти системы будут интегрировать специализированные навыки в более широкие целенаправленные рабочие процессы, фундаментально меняя повседневную жизнь и профессиональные практики.

Subscribe to Eclibra

Don’t miss out on the latest issues. Sign up now to get access to the library of members-only issues.
jamie@example.com
Subscribe