Разрыв в усиленном обучении AI: почему одни навыки развиваются быстрее других
Усиленное обучение ускоряет развитие AI-навыков с четкими метриками, тогда как субъективные задачи отстают.
В последние месяцы технологии генерации кода на базе AI продвинулись семимильными шагами, тогда как такие задачи, как написание писем или ведение чатов, демонстрируют лишь незначительный прогресс.
Усиленное обучение (RL) опирается на автоматизированные тесты с метриками «успех/провал», что позволяет проводить миллиарды испытаний без участия человека. Это идеально подходит для тестирования и улучшения процессов, где результат легко измерить, например, исправление багов или решение математических задач.
Однако навыки, требующие субъективной оценки — такие как генерация текстов или ответы чат-ботов — растут медленно из-за отсутствия повторяемых метрик. Даже при улучшении моделей выгода для пользователя может быть минимальной.
Код всегда проходил через серию тестов: unit, интеграционные, security-тесты и др. Эти же автоматизированные пайплайны можно использовать для RL, что ускоряет развитие инструментов разработчика, например GPT-5 и Gemini 2.5.
С другой стороны, для сложных отчетов или научных исследований потребуется создавать новые «тестовые наборы». Капитализация на стыке AI и финансов позволит стартапам создавать кастомные решения для автоматической проверки процессов.
Если процесс по своей природе тестируем, стартапы легко автоматизируют его и захватят рынок — а те, кто сейчас этим занимается, могут остаться без работы.— Senior Director, Google Dev Tools
Новые модели, такие как Sora 2 от OpenAI, демонстрируют, что даже сложные задачи (видео, физические законы, сохранение идентичности объектов) могут быть переведены в RL-формат, расширяя границы применимости AI.
В итоге «разрыв в усиленном обучении» станет одним из главных факторов, определяющих, какие AI-системы будут востребованы в бизнесе и какие области труда будут автоматизированы в ближайшие годы.