🎯
Ключевые выводы

Новый метод NRT обучает модели рассуждать только на парах вопрос-ответ, без экспертных демонстраций и верификаторов.

Подход снижает зависимость от размеченных данных и расширяет применение на задачи с субъективной оценкой.

Тесты на Llama и Mistral показывают прирост качества рассуждений на 15–40% по сравнению с базовыми методами.

В последние два года доминирующая парадигма обучения рассуждающих моделей сводилась к двухэтапному процессу: дообучение на человеческих демонстрациях, затем тонкая настройка через подкрепление с верифицируемыми наградами. Этот подход эффективен в математике и программировании, где ответ можно проверить автоматически. Но он сталкивается с фундаментальным ограничением: как обучать рассуждению в задачах, где «правильность» субъективна — например, в аналитике, креативном письме или стратегическом планировании?

Исследование Native Reasoning Models: Training Language Models to Reason on Unverifiable Data, принятое на ICLR 2026, предлагает принципиально иной путь. Авторы вводят метод NRT — подход, который культивирует способность к рассуждению, используя только стандартные пары вопрос-ответ, без экспертных демонстраций и внешних верификаторов.

Как это работает: рассуждение как скрытая переменная

Ключевая идея NRT — трактовать процесс рассуждения не как имитацию человеческой логики, а как латентную переменную, которую модель учится генерировать самостоятельно. Вместо копирования цепочек мыслей из датасета, модель исследует пространство возможных рассуждений и получает внутреннюю награду за траектории, повышающие уверенность в правильности финального ответа.

«Мы не учим модель думать как человек. Мы создаём условия, в которых она сама открывает, какие шаги мышления ведут к надёжному ответу».

Технически это реализуется через единую функцию потерь, оптимизирующую генерацию рассуждения и предсказание ответа. Важный компонент — агрегация награды на уровне токенов: наивные схемы ведут к «схлопыванию политики», когда модель выдаёт тривиальные ответы. Предложенные схемы — геометрическое среднее и взвешенная сумма с акцентом на сложные токены — обеспечивают устойчивость обучения.

Почему это важно для практики

Для технических специалистов и руководителей NRT открывает три практических преимущества:

Снижение затрат на данные
Отпадает необходимость в дорогих размеченных датасетах с цепочками рассуждений. Достаточно пар вопрос-ответ из корпоративных баз знаний.
Расширение области применения
Метод работает там, где нет объективного верификатора: аналитика рисков, генерация стратегий, оценка креативных решений.
Устойчивость к переобучению
Поскольку модель ищет собственные эффективные траектории, снижается риск закрепления когнитивных искажений из обучающих данных.

Эмпирическая оценка: что показывают бенчмарки

Авторы протестировали NRT на семействах Llama-3.2-3B, Mistral-7B и Llama-3.1-8B, используя 200K пар вопрос-ответ. Оценка проводилась по девяти бенчмаркам: от общего рассуждения до математики и генерации кода.

Результаты: NRT, особенно вариант с взвешенной суммой, превзошёл все базовые методы без верификатора. Прирост составил от 15% на задачах общего рассуждения до 40% на сложных математических бенчмарках. Метод показал высокую устойчивость к «схлопыванию политики».

Что это значит для внедрения в production?

NRT не требует изменения инфраструктуры: метод совместим со стандартными фреймворками подкрепления и может быть интегрирован в существующие пайплайны дообучения. Ключевое условие — наличие пар вопрос-ответ с чётким ground truth.

Ограничения и направления развития

Метод не отменяет необходимости в качественных данных: если пары вопрос-ответ содержат систематические ошибки, модель усвоит их. Также NRT пока не решает проблему «галлюцинаций» в рассуждении. Авторы указывают на необходимость будущих исследований в области саморефлексии и внешней валидации.

С практической точки зрения, NRT — инструмент для расширения арсенала. Он особенно ценен в сценариях, где сбор экспертных демонстраций дорог или невозможен: нишевые домены, быстро меняющиеся регуляторные контексты, персонализированные сценарии.

Оригинальное исследование

Wang Y. et al. Native Reasoning Models: Training Language Models to Reason on Unverifiable Data. arXiv:2602.11549 [cs.LG], 2026. Принято на ICLR 2026.

Практический инсайт

Если вы оцениваете методы дообучения для корпоративных задач с неочевидной верификацией, NRT стоит включить в shortlist для пилота. Начните с узкого домена с надёжными парами вопрос-ответ и сравните качество рассуждений до и после. Ключевая метрика — не только точность ответа, но и согласованность промежуточных шагов.

Источник

arXiv:2602.11549 — полный текст исследования с приложениями, таблицами и качественным анализом.