Новый метод NRT обучает модели рассуждать только на парах вопрос-ответ, без экспертных демонстраций и верификаторов.
Подход снижает зависимость от размеченных данных и расширяет применение на задачи с субъективной оценкой.
Тесты на Llama и Mistral показывают прирост качества рассуждений на 15–40% по сравнению с базовыми методами.
В последние два года доминирующая парадигма обучения рассуждающих моделей сводилась к двухэтапному процессу: дообучение на человеческих демонстрациях, затем тонкая настройка через подкрепление с верифицируемыми наградами. Этот подход эффективен в математике и программировании, где ответ можно проверить автоматически. Но он сталкивается с фундаментальным ограничением: как обучать рассуждению в задачах, где «правильность» субъективна — например, в аналитике, креативном письме или стратегическом планировании?
Исследование Native Reasoning Models: Training Language Models to Reason on Unverifiable Data, принятое на ICLR 2026, предлагает принципиально иной путь. Авторы вводят метод NRT — подход, который культивирует способность к рассуждению, используя только стандартные пары вопрос-ответ, без экспертных демонстраций и внешних верификаторов.
Как это работает: рассуждение как скрытая переменная
Ключевая идея NRT — трактовать процесс рассуждения не как имитацию человеческой логики, а как латентную переменную, которую модель учится генерировать самостоятельно. Вместо копирования цепочек мыслей из датасета, модель исследует пространство возможных рассуждений и получает внутреннюю награду за траектории, повышающие уверенность в правильности финального ответа.
«Мы не учим модель думать как человек. Мы создаём условия, в которых она сама открывает, какие шаги мышления ведут к надёжному ответу».
Технически это реализуется через единую функцию потерь, оптимизирующую генерацию рассуждения и предсказание ответа. Важный компонент — агрегация награды на уровне токенов: наивные схемы ведут к «схлопыванию политики», когда модель выдаёт тривиальные ответы. Предложенные схемы — геометрическое среднее и взвешенная сумма с акцентом на сложные токены — обеспечивают устойчивость обучения.
Почему это важно для практики
Для технических специалистов и руководителей NRT открывает три практических преимущества:
Отпадает необходимость в дорогих размеченных датасетах с цепочками рассуждений. Достаточно пар вопрос-ответ из корпоративных баз знаний.
Метод работает там, где нет объективного верификатора: аналитика рисков, генерация стратегий, оценка креативных решений.
Поскольку модель ищет собственные эффективные траектории, снижается риск закрепления когнитивных искажений из обучающих данных.
Эмпирическая оценка: что показывают бенчмарки
Авторы протестировали NRT на семействах Llama-3.2-3B, Mistral-7B и Llama-3.1-8B, используя 200K пар вопрос-ответ. Оценка проводилась по девяти бенчмаркам: от общего рассуждения до математики и генерации кода.
Результаты: NRT, особенно вариант с взвешенной суммой, превзошёл все базовые методы без верификатора. Прирост составил от 15% на задачах общего рассуждения до 40% на сложных математических бенчмарках. Метод показал высокую устойчивость к «схлопыванию политики».
Что это значит для внедрения в production?
NRT не требует изменения инфраструктуры: метод совместим со стандартными фреймворками подкрепления и может быть интегрирован в существующие пайплайны дообучения. Ключевое условие — наличие пар вопрос-ответ с чётким ground truth.
Ограничения и направления развития
Метод не отменяет необходимости в качественных данных: если пары вопрос-ответ содержат систематические ошибки, модель усвоит их. Также NRT пока не решает проблему «галлюцинаций» в рассуждении. Авторы указывают на необходимость будущих исследований в области саморефлексии и внешней валидации.
С практической точки зрения, NRT — инструмент для расширения арсенала. Он особенно ценен в сценариях, где сбор экспертных демонстраций дорог или невозможен: нишевые домены, быстро меняющиеся регуляторные контексты, персонализированные сценарии.
Оригинальное исследование
Wang Y. et al. Native Reasoning Models: Training Language Models to Reason on Unverifiable Data. arXiv:2602.11549 [cs.LG], 2026. Принято на ICLR 2026.
Практический инсайт
Если вы оцениваете методы дообучения для корпоративных задач с неочевидной верификацией, NRT стоит включить в shortlist для пилота. Начните с узкого домена с надёжными парами вопрос-ответ и сравните качество рассуждений до и после. Ключевая метрика — не только точность ответа, но и согласованность промежуточных шагов.
Источник
arXiv:2602.11549 — полный текст исследования с приложениями, таблицами и качественным анализом.