DeepSeek R1 попал на обложку Nature: прорыв в обучении ИИ с подкреплением

Методология DeepSeek R1 опубликована в Nature как первая рецензируемая работа о крупной языковой модели. Революционный подход с чистым обучением подкреплением стоил всего $294,000 против миллионов у конкурентов.

Китайская компания DeepSeek достигла исторического момента — методология их модели R1 была опубликована на обложке престижного журнала Nature, став первой крупной языковой моделью, прошедшей процесс научного рецензирования.

Ключевая инновация DeepSeek заключается в использовании "чистого обучения с подкреплением" вместо традиционного подхода с человеческими примерами. Модель самостоятельно изучает стратегии рассуждения, получая награды за правильные ответы, что кардинально снижает затраты на разработку.

Финансовая эффективность проекта поражает: обучение R1 обошлось всего в 294 000 долларов, что в десятки раз меньше затрат конкурентов. Добавив расходы на базовую модель (6 миллионов долларов), общая стоимость остается значительно ниже аналогичных западных проектов.

Модель демонстрирует выдающиеся результаты: 77,9% для R1-Zero и 79,8% для R1 в тестах по математике, программированию и научным дисциплинам уровня аспирантуры. При этом R1 работает в восемь раз быстрее конкурентов, используя в 30 раз меньше вычислительных ресурсов.

Льюис Танстолл из Hugging Face отметил важность прецедента: "Если мы не установим норму публичного обмена процессами разработки, будет очень сложно оценивать риски этих систем". Модель была загружена 10,9 миллиона раз, став самой популярной открытой моделью на платформе.

Subscribe to Eclibra

Don’t miss out on the latest issues. Sign up now to get access to the library of members-only issues.
jamie@example.com
Subscribe