DeepSeek R1 попал на обложку Nature: прорыв в обучении ИИ с подкреплением
Методология DeepSeek R1 опубликована в Nature как первая рецензируемая работа о крупной языковой модели. Революционный подход с чистым обучением подкреплением стоил всего $294,000 против миллионов у конкурентов.
Китайская компания DeepSeek достигла исторического момента — методология их модели R1 была опубликована на обложке престижного журнала Nature, став первой крупной языковой моделью, прошедшей процесс научного рецензирования.
Ключевая инновация DeepSeek заключается в использовании "чистого обучения с подкреплением" вместо традиционного подхода с человеческими примерами. Модель самостоятельно изучает стратегии рассуждения, получая награды за правильные ответы, что кардинально снижает затраты на разработку.
Финансовая эффективность проекта поражает: обучение R1 обошлось всего в 294 000 долларов, что в десятки раз меньше затрат конкурентов. Добавив расходы на базовую модель (6 миллионов долларов), общая стоимость остается значительно ниже аналогичных западных проектов.
Модель демонстрирует выдающиеся результаты: 77,9% для R1-Zero и 79,8% для R1 в тестах по математике, программированию и научным дисциплинам уровня аспирантуры. При этом R1 работает в восемь раз быстрее конкурентов, используя в 30 раз меньше вычислительных ресурсов.
Льюис Танстолл из Hugging Face отметил важность прецедента: "Если мы не установим норму публичного обмена процессами разработки, будет очень сложно оценивать риски этих систем". Модель была загружена 10,9 миллиона раз, став самой популярной открытой моделью на платформе.