Китайская компания DeepSeek достигла исторического момента — методология их модели R1 была опубликована на обложке престижного журнала Nature, став первой крупной языковой моделью, прошедшей процесс научного рецензирования.

Ключевая инновация DeepSeek заключается в использовании "чистого обучения с подкреплением" вместо традиционного подхода с человеческими примерами. Модель самостоятельно изучает стратегии рассуждения, получая награды за правильные ответы, что кардинально снижает затраты на разработку.

Финансовая эффективность проекта поражает: обучение R1 обошлось всего в 294 000 долларов, что в десятки раз меньше затрат конкурентов. Добавив расходы на базовую модель (6 миллионов долларов), общая стоимость остается значительно ниже аналогичных западных проектов.

Модель демонстрирует выдающиеся результаты: 77,9% для R1-Zero и 79,8% для R1 в тестах по математике, программированию и научным дисциплинам уровня аспирантуры. При этом R1 работает в восемь раз быстрее конкурентов, используя в 30 раз меньше вычислительных ресурсов.

Льюис Танстолл из Hugging Face отметил важность прецедента: "Если мы не установим норму публичного обмена процессами разработки, будет очень сложно оценивать риски этих систем". Модель была загружена 10,9 миллиона раз, став самой популярной открытой моделью на платформе.