Google выпустила Gemini 3 — свою самую мощную модель ИИ с государством искусства в рассуждениях
Модель достигает 1501 Elo на LMArena (топ-рейтинг), 37.5% на Humanity's Last Exam без инструментов и 91.9% на GPQA Diamond (PhD-уровень наука)
Deep Think режим толкает производительность дальше: 41% на Humanity's Last Exam и 45.1% на ARC-AGI — это беспрецедентные результаты для сложного рассуждения
Google Gemini 3 как прорыв в фронтире моделей
17 ноября 2025 года Google официально выпустила Gemini 3, описав её как "самую интеллектуальную модель в мире". Это не просто инкрементальное обновление — это фундаментальный сдвиг в трёх областях, где ранее доминировали OpenAI и Anthropic: рассуждение, научный анализ и математическое решение проблем.
Gemini 3 была выпущена в два варианта: Gemini 3 Pro (доступна сейчас) и Gemini 3 Deep Think (мощнейший режим глубокого рассуждения, поступит позже). Обе версии лидируют на самых жёстких бенчмарках, которые используют исследователи для оценки моделей.
Состояние войны моделей: Gemini 3 vs GPT-5.2
Запуск Gemini 3 произошёл в контексте ускоряющейся конкуренции между Google и OpenAI. Несколько недель назад OpenAI запустила GPT-5.2 (с "кодом красным" для реагирования на угрозу Google). Теперь Google отвечает агрессивно.
Вот объективное сравнение на ключевых бенчмарках:
BENCHMARK СРАВНЕНИЕ: Gemini 3 vs GPT-5.2
REASONING (Рассуждение):
├─ LMArena Elo: Gemini 3 Pro (1501) vs GPT-5.2 (~1480)
├─ Humanity's Last Exam: Gemini 3 Pro (37.5%) vs GPT-5 Pro (31.64%)
├─ Deep Think Режим: Gemini 3 Deep Think (41.0%) — без аналога у GPT
SCIENCE (Наука):
├─ GPQA Diamond: Gemini 3 Deep Think (93.8%) vs GPT-5.2 (93.2%)
├─ Преимущество: Gemini 3 лучше в длинных цепочках рассуждений
MATHEMATICS (Математика):
├─ MathArena Apex: Gemini 3 (23.4%) vs GPT-5 (1.6%)
├─ Это +1,463% преимущество — совершенно новая разница
├─ Без инструментов (AIME): Gemini 3 (95.0%) vs GPT-5 (~71%)
├─ С инструментами: оба достигают 100%
MULTIMODAL (Мультимодальность):
├─ MMMU-Pro: Gemini 3 (81%) vs GPT-5 (~75%)
├─ ScreenSpot-Pro: Gemini 3 (72.7%) — UI понимание
├─ Video-MMMU: Gemini 3 (87.6%) — лучший результатСравнение Gemini 3 и GPT-5.2 на основных бенчмарках (ноябрь-декабрь 2025)
Для бизнеса это означает одно: Gemini 3 лучше решает сложные проблемы. Особенно в математике и научных рассуждениях.
Что особенного в Deep Think режиме
Gemini 3 Deep Think — это новый режим, который Google позиционирует как расширенное рассуждение. Модель тратит больше "времени" на раздумья перед ответом, создавая более длинные цепочки логики (10-15 шагов против 5-6 в других моделях).
Результат? Deep Think толкает производительность в недостижимые места:
Gemini 3 Deep Think достигает 41.0% на Humanity's Last Exam — это первый раз, когда любая модель превышает 40% на этом бенчмарке
Для контекста: Humanity's Last Exam содержит вопросы из магистерских и PhD-программ по математике, физике, истории и философии. 41% означает, что Gemini 3 решает почти половину PhD-уровня задач
Также 45.1% на ARC-AGI (с кодом) — мера способности решать совершенно новые типы задач
Бизнес-применение: где Gemini 3 меняет правила
Эти бенчмарки не просто цифры — они отражают способность моделей решать реальные бизнес-проблемы. Вот три области, где Gemini 3 даёт компании конкурентное преимущество:
1. Аналитика и стратегический анализ — компании используют LLM для анализа сложных документов (контракты, научные статьи, финансовые отчёты). Лучшее рассуждение Gemini 3 означает более точные выводы с меньшим количеством ошибок.
2. Научные исследования и разработка — фармацевтические компании, исследовательские институты и материаловедческие лабы используют LLM для гипотезообразования и анализа результатов. Gemini 3 показывает 91.9% на GPQA Diamond (PhD-уровень наука) — это прямо означает, что модель может быть "научным советником".
3. Программирование и инженерия — Google заявляет, что Gemini 3 "кодирует лучше, чем профессиональные инженеры". Это означает, что разработчики получают помощника, способного написать сложный код с меньшей необходимостью в проверке.
Компании, интегрирующие Gemini 3, могут ожидать: снижение времени анализа на 30-40% (через лучшие рассуждения), улучшение качества решений на 25-35% (через научное понимание), ускорение разработки на 20-25% (через кодирование)
Геополитический контекст: Google отвечает на Code Red OpenAI
Запуск Gemini 3 произошёл в контексте напряжённой гонки между Google и OpenAI. В ноябре OpenAI выпустила GPT-5.2 с внутренним меморандумом "Code Red" — призывом к компании перейти в режим максимальной конкуренции с Google. Это был сигнал инвесторам, что OpenAI воспринимает Google как серьёзную угрозу.
Выпуск Gemini 3 недели спустя показывает, что Google не намерена сдавать позиции. Более того, результаты Gemini 3 на бенчмарках предполагают, что Google может сейчас иметь небольшое преимущество в "guerre des raisonnements" (войне рассуждений).
Для инвесторов это означает, что AI капиталовложения в ближайшие 2-3 года будут оставаться в фокусе, так как обе компании борются за доминирование. Для предпринимателей это означает, что AI становится всё более "commoditized" — компании должны выбирать между Google и OpenAI, и выбор становится неочевидным.
Перспективы будущего: Кто выигрывает войну моделей?
Gemini 3 отмечает важный поворот в AI-индустрии. До сих пор OpenAI казалась неопровержимым лидером. Теперь Google демонстрирует, что может конкурировать на фронтире. Это означает:
Для компаний: Конкуренция приводит к снижению цен и улучшению качества. Компании больше не зависят от OpenAI — у них есть выбор.
Для разработчиков: API становятся более мощными, и выбор инструмента начинает зависеть от задачи (Google для научных рассуждений, OpenAI для языковой гибкости и т.д.).
Для инвесторов: AI-гонка ещё не завершена. Google имеет ресурсы и инфраструктуру, чтобы конкурировать с OpenAI бесконечно долго.
Узнать больше
Google Gemini 3 Official — Попробуйте Gemini 3 Pro в Google Search (AI Mode) или через Vertex AI API. Deep Think режим доступен для Google AI Ultra подписчиков.
Источники информации
Материал подготовлен на основе официального анонса Google (blog.google/products/gemini/gemini-3/), публикаций в 9to5Google, VentureBeat и TechCrunch, а также анализа бенчмарков из LMArena, GPQA Diamond и Humanity's Last Exam. Данные актуальны на 12 декабря 2025.