38,3 %. Год назад топовая модель правильно отвечала на 8,8 % вопросов из Humanity's Last Exam — теста, который составляли эксперты в своих областях, чтобы он не устарел быстро. По данным Stanford HAI 2026 AI Index, сегодня лучшие модели преодолели 38,3 %, а в апреле 2026 года некоторые перешагнули 50 %.
Прогресс реален. Но читать этот доклад только как сводку побед — ошибка.
Ключевые выводы
Прозрачность упала: индекс прозрачности базовых моделей снизился с 58 до 40. Компании, строящие самые мощные системы, раскрывают о них меньше всего.
Граница возможностей — зазубренная. Та же модель, которая побеждает на Олимпиаде по математике, правильно читает аналоговые часы лишь в 50,1 % случаев.
Что измерял Stanford и почему это важно
Ежегодный Stanford AI Index — девятое издание подряд, 423 страницы, девять глав. Его составляет Институт человекоцентрированного ИИ (HAI), без бюджета лабораторий и без PR-интересов. Правительства, корпорации, регуляторы используют именно его данные.
Доклад охватывает: технические бенчмарки, инвестиции, исследовательские публикации, занятость, образование, политику и общественное восприятие. Один источник, несколько точек зрения — это его главная ценность.
Радар возможностей: что растёт
Раздел технической производительности — самый плотный по цифрам. Разберём ключевые направления.
Автономное решение задач GitHub Issues
За один год — с 60 % до почти 100 % на SWE-bench Verified. Это реальные баги из реальных репозиториев, не синтетика. Модели уже работают в диапазоне, который раньше занимали джуниор-разработчики. · Stanford HAI 2026
Автономное управление компьютером
OSWorld тестирует агентов на реальных задачах в операционных системах — браузер, файлы, приложения. 12 % → 66 % за два года. До человеческого уровня остаётся 6 процентных пунктов. · Stanford HAI 2026
Научные вопросы PhD-уровня
GPQA Diamond — вопросы по химии, физике, биологии, требующие многошагового рассуждения. Человеческий эксперт — 81,2 %. Модели достигли 93 %. Химические задачи: модели уже лучше среднего учёного. · Stanford HAI 2026
Радар слабостей: что не растёт так же
Это центральная идея доклада. Называется «зазубренная граница» (jagged frontier).
Та же модель, которая побеждает на Олимпиаде по математике. Ровно 50 % — как подброшенная монета. Это не баг одной системы — это системное свойство архитектуры трансформеров, которые оптимизированы под токены, а не под зрительно-пространственное восприятие.
В программных симуляциях (RLBench) — 89,4 % успеха на задачах манипуляции. В реальном доме — 12 %. Зазор между предсказуемой лабораторией и непредсказуемым миром не закрывается быстро.
OSWorld — 66 %, но это значит, что треть структурированных задач по управлению компьютером агент не завершает. В продакшн-контексте треть ошибок — это не статистика, это инциденты.
Рэй Перро (Stanford HAI), соруководитель комитета AI Index, сформулировал прямо: у нас нет надёжного ИИ общего назначения. У нас есть ИИ, превосходящий человека в узких бенчмарках — и ненадёжный в других, иногда в ту же самую секунду разговора.
Конкурентный ландшафт: кто где
Arena Elo (март 2026 года) — наиболее живой рейтинг, основанный на предпочтениях живых пользователей. Пять организаций в одном пункте друг от друга: Anthropic 1503, xAI 1495, Google 1494, OpenAI 1481, Alibaba 1449, DeepSeek 1424.
| Организация | Arena Elo (март 2026) | Преимущество |
|---|---|---|
| Anthropic | 1503 | ✔ Лидер Elo |
| xAI | 1495 | ◐ Верхний эшелон |
| 1494 | ◐ Верхний эшелон | |
| OpenAI | 1481 | ◐ Верхний эшелон |
| Alibaba | 1449 | ◐ Верхний Китай |
| DeepSeek | 1424 | ◐ Догоняет |
Arena Elo Leaderboard, март 2026. Stanford HAI 2026 AI Index
Все шесть — в одном верхнем эшелоне. Конкуренция сместилась: уже не кто умнее, а кто надёжнее, дешевле и лучше работает под конкретные задачи.
США лидируют по числу топовых моделей и высокоцитируемым патентам. Китай — по объёму публикаций, общему числу патентов и установленным промышленным роботам: 295 000 штук в 2024 году против 34 200 у США.
Прозрачность: тревожный тренд
Foundation Model Transparency Index упал с 58 до 40 за год.
Конкретно: 80 из 95 наиболее значимых моделей вышли без обучающего кода. Google, Anthropic и OpenAI перестали раскрывать размеры датасетов и продолжительность обучения для последних флагманов. Stanford сформулировал вывод без смягчений: самые мощные модели теперь сообщают о себе меньше всего.
Это не просто академическая проблема. Когда модель галлюцинирует или встраивает предвзятость — вопрос о том, на каких данных её обучали, становится политическим и правовым.
«Мы не знаем многого о предсказании поведения моделей»— Йоланда Хил, Университет Южной Калифорнии, соавтор Stanford AI Index 2026
Инвестиции и занятость: два разных нарратива
$581,7 млрд частных инвестиций в ИИ по итогам 2025–начала 2026 года. Рекорд.
88 % организаций используют ИИ. Генеративный ИИ достиг 53 % глобального проникновения за три года — быстрее, чем персональный компьютер или интернет.
Занятость разработчиков в возрасте 22–25 лет упала на 20 % с 2022 года. Треть организаций ожидают сокращения штата. Публика видит не бенчмарки — она видит офферы. Или их отсутствие.
Как мы писали в апреле о переносе прогноза сверхразума с 2027 на 2034 год — расхождение между лабораторными метриками и реальными социальными последствиями растёт вместе с мощностью систем.
Бенчмарки-призраки: измерение, которое сломалось
За год бенчмарки по безопасности в кибербезопасности прошли путь: 15 % → 93 %.
Это не прогресс безопасности. Это сигнал о том, что тест устарел.
Stanford прямо фиксирует: оценки, рассчитанные оставаться актуальными годами, насыщаются за месяцы. Это сжимает окно, в котором бенчмарк полезен. Перро отметил, что 75 % точности на тесте юридического мышления ничего не говорит о производительности системы в реальной юридической практике.
Headline-бенчмарк — плохой прокси для конкретного деплоймента. Перед интеграцией модели: запустить эвал на своих реальных задачах, а не на сводных тестах вендора. Граница возможностей зазубрена именно в ту сторону, которую вы не ожидаете.
Прогноз Eclibra
Вероятность: 65 % — давление регуляторов ЕС (EU AI Act требует технической документации) совпадает с коммерческим интересом: конкуренция сместилась в надёжность, и прозрачность становится дифференциатором.
✅ Аргументы за
EU AI Act обязывает к технической документации для высокорисковых систем — enterprise-рынок подтолкнёт лабы к стандартизации. Arena-рейтинг разделяет модели уже не по общей мощности, а по задачам. Домен-специфичные оценки коммерчески выгодны. Stanford AI Index формирует нормативный консенсус — пять правительств цитировали его в регуляторных предложениях 2025 года. Критерии подтверждения: публичный «domain reliability card» хотя бы от одного из: Anthropic, OpenAI, Google до конца 2026 года.
❌ Аргументы против
Прозрачность упала с 58 до 40 — тренд противоположный, и у компаний есть конкурентный стимул его продолжать. Стандартизированный эвал-профиль требует координации между конкурентами. Доброволен — значит медленен. Критерии опровержения: ни одного публичного домен-специфичного отчёта от топ-3 лабораторий до конца 2027 года при продолжении роста индекса мощности.
Публикация Foundation Model Transparency Index 2027 — вырастет ли с 40 обратно к 50+
Обновления EU AI Act: включение требований к домен-специфичным эвалам
SWE-bench Verified и OSWorld: насыщение или новая версия тестов
Данные о занятости разработчиков 22–25 лет — продолжение падения или стабилизация
Сценарии развития
🟢 Оптимистичный сценарий (20 %)
Прозрачность восстанавливается: индустрия принимает стандарт — аналог «nutritional label» для моделей. Бенчмарки эволюционируют вместе с возможностями, а не отстают. Занятость адаптируется через переориентацию на надзорные и верификационные роли. Последствия: доверие к ИИ-системам растёт, enterprise-деплоймент ускоряется, регуляторное давление снижается.
🟡 Базовый сценарий (55 %)
Возможности продолжают расти, прозрачность остаётся низкой. Бенчмарки регулярно заменяются, но с задержкой. Инциденты случаются — публичные, с последствиями — и становятся основным двигателем отраслевых стандартов. Последствия: итеративное регулирование, неравномерный деплоймент, занятость перестраивается медленнее, чем возможности.
🔴 Пессимистичный сценарий (25 %)
Крупный публичный сбой агентной системы (финансовый, медицинский, правовой) приводит к резкому регуляторному торможению. Прозрачность закрепляется как коммерческая тайна. Общественное доверие обрушивается непропорционально масштабу инцидента. Последствия: deployment-паузы у крупных enterprise-клиентов, реакция рынка акций, ускоренное регулирование по модели GDPR — сначала в ЕС, затем в США.
Инсайт напоследок. Stanford не публикует рекомендации — только данные. Но данные говорят сами: у нас нет дефицита возможностей. У нас дефицит способности измерять их честно. И дефицит прозрачности у тех, кто эти возможности создаёт.
Бенчмарки устарели. Frontier-лаборатории закрылись. Общественное доверие — на исторически низком уровне.
Мощь растёт. Контроль — нет.
Единственный крупный независимый ежегодный аудит ИИ-индустрии без бюджета лабораторий.
Технически выверенная интерпретация без упрощений.
Исходные данные для самостоятельной проверки любого тезиса материала.
Обсуждение