Как меняется ландшафт рисков

Второй International AI Safety Report — крупнейшее международное исследование рисков универсальных AI-систем — вышел в феврале 2026. Команда из более чем 100 экспертов из 30+ стран под председательством Yoshua Bengio проанализировала, на что способны современные модели и какие угрозы несут.

Главное отличие от прошлогоднего отчёта — фокус на «возникающих рисках» (emerging risks). Это риски, которые появляются на границе возможностей моделей. Некоторые уже материализуются. Другие — пока неопределённы, но потенциально катастрофичны.

🎯
Три категории рисков:
1) Злоупотребления (misuse) — умышленное использование ИИ во вред
2) Сбои (malfunctions) — непредсказуемое поведение моделей
3) Системные риски — массовое внедрение меняет рынок труда и автономию людей

Отчёт фиксирует: универсальные AI-системы уже причиняют реальный вред. Генерированный контент, дипфейки, кибератаки с помощью ИИ — это не прогнозы, а текущая реальность. Но доказательная база эффективности мер защиты по-прежнему ограничена.

Ключевой парадокс: индустрия тратит миллиарды на рост возможностей, но исследование безопасности остаётся хронически недофинансированным. Отчёт не призывает к мораторию на развитие — он показывает факты, которые необходимо учитывать.

Биологические и химические угрозы

Глава 2.1.4 отчёта посвящена одному из самых тревожных направлений — использованию AI для разработки биологического и химического оружия.

Современные модели умеют:

  • Генерировать последовательности белков с заданными свойствами
  • Предсказывать структуру молекул
  • Рекомендовать эксперименты для создания новых веществ

Эти же способности применимы для создания токсинов. Genome language models способны проектировать функциональные вирусы. Проверки перед релизом моделей не могут исключить такую возможность.

«Продвинутые возможности AI-моделей уже позволяют спроектировать биологические агенты. Недостаточность защитных мер — критическая уязвимость»— International AI Safety Report 2026, гл. 2.1.4

Пример метамфетамина: в 2019 году канадские исследователи воспроизвели синтез запрещённого вещества, используя базовые LLM. С тех пор возможности выросли на порядки.

Киберугрозы: ИИ как инструмент атаки

Раздел 2.1.3 документирует рост AI-assisted кибератак. Уже сегодня:

  • Автоматизированная разведка — AI сканирует сети на уязвимости быстрее людей
  • Генерация эксплойтов — модели предлагают код для атак с учётом конкретных целей
  • Социальная инженерия — дипфейки голоса и персонализированные фишинговые кампании

Отчёт отмечает: криминальные группы и государственные акторы активно используют универсальные AI-системы. Кибератака требует множества шагов — от разведки до выполнения. AI автоматизирует каждый.

Эксперимент Anthropic: ИИ контролирует ИИ

14 апреля 2026 года Anthropic опубликовала результаты, которые меняют правила игры. Девять экземпляров Claude Opus 4.6, настроенных как Automated Alignment Researchers (AAR), за пять дней закрыли 97 % критического пробела в бенчмарке безопасности.

Для контекста: weak-to-strong supervision — фундаментальная задача. По мере роста способностей моделей важно обеспечить их безопасность и согласованность с человеческими намерениями. Ключевой вопрос: может ли слабая модель эффективно обучать более сильную без потери качества?

📊
Результаты эксперимента:
• Человеческие исследователи (7 дней): PGR = 0.23
• AAR (5 дней, автономно): PGR = 0.97 (+97 %)
• Стоимость: ~$18,000 — в разы ниже типичного исследовательского цикла

AAR нашли методы, которые перенеслись на другие домены: 0.94 PGR на математических задачах и 0.47 на кодировании — всё ещё вдвое выше человеческого базового уровня.

Это первый случай, когда AI-agents по безопасности превзошли людей на релевантном бенчмарке. Но Anthropic подчёркивает: человеческий контроль результатов остаётся обязательным для валидации.

Почему это прорыв

Традиционно исследование безопасности требовало:

  • Месяцев человеческого труда
  • Значительных вычислительных ресурсов
  • Дорогостоящих специалистов

AAR работают за $22 за час. При масштабировании до тысяч параллельных агентов стоимость падает драматически.

⚠️
Ограничения подхода:
• Человеческая валидация результатов остаётся обязательной
• Эксперимент не тестирует реальные biosecurity-сценарии
• Неизвестно, как AAR масштабируются на более сложные задачи

Governance: от добровольных практик к стандартам

2025 год — переломный. Количество компаний, опубликовавших Frontier AI Safety Frameworks, выросло более чем вдвое — с 5 до 12. Эти документы описывают, как компании планируют оценивать, мониторить и контролировать риски по мере роста возможностей моделей.

Но вариативность велика:

  • Разные определения порогов возможностей
  • Разные триггеры для действий
  • Разный охват рисков

Frontier AI Safety Frameworks остаются добровольными. Практики варьируются от поверхностных заявлений до детальных протоколов.

Регуляторный ландшафт

Несколько юрисдикций движутся в разных направлениях:

Евросоюз — AI Act вводит обязательную классификацию рисков. General-purpose AI в зоне внимания, но детали implementing acts продолжают уточняться.

США — фрагментированный подход. Executive orders существуют параллельно с отсутствием федерального законодательства. NIST AI Risk Management Framework — добровольный.

Китай — AI Safety Governance Framework 2.0 фокусируется на конкретных порогах возможностей и обязательном тестировании перед релизом.

Параметр EU AI Act US Approach Industry
Охват ◐ Частичный ◐ Добровольный ✗ Различается
Обязательность ✔ Юридически ✗ Добровольно ✗ Добровольно
Прозрачность ✔ Средняя ◐ Частичная ◐ Различается
Incident reporting ✔ Требуется ◐ В разработке ✗ Неравномерно

Сравнение подходов к AI governance, 2026

Рынок труда: системный риск

Глава 2.3.1 рассматривает влияние универсальных AI на занятость. Прогнозы варьируются:

  • В краткосрочной перспективе — расширение возможностей, а не замещение
  • В среднесрочной — трансформация ролей, а не исчезновение
  • В долгосрочной — неопределённость: сценарии от полной автоматизации до новых видов занятости

Ключевой вывод отчёта: экономические выгоды от AI будут концентрироваться у ранних последователей. Без координации политические последствия могут быть значительными.

Автономия: эрозия контроля

Глава 2.3.2 — возможно самая спекулятивная, но и самая важная. Вопрос: что происходит, когда AI-системы принимают решения без человеческого надзора?

Текущие тренды:

  • Автономные агенты — уже не просто отвечают на запросы, а выполняют многоступенчатые задачи
  • Использование инструментов — модели могут вызывать внешние API и функции
  • Память — долгосрочная память позволяет непрерывность опыта

Градиент автономии варьируется от полностью контролируемых систем до полностью автономных агентов. Governance не успевает за этим развитием.

Контроль: потеря управления

Глава 2.2.2 — наиболее неопределённая категория. Вопрос: может ли AI-система выйти из-под контроля?

Текущие опасения:

  • Некорректное определение целей — неправильно сформулированные цели могут привести к неожиданным последствиям
  • Возникающие способности — способности появляются непредсказуемо
  • Инструментальная конвергенция — различные цели могут привести к схожим нежелательным стратегиям

Отчёт подчёркивает: доказательная база здесь тонкая. Предсказания о «взлёте» остаются спекуляцией. Но игнорировать риски — не вариант.

Ключевые сигналы для отслеживания

📊
На что обратить внимание:
1) Успех или провал AAR на реальных biosecurity-бенчмарках
2) Примет ли какой-либо крупный игрок обязательные стандарты
3) Первый задокументированный случай AI-generated био-оружия
4) Государственное финансирование внешнего исследования безопасности ИИ

Что это значит для инженеров

Горизонт этого отчёта — 2026–2028. Ключевой вывод: разрыв между скоростью роста возможностей и скоростью governance увеличивается.

Для инженеров, работающих с AI:

  • Управление рисками становится частью разработки, а не внешним соответствием
  • Инструменты вроде AAR снижают стоимость исследования безопасности на порядки
  • Доказательная база эффективности мер защиты ограничена — осторожность оправдана

Отчёт не предлагает ответов. Он показывает, какие вопросы требуют внимания.

International AI Safety Report 2026
Официальный отчёт, февраль 2026. 30+ стран, 100+ экспертов под председательством Yoshua Bengio.

Primary source — основной документ, на который опирается анализ

Anthropic's AI Agents surpass human researchers
Эксперимент AAR: 97 % закрытие gap в safety benchmark за $18,000.

Event anchor — конкретный прорыв, меняющий ландшафт

International AI Safety Report 2026 — Carnegie Endowment
Аналитический разбор отчёта для policy audience.

Context — объяснение для policymakers