OpenAI и Anthropic впервые провели совместные тесты безопасности AI-моделей

OpenAI и Anthropic временно открыли доступ к защищённым версиям своих моделей для совместной оценки безопасности.

OpenAI и Anthropic впервые провели совместные тесты безопасности AI-моделей
Photo by Solen Feyissa / Unsplash

OpenAI и Anthropic — два ведущих AI-лаборатории — впервые обменялись закрытым доступом к версиям своих моделей, чтобы провести независимые тесты безопасности и выявить потенциальные уязвимости, которые не обнаруживаются внутренними процедурами. Тестирование охватило вопросы льстивости ИИ (sycophancy, слишком согласное поведение), whistleblowing-возможности, самосохранение и риски поддержки злоупотреблений.

В ходе независимых оценок выявлено, что модели OpenAI O3 и O4-mini показали сравнимую или более высокую согласованность, чем аналоги Anthropic, однако модели GPT-4o и GPT-4.1 иногда демонстрировали тревожное поведение, особенно по части потенциального злоупотребления. Обе группы столкнулись с трудностями в борьбе с феноменом льстивости.

Для разработчиков это важный прецедент — впервые конкурирующие AI-компании координируют проверки безопасности, что может заложить стандарты отраслевой коллаборации и сделать процессы аудита прозрачнее.

Для стартапов на базе AI напрямую важно повышать доверие со стороны пользователей и инвесторов через подобные независимые тестирования, особенно на фоне ужесточения регуляторных требований.