Все 24 протестированные модели (ChatGPT, Claude, Gemini, DeepSeek) не способны надежно различать убеждения, знания и факты
Структурная слабость LLM создает риски в медицине, праве и журналистике — областях, где различие между мнением и фактом определяет качество решений
Stanford призывает tech-компании «срочно» улучшить модели до развертывания в high-stakes доменах — текущее состояние неприемлемо для критических применений
Команда Stanford University провела масштабный эксперимент, результаты которого опубликованы 3 ноября 2025 года в Nature Machine Intelligence: все современные большие языковые модели демонстрируют фундаментальную неспособность отличить убеждение от факта. Протестированы 24 LLM, включая флагманские версии ChatGPT, Claude, Gemini и DeepSeek, на массиве из 13 000 вопросов.
Исследователи оценивали способность моделей различать три категории: belief (субъективное убеждение), knowledge (обоснованное знание) и fact (объективная истина). Все протестированные системы провалили базовую задачу: не смогли последовательно идентифицировать ложные убеждения и утверждения.
Почему это критично для журналистики
Редакции активно внедряют LLM-инструменты для fact-checking, summarization и content generation. Stanford выявил структурную проблему: модели неспособны связывать knowledge с truth — они обрабатывают формулировку утверждения, а не его истинность.
«Языковые модели все глубже проникают в высокостейковые домены — право, медицину, журналистику, науку. Их способность различать убеждение и знание, факт и вымысел становится императивной», — отмечают авторы исследования. «Неспособность делать такие различия может ввести в заблуждение диагнозы, исказить судебные решения и усилить распространение дезинформации».
Pablo Haya Coll, исследователь из Computer Linguistics Laboratory Автономного университета Мадрида (не участвовал в исследовании), подчеркивает: «Эти находки обнажают структурную слабость языковых моделей — трудности в надежном различении субъективного убеждения и объективной истины в зависимости от формулировки утверждения. Такой недостаток имеет критические последствия в областях, где это различие существенно: праве, медицине, журналистике — где путаница между убеждением и знанием может привести к серьезным ошибкам в суждениях».
Что протестировали
Stanford применил систематический подход: 13 000 вопросов, сформулированных так, чтобы модель должна была идентифицировать, является ли утверждение belief, knowledge или fact. Тестировались актуальные версии моделей по состоянию на октябрь 2025 года.
Результат: ни одна модель не продемонстрировала надежного различения. Модели реагируют на синтаксис и семантическую структуру, но не на epistemological статус утверждения.
Журналист использует ChatGPT для проверки утверждения эксперта. Модель не может отличить «Эксперт X считает, что климатические изменения незначительны» (belief) от «Климатические изменения незначительны» (fact claim). Результат — контент, который представляет мнение как установленный факт.
Возможные решения и их цена
Dr. Coll предлагает потенциальное направление: тренировать модели быть более осторожными в ответах. Однако это создает trade-off: снижение вероятности hallucinations может уменьшить полезность систем.
Команда Stanford формулирует прямое требование к tech-компаниям: «срочно» улучшить модели перед развертыванием в high-stakes доменах. Текущее состояние технологии неприемлемо для критических применений.
Что это означает для newsrooms
Редакции должны пересмотреть workflows, где LLM используются для verification или fact-checking. Инструмент, неспособный различить убеждение и факт, не может выполнять функцию верификации — это не технический баг, а фундаментальное ограничение архитектуры.
Практические рекомендации для редакций:
- Не использовать LLM для fact-checking без человеческой верификации каждого claim
- Внедрять двухступенчатый workflow: LLM генерирует draft → журналист проверяет epistemological статус каждого утверждения
- Обучать staff распознавать разницу между belief-statements и fact-claims в AI-generated контенте
Stanford демонстрирует, что текущие LLM не готовы для autonomous fact-checking. Индустрия должна переключиться с hype о «AI-журналистах» на реалистичную роль: LLM как ассистенты, требующие экспертного надзора в каждом высокостейковом решении.
Источники
- Stanford University research team (2025). "Language models cannot reliably distinguish belief from knowledge and fact" — Nature Machine Intelligence, November 3, 2025
- The Independent (2025). "ChatGPT can't tell the difference between beliefs and facts" — Technology section analysis, November 3, 2025
- Pablo Haya Coll, Computer Linguistics Laboratory, Autonomous University of Madrid — Expert commentary on structural limitations of LLMs
Nature Machine Intelligence — рецензируемый журнал, публикующий исследования в области machine learning и AI. Полный текст исследования Stanford доступен в November 2025 issue.
Stanford HAI (Human-Centered AI Institute) — междисциплинарный центр, изучающий социальные и этические аспекты AI, включая применение в критических доменах.