Когда фотография стоит больше, чем голос
FOICE (Face-to-Voice) — революционная технология, которая синтезирует голос человека исключительно на основе фотографии его лица, полностью обходя традиционные системы верификации
Все современные детекторы deepfake неэффективны против новой техники: на первой попытке система обманула voice-аутентификацию в 30% случаев, после подбора параметров — почти в 100%
Для журналистики и медиа это означает кризис доверия к аудиоконтенту: интервью, заявления источников, голосовые сообщения от политиков и должностных лиц больше нельзя считать верификацией личности
Почему это больше не научная фантастика
В традиционной модели deepfake вам нужен голос человека. Несколько фраз, несколько секунд аудио — и система может синтезировать голос с высокой точностью. Но у этого подхода была проблема: голосовые записи защищены лучше, чем фотографии. Найти видеозапись политика на YouTube — раз, а вот получить чистый голос для тренировки модели — намного сложнее.
FOICE меняет правила игры. Вместо голоса система использует фотографию лица. Она анализирует черты внешности — форму челюсти, структуру лица, даже микродвижения мышц — и «предсказывает», как этот человек должен звучать. Система обучена находить связи между физиономией и вокальными параметрами: высота голоса (pitch), тон, скорость речи.
Фотографии есть везде: в социальных сетях, на официальных сайтах, в газетах, в паспортах. По оценкам исследователей, каждый публичный человек может быть целью FOICE в течение часов, а не дней
Тестирование на реальных системах показало худший результат
Исследователи из CSIRO (Научное агентство Австралии) провели прямое тестирование FOICE против WeChat Voiceprint — одной из самых распространённых систем голосовой аутентификации в мире. Результаты отрезвляющие:
- 30% успешных взломов на первой попытке — система приняла синтетический голос за оригинальный
- Почти 100% успех после подбора параметров — несколько попыток с разными вариантами синтеза, и система поддалась полностью
- Для сравнения: традиционные deepfake обычно требуют реальных образцов голоса и дают успех в 50-70% случаев
Но самое важное — это результаты тестирования детекторов. Исследователи взяли 12 популярных инструментов для обнаружения синтетических голосов и проверили их против FOICE:
На базовом уровне все 12 инструментов не могли распознать FOICE. Некоторые ошибочно помечали настоящие голоса как поддельные, другие пропускали 70-80% синтетических образцов
Причина простая: детекторы обучены на patterns (паттернах) старых методов синтеза. FOICE создаёт совершенно другие паттерны, которые эти системы просто не видели
После переобучения на образцах FOICE точность улучшилась. Но произошло что-то хуже: производительность на других типах deepfake упала. Один из лучших детекторов потерял 92% точности, упав с 40% до 4% при тестировании на других методах синтеза.
Это классический компромисс машинного обучения: узкоспециализированная система хорошо ловит один тип угрозы, но становится слепой к остальным.
Что это значит для журналистики
Для редакций это создаёт уникальный вызов:
- Интервью больше не верификация — даже если вы берёте интервью онлайн и слышите голос источника, это может быть синтез с фотографии из его соцсети
- Телефонные звонки компрометированы — политик, звоню вам и комментирует новость? Может быть и не политик
- Голосовые сообщения теряют доверие — WhatsApp, Telegram, Signal больше не гарантируют подлинность источника
- Архивные кадры становятся опасны — видео с речью политика 20-летней давности можно перемонтировать с синтезированным голосом и сделать убедительным
1. Многоканальная верификация: Никогда не полагайтесь только на голос. Требуйте видео в реальном времени (посредством защищённого видеовызова), письменные подтверждения по защищённым каналам (email с подписью, SMS с известного номера)
2. Физическое присутствие: Для критичных историй (политика, финансов, безопасности) встречайтесь с источниками лично — это пока единственная надёжная верификация
3. Знакомство с голосом источника: Если вы регулярно беседуете с источником, вы начинаете распознавать его особенности речи — паузы, ударения, особые фразы. Синтезированный голос обычно более монотонен
4. Разметка и прозрачность: Когда вы используете аудио, обозначайте его источник: «Интервью было взято по видеозвонку в Zoom», «Голосовое сообщение получено через WhatsApp». Это помогает читателям понять уровень верификации
Гонка между созданием и обнаружением
Это классическая дилемма кибербезопасности: создатели новых технологий синтеза работают быстрее, чем защитники.
Исследователи называют это необходимостью перейти от реактивной защиты к проактивной. Вместо того чтобы каждый раз, когда появляется новый метод, переобучивать детекторы, нужно создать системы, которые могут распознавать любые неизвестные паттерны синтеза.
Но это долгосрочное решение. А сейчас индустрия находится в уязвимости, которая может продлиться годы.
Более широкий контекст
FOICE — не единственная угроза. В 2025 году появились и другие технологи синтеза:
- Sora 2 (OpenAI) позволяет создавать киноподобные видео за минуты, теперь это может быть использовано для видеосвидетельств
- Deepfake детекторы ослабели — по данным исследования P2V, точность лучших инструментов упала на 43%, когда их протестировали на реальных, загрязненных аудиоданных (с фоновым шумом, сжатием)
- Люди не могут отличить — исследование 2023 года показало, что обычные люди определяют синтетические голоса правильно только в 50% случаев (то есть примерно как случайный выбор)
Это создаёт перфектный шторм: технология становится лучше, детекторы отстают, а люди неспособны отличить поддельное от настоящего.
Что отслеживать в ближайшие месяцы
- Регуляторные ответы: Европейский регламент об ИИ, Закон о защите авторских прав ЕС и аналогичные инициативы в других странах будут требовать разметки синтетического контента. Это может стать первой линией защиты.
- Платформы добавят верификацию: YouTube, TikTok, Telegram начнут требовать дополнительных данных для публикации аудио от политиков и официальных лиц
- Блокчейн и C2PA стандарты: Coalition for Content Provenance and Authenticity (C2PA) работает над стандартом, который позволит отследить историю медиафайла — кто его создал, когда, какие изменения были внесены
- Новые детекторы будут выпущены ежемесячно, но каждый будет быстро устаревать перед новыми техниками
Трёхуровневый сценарий развития
Оптимистичный сценарий (12-18 месяцев): Социальные сети вводят обязательную разметку синтетического контента, редакции внедряют многоканальную верификацию, законодатели запрещают FOICE и похожие техники. Доверие к аудиоконтенту стабилизируется на новом, более низком уровне.
Реалистичный сценарий (18-36 месяцев): Технология продолжает развиваться, детекторы становятся лучше, но всегда отстают. Редакции переходят на комбинированную верификацию (видео + письменные подтверждения), публика становится более скептичной ко всему аудиоконтенту. Появляются первые успешные судебные дела о распространении deepfake-интервью.
Пессимистичный сценарий (36+ месяцев): FOICE становится настолько безопасным и доступным, что масса-маркетизируется (как сейчас Sora). Верификация аудио становится почти невозможной. Компании переходят на проверку личности через биометрию и физическое присутствие для всех критичных коммуникаций.
Но в любом сценарии эпоха, когда голос сам по себе был верификацией, закончилась.
Узнать больше
CSIRO Research — Face-to-Voice Deepfakes (октябрь 2025): Полное исследование, которое впервые продемонстрировало эффективность FOICE против real-world систем верификации. HelpNetSecurity — исходный англоязычный источник.
P2V Dataset (август 2025): Масштабное исследование обнаружения deepfake голосов в реальных условиях. Авторы протестировали 22 детектора на реальном аудио с фоновым шумом и сжатием — результаты на 43% хуже, чем на чистых данных.
C2PA Standard: Coalition for Content Provenance and Authenticity разрабатывает стандарт, который позволит отследить источник и историю медиафайла. Поддерживается Google, Microsoft, Adobe.
RTVE-UGR Chair (IVERES Project): Испанский проект разработки инструментов для журналистов по верификации аудиоконтента. Включает web-инструмент и датасеты для обучения.
Источники информации
Материал подготовлен на основе исследования CSIRO (Australia's national science agency), опубликованного в октябре 2025 года; данных из Columbia Journalism Review о детекторах deepfake; отчётов Perturbed Public Voices (P2V) об эффективности детекции голосовых deepfake в реальных условиях; анализа RTVE-UGR Chair по верификации аудио для журналистов; стандартов C2PA для отслеживания происхождения медиа. Данные актуальны на 31 октября 2025 года.