Австралийские учёные разработали метод RAIS для обнаружения аудио-дипфейков с точностью 98,05%, который адаптируется к новым типам атак без полного переобучения модели
Технология критична для защиты голосовой биометрии и борьбы с кибермошенничеством: в 2025 году в Италии мошенники с помощью клонированного голоса министра обороны выманили €1 млн у бизнесменов
RAIS использует «вспомогательную разметку» для запоминания старых типов подделок при обучении на новых, решая проблему «катастрофического забывания» в нейросетях
Почему голос больше не доказательство
В начале 2025 года группа итальянских бизнесменов получила тревожные звонки. Голос министра обороны Италии просил срочно перевести €1 миллион — якобы в рамках секретной государственной операции. Некоторые руководители поверили и заплатили. Позже выяснилось: министр никогда не звонил. Его голос был клонирован искусственным интеллектом.
Аудио-дипфейки — искусственно созданные голосовые сообщения, неотличимые от реальных — стали критической угрозой кибербезопасности. Они используются для обхода биометрической аутентификации в банках, корпоративного шпионажа и дезинформации. По данным CSIRO (национальное научное агентство Австралии), технологии генерации голоса развиваются так быстро, что традиционные методы обнаружения «не успевают» за новыми типами атак.
Команда исследователей из CSIRO Data61, Университета Федерации Австралии и RMIT создала метод RAIS (Rehearsal with Auxiliary-Informed Sampling) — систему непрерывного обучения, которая распознаёт как старые, так и новые аудио-подделки с минимальной ошибкой 1,95%. Это первая технология, которая решает проблему «катастрофического забывания» — когда нейросеть, обучаясь на новых данных, теряет знания о предыдущих угрозах.
Как работает память нейросети
Классические детекторы дипфейков обучаются на конкретных примерах подделок. Но когда появляются новые методы генерации голоса (например, переход от WaveNet к моделям диффузии), старая модель их не распознаёт. Если её просто «дообучить» на новых данных, она забывает старые паттерны — это явление называется catastrophic forgetting.
Средняя ошибка: 1,95% на последовательности из 5 типов атак (лучший результат среди аналогов)
Размер памяти: Работает с малым буфером образцов (не требует хранения всех старых данных)
Адаптивность: Автоматически отбирает «репрезентативные» примеры старых атак для повторного обучения, используя скрытые признаки аудио, которые человек не слышит
Ключевая идея RAIS — использование вспомогательных меток (auxiliary labels). Это дополнительные характеристики аудио, которые описывают не только факт подделки («фейк/реальный»), но и скрытые особенности сигнала: частотный спектр, темпоральные паттерны, артефакты компрессии. Нейросеть создаёт эти метки автоматически и использует их для отбора разнообразных примеров в «память».
Мы хотим, чтобы системы обнаружения учились распознавать новые дипфейки без повторного обучения модели с нуля. Если просто дообучить модель на новых образцах, она забудет старые типы подделок. RAIS решает эту проблему, автоматически отбирая небольшой, но разнообразный набор прошлых примеров — включая скрытые аудио-характеристики, которые люди могут даже не заметить.— Доктор Кристен Мур, старший научный сотрудник CSIRO Data61
По результатам тестирования на бенчмарке ASVspoof 2019 (стандарт индустрии для оценки детекторов), RAIS превзошёл методы опыт-повтор (experience replay), регуляризацию весов и дистилляцию знаний. Код опубликован на GitHub под открытой лицензией, что позволяет любым разработчикам интегрировать технологию в свои системы.
От банков до редакций
Аудио-дипфейки угрожают не только частным лицам, но и критической инфраструктуре. Банки используют голосовую биометрию для подтверждения транзакций — если злоумышленник клонирует голос клиента, он может обойти защиту. Корпорации сталкиваются с фишинговыми атаками через голосовые сообщения от «топ-менеджеров». Медиа-редакции получают подделки интервью с политиками и экспертами.
Финансы: В 2019 году британская энергетическая компания потеряла $243 000 после звонка с клонированным голосом CEO (использован генератор на базе Lyrebird)
Политика: В 2024 году перед выборами в США распространились поддельные записи кандидатов с призывами не голосовать (источник: MIT Media Lab)
Медиа: Редакции Reuters и BBC внедряют системы верификации аудио для проверки источников перед публикацией
RAIS можно интегрировать в платформы голосовой аутентификации (например, в банковские приложения), системы модерации контента в социальных сетях, инструменты журналистской верификации. Для малого и среднего бизнеса критична низкая вычислительная нагрузка: модель работает на стандартных серверах без необходимости хранить терабайты обучающих данных.
Ограничения технологии: RAIS требует начальной базы данных известных типов атак. Если появится принципиально новый метод генерации голоса (например, квантовые генераторы), система потребует первичного дообучения. Кроме того, метод не защищает от атак «нулевого дня» — когда подделка создана алгоритмом, неизвестным исследователям.
Гонка вооружений продолжается
Эксперты CSIRO прогнозируют, что к 2027 году аудио-дипфейки станут неотличимы от реальных записей даже для экспертов-фоноскопистов. В ответ индустрия разрабатывает многоуровневые системы верификации: комбинация акустического анализа, контекстных проверок (совпадает ли содержание звонка с графиком спикера) и криптографических меток подлинности (стандарт C2PA для аудио).
2025-2026: Внедрение RAIS и аналогов в коммерческие платформы верификации (Pindrop, ValidSoft)
2026-2027: Принятие стандартов криптографической подписи аудио на уровне ЕС и США (аналог C2PA для изображений)
2027-2028: Появление квантово-устойчивых методов детекции для борьбы с генераторами нового поколения
Реалистичный сценарий: детекция дипфейков станет стандартной функцией операционных систем и браузеров (как сейчас антивирусы). Пессимистичный: технологии генерации обгонят детекцию, и общество перейдёт к модели «нулевого доверия» голосу — где любое аудио требует криптографического подтверждения источника.
Инструменты и ресурсы
RAIS на GitHub
Открытый код метода Rehearsal with Auxiliary-Informed Sampling для интеграции в системы обнаружения дипфейков. Включает предобученные модели и набор данных ASVspoof.
ASVspoof Challenge
Международное соревнование по обнаружению голосовых атак и дипфейков. Датасеты, метрики и результаты лучших решений с 2015 года.
Pindrop Security
Коммерческая платформа для защиты от голосового мошенничества и дипфейков в финансовом секторе. Используется Bank of America, Wells Fargo и другими.
Практическое применение
Для редакций и журналистов: Интегрируйте инструменты верификации аудио (Truly Media, InVID) в рабочий процесс перед публикацией материалов с голосовыми источниками. Создайте внутренний протокол проверки: запрос оригинальной записи + контекстная верификация (время, место, свидетели).
Для бизнеса: Если используете голосовую биометрию, добавьте второй фактор аутентификации (одноразовый код или биометрия лица). Обучите сотрудников распознавать признаки социальной инженерии: срочность, необычные запросы, давление на эмоции.
Для разработчиков: Изучите код RAIS на GitHub и протестируйте на собственных датасетах. Рассмотрите интеграцию с C2PA (Content Authenticity Initiative) для криптографической маркировки легитимного аудио.
Для регуляторов: Поддержите принятие стандартов обязательной маркировки синтетического аудио (аналог Европейского AI Act для deepfake disclosure). Финансируйте исследования детекции через гранты (пример: конкурс SPRIND Funke в Германии выделил €2.6 млн на решения по обнаружению дипфейков).
Источники информации
Материал подготовлен на основе публикации в Tech Xplore (11 ноября 2025), научной статьи Falih Gozi Febrinanto et al. «Rehearsal with Auxiliary-Informed Sampling for Audio Deepfake Detection» (arXiv, 2025, DOI: 10.48550/arxiv.2505.24486), официального релиза CSIRO Data61, данных конкурса ASVspoof Challenge и отчётов MIT Media Lab по синтетическому контенту. Технические детали верифицированы через открытый репозиторий GitHub проекта. Данные актуальны на 12 ноября 2025 года.