🎯
Главное

ИИ-модель Delphi-2M прогнозирует риски более 1200 заболеваний на срок до 20 лет вперёд с точностью 76%, сравнимой с узкоспециализированными инструментами.

Модель обучена на данных 400 000 участников UK Biobank и валидирована на 1,9 млн записей из Дании без дополнительного обучения.

Технология открывает путь к персонализированной превентивной медицине и прогнозированию потребностей систем здравоохранения на популяционном уровне.

Прогноз здоровья как прогноз погоды

Европейские исследователи из Европейской лаборатории молекулярной биологии (EMBL), Немецкого центра исследований рака (DKFZ) и Копенгагенского университета представили генеративную ИИ-модель, способную предсказывать риски развития более 1200 заболеваний за десятилетие до их проявления. Модель Delphi-2M, опубликованная в журнале Nature 17 сентября 2025 года, анализирует медицинскую историю пациента подобно тому, как языковые модели обрабатывают текст, выявляя закономерности в последовательности диагнозов.

В отличие от существующих алгоритмов, которые фокусируются на оценке рисков одного конкретного заболевания, Delphi-2M одновременно моделирует траектории развития всего спектра патологий, охваченных Международной классификацией болезней (МКБ-10). Модель предоставляет вероятностные оценки подобно метеопрогнозу: вместо «70% вероятность дождя» она показывает, например, вероятность развития диабета 2 типа в течение следующих 5 лет.

💡
Ключевая особенность

Delphi-2M не просто оценивает вероятность развития болезни, но и прогнозирует когда именно она может проявиться — от года до двух десятилетий в будущем.

Технология: трансформеры для медицинских данных

Delphi-2M построена на модифицированной архитектуре GPT-2 — той же технологии, что лежит в основе ChatGPT. Как объясняет Мориц Герстунг из DKFZ, модель обучается «грамматике» медицинских событий: она анализирует последовательности диагнозов, образ жизни и демографические данные, выявляя паттерны их взаимосвязей во времени.

Для адаптации языковой модели к медицинским данным исследователи внесли ключевые архитектурные изменения. Стандартное позиционное кодирование заменили на непрерывное кодирование по возрасту, что позволяет обрабатывать события, происходящие в любой момент жизни человека. Также добавили вторую предсказательную головку модели: первая предсказывает следующее заболевание, а вторая — временной интервал до его возникновения.

Медицинские события часто следуют предсказуемым паттернам. Наша ИИ-модель изучает эти паттерны и может прогнозировать будущие исходы для здоровья.— Том Фицджеральд, старший научный сотрудник EMBL-EBI

Каждое медицинское событие — диагноз, показатель индекса массы тела, статус курения или потребления алкоголя — обрабатывается как «токен» в последовательности. Модель учится улавливать сложные многофакторные взаимосвязи между конкурирующими заболеваниями, факторами риска (курение, избыточный вес) и демографическими характеристиками (пол, возраст).

Обучение и валидация

Delphi-2M обучалась на анонимизированных данных примерно 400 000 участников проекта UK Biobank — крупнейшего биомедицинского хранилища Великобритании, содержащего генетическую информацию, результаты визуализации и детальные медицинские записи добровольцев.

Критически важным этапом стала внешняя валидация: модель протестировали на данных 1,9 миллиона пациентов из Национального регистра Дании — без какого-либо дообучения или изменения параметров. Несмотря на различия систем здравоохранения и популяций, Delphi-2M показала высокую обобщающую способность с сохранением точности прогнозов.

Точность прогнозов: сравнение с существующими моделями

На внутренних данных UK Biobank модель достигла средней площади под ROC-кривой (AUC) 0,76 для прогнозирования более 1000 заболеваний одновременно. Для 97% всех болезней точность значительно превышает случайное угадывание, что подтверждает существование устойчивых предсказуемых паттернов.

При валидации на датских данных средний показатель AUC составил 0,67 — незначительное снижение, демонстрирующее устойчивость модели к различиям в популяциях и системах регистрации данных.

📊
Сравнение с узкоспециализированными моделями

Сердечно-сосудистые заболевания: Delphi-2M достигла AUC 0,70 против 0,69 у AutoPrognosis и 0,71 у QRisk — инструмента, широко используемого в клинической практике.

Деменция: AUC 0,81, сравнимо с UK Biobank Dementia Risk Score (UKBDRS).

Смертность: AUC 0,97 — исключительно высокая точность прогнозирования смерти.

Особенно эффективна модель для заболеваний с чёткими и последовательными паттернами прогрессии: определённые виды рака, сердечно-сосудистые патологии, диабет 2 типа, респираторные заболевания и сепсис. Для состояний с высокой вариабельностью — психические расстройства, осложнения беременности или редкие врождённые заболевания — надёжность прогнозов ниже.

Применение в клинике и системах здравоохранения

Раннее выявление и превентивная медицина

Delphi-2M может идентифицировать пациентов с высоким риском развития заболеваний за годы до появления симптомов. Это открывает возможности для ранних профилактических вмешательств: изменения образа жизни, медикаментозной профилактики или более частого мониторинга состояния здоровья у людей из группы риска.

Вы приходите на приём, а врач уже пользуется такими инструментами и говорит: «Вот четыре главных риска в вашем будущем, и вот две вещи, которые можете сделать, чтобы это изменить».— Юэн Бирни, временно исполняющий обязанности исполнительного директора EMBL

Планирование ресурсов здравоохранения

На популяционном уровне Delphi-2M позволяет прогнозировать, сколько людей в определённом регионе вероятно столкнутся с конкретными хроническими заболеваниями в ближайшие годы. Органы здравоохранения могут использовать эти данные для планирования бюджетов, распределения ресурсов и развёртывания профилактических программ.

Например, если модель прогнозирует рост числа случаев хронической болезни почек в определённой возрастной когорте через 5-7 лет, система здравоохранения может заблаговременно подготовить инфраструктуру диализных центров и обучить персонал.

Оптимизация скрининговых программ

Модель может повысить эффективность программ скрининга, фокусируя внимание на людях с наибольшими рисками. Вместо массовых скринингов всей популяции можно проводить целевые обследования среди групп высокого риска, что снижает затраты и повышает выявляемость заболеваний на ранних стадиях.

⚠️
Важное ограничение

Delphi-2M пока не готова к непосредственному применению в клинической практике. Модель требует дополнительной валидации, интеграции в рабочие процессы здравоохранения и решения этических вопросов.

Ограничения и этические вопросы

Смещения в данных обучения

UK Biobank содержит данные преимущественно от людей среднего возраста, европейского происхождения, с более высоким уровнем дохода и приверженностью здоровому образу жизни. Пожилые люди, молодёжь и этнические меньшинства представлены недостаточно. Соответственно, прогнозы модели для этих групп могут быть менее точными.

Без переобучения на более разнообразных данных модель рискует усилить существующее неравенство в здравоохранении, предоставляя менее надёжные прогнозы для недостаточно представленных популяций.

Вероятность, а не судьба

Delphi-2M предоставляет вероятностные оценки, а не абсолютные предсказания. Прогноз 40% риска развития рака не означает, что заболевание обязательно возникнет. Прогнозы становятся менее надёжными с увеличением временного горизонта, и пациенты должны понимать: это инструмент для информирования решений о профилактике, а не определение неизбежного будущего.

Право не знать

Как отмечает Роберт Ранич, эксперт по медицинской этике, «этически и юридически люди имеют право не знать — никто не должен жить в страхе возможного заболевания». Информированное согласие при использовании подобных инструментов становится критически важным.

Синтетические данные и конфиденциальность

Одной из наиболее инновационных возможностей Delphi-2M является способность генерировать синтетические траектории здоровья — полностью искусственные медицинские истории, статистически подобные реальным пациентам, но не раскрывающие персональную информацию.

Исследователи обучили новую версию модели исключительно на синтетических данных, сгенерированных Delphi-2M. Эта «модель, обученная на синтетике», достигла AUC 0,74 — всего на три процентных пункта ниже оригинальной. Это открывает мощный путь для разработки ИИ-инструментов в медицине при минимизации рисков для конфиденциальности пациентов.

Синтетические данные позволяют исследователям изучать долгосрочные взаимодействия заболеваний — например, как ожирение влияет на риск развития рака через десятилетия — без доступа к реальным медицинским записям.

Будущее развитие и интеграция данных

Том Фицджеральд и его команда активно работают над интеграцией дополнительных типов данных в Delphi-2M: биомаркеры, генотипы и записи о назначенных препаратах. В версиях модели с интегрированными биомаркерами наблюдается улучшение производительности для большинства заболеваний, особенно метаболических состояний.

🔬
Перспективы интеграции генетических данных

Добавление полигенных шкал риска немного улучшает производительность модели со временем. Перспектива заключается в моделировании базового генетического риска на протяжении всей жизни человека или популяции, отслеживая, как и когда он проявляется в здоровье.

Исследователи также работают над валидацией модели на данных из других стран для повышения точности прогнозирования и расширения области применения на более разнообразные популяции.

От исследования к клинической реальности

Несмотря на впечатляющие результаты, путь от исследовательской модели до клинического инструмента займёт несколько лет. Необходимы дальнейшие валидации на разнообразных популяциях, оценка надёжности в реальных условиях и интеграция в существующие рабочие процессы медицинских учреждений.

Регуляторные органы, такие как FDA в США, только начинают разбираться с регулированием адаптивных ИИ-систем в здравоохранении. Вопросы ответственности, прозрачности решений и защиты от алгоритмических смещений остаются открытыми.

Тем не менее, Delphi-2M демонстрирует фундаментальный сдвиг в подходе к прогнозированию здоровья: от фрагментированных моделей для отдельных заболеваний к комплексным системам, способным моделировать всю траекторию здоровья человека на десятилетия вперёд.

Это начало новой эры понимания здоровья человека и течения болезней. Генеративные модели могут однажды помочь персонализировать лечение и предвидеть потребности в медицинской помощи в масштабе.— Мориц Герстунг, руководитель отдела искусственного интеллекта и данных в медицине, DKFZ

Практические рекомендации

Для руководителей систем здравоохранения

Рассмотреть возможность участия в пилотных проектах по валидации подобных моделей на региональных данных.

Начать подготовку инфраструктуры для интеграции ИИ-инструментов прогнозирования в процессы планирования ресурсов.

Инвестировать в обучение медицинского персонала интерпретации вероятностных прогнозов и их использования в принятии клинических решений.
Для инвесторов в biotech и healthtech

Отслеживать компании, разрабатывающие клинически валидированные версии генеративных моделей для прогнозирования здоровья.

Оценивать стартапы, работающие над решениями для интеграции подобных моделей в существующие электронные медицинские карты.

Обратить внимание на проекты, фокусирующиеся на снижении алгоритмических смещений и валидации на разнообразных популяциях.
Для исследователей

Использовать открытый код Delphi-2M (доступен на GitHub) и синтетические данные для собственных исследований взаимодействий заболеваний.

Подавать заявки на доступ к данным UK Biobank для разработки улучшенных версий модели с интеграцией дополнительных данных.

Участвовать в мультицентровых исследованиях для валидации моделей на различных популяциях и системах здравоохранения.

Узнать больше

Оригинальная публикация в Nature

Полный текст исследования "Learning the natural history of human disease with generative transformers" с техническими деталями архитектуры и методологии.

Читать статью

Открытый код на GitHub

Репозиторий с кодом модели Delphi-2M, обучающими скриптами и синтетическими данными для экспериментов.

Перейти на GitHub

UK Biobank

Крупнейший биомедицинский ресурс с данными 500 000 участников. Доступ для исследователей по заявке.

Узнать о доступе

Материал подготовлен на основе публикации в журнале Nature (DOI: 10.1038/s41586-025-09529-3), официальных пресс-релизов EMBL, DKFZ и Копенгагенского университета, статей в Bio-IT World, BBC News, The Guardian, Nature News, Science Alert, Diagnostics World News, а также технических материалов из репозитория GitHub проекта Delphi. Данные актуальны на 23 октября 2025 года.

Источники