ИИ-модель Delphi-2M предсказывает 1200+ заболеваний на 10 лет вперёд

Европейские учёные представили ИИ-модель Delphi-2M, способную прогнозировать риски более 1200 заболеваний на срок до 20 лет. Модель обучена на данных UK Biobank и валидирована на 1,9 млн пациентов из Дании.

🎯
Главное

ИИ-модель Delphi-2M прогнозирует риски более 1200 заболеваний на срок до 20 лет вперёд с точностью 76%, сравнимой с узкоспециализированными инструментами.

Модель обучена на данных 400 000 участников UK Biobank и валидирована на 1,9 млн записей из Дании без дополнительного обучения.

Технология открывает путь к персонализированной превентивной медицине и прогнозированию потребностей систем здравоохранения на популяционном уровне.

Прогноз здоровья как прогноз погоды

Европейские исследователи из Европейской лаборатории молекулярной биологии (EMBL), Немецкого центра исследований рака (DKFZ) и Копенгагенского университета представили генеративную ИИ-модель, способную предсказывать риски развития более 1200 заболеваний за десятилетие до их проявления. Модель Delphi-2M, опубликованная в журнале Nature 17 сентября 2025 года, анализирует медицинскую историю пациента подобно тому, как языковые модели обрабатывают текст, выявляя закономерности в последовательности диагнозов.

В отличие от существующих алгоритмов, которые фокусируются на оценке рисков одного конкретного заболевания, Delphi-2M одновременно моделирует траектории развития всего спектра патологий, охваченных Международной классификацией болезней (МКБ-10). Модель предоставляет вероятностные оценки подобно метеопрогнозу: вместо «70% вероятность дождя» она показывает, например, вероятность развития диабета 2 типа в течение следующих 5 лет.

💡
Ключевая особенность

Delphi-2M не просто оценивает вероятность развития болезни, но и прогнозирует когда именно она может проявиться — от года до двух десятилетий в будущем.

Технология: трансформеры для медицинских данных

Delphi-2M построена на модифицированной архитектуре GPT-2 — той же технологии, что лежит в основе ChatGPT. Как объясняет Мориц Герстунг из DKFZ, модель обучается «грамматике» медицинских событий: она анализирует последовательности диагнозов, образ жизни и демографические данные, выявляя паттерны их взаимосвязей во времени.

Для адаптации языковой модели к медицинским данным исследователи внесли ключевые архитектурные изменения. Стандартное позиционное кодирование заменили на непрерывное кодирование по возрасту, что позволяет обрабатывать события, происходящие в любой момент жизни человека. Также добавили вторую предсказательную головку модели: первая предсказывает следующее заболевание, а вторая — временной интервал до его возникновения.

Медицинские события часто следуют предсказуемым паттернам. Наша ИИ-модель изучает эти паттерны и может прогнозировать будущие исходы для здоровья.— Том Фицджеральд, старший научный сотрудник EMBL-EBI

Каждое медицинское событие — диагноз, показатель индекса массы тела, статус курения или потребления алкоголя — обрабатывается как «токен» в последовательности. Модель учится улавливать сложные многофакторные взаимосвязи между конкурирующими заболеваниями, факторами риска (курение, избыточный вес) и демографическими характеристиками (пол, возраст).

Обучение и валидация

Delphi-2M обучалась на анонимизированных данных примерно 400 000 участников проекта UK Biobank — крупнейшего биомедицинского хранилища Великобритании, содержащего генетическую информацию, результаты визуализации и детальные медицинские записи добровольцев.

Критически важным этапом стала внешняя валидация: модель протестировали на данных 1,9 миллиона пациентов из Национального регистра Дании — без какого-либо дообучения или изменения параметров. Несмотря на различия систем здравоохранения и популяций, Delphi-2M показала высокую обобщающую способность с сохранением точности прогнозов.

Точность прогнозов: сравнение с существующими моделями

На внутренних данных UK Biobank модель достигла средней площади под ROC-кривой (AUC) 0,76 для прогнозирования более 1000 заболеваний одновременно. Для 97% всех болезней точность значительно превышает случайное угадывание, что подтверждает существование устойчивых предсказуемых паттернов.

При валидации на датских данных средний показатель AUC составил 0,67 — незначительное снижение, демонстрирующее устойчивость модели к различиям в популяциях и системах регистрации данных.

📊
Сравнение с узкоспециализированными моделями

Сердечно-сосудистые заболевания: Delphi-2M достигла AUC 0,70 против 0,69 у AutoPrognosis и 0,71 у QRisk — инструмента, широко используемого в клинической практике.

Деменция: AUC 0,81, сравнимо с UK Biobank Dementia Risk Score (UKBDRS).

Смертность: AUC 0,97 — исключительно высокая точность прогнозирования смерти.

Особенно эффективна модель для заболеваний с чёткими и последовательными паттернами прогрессии: определённые виды рака, сердечно-сосудистые патологии, диабет 2 типа, респираторные заболевания и сепсис. Для состояний с высокой вариабельностью — психические расстройства, осложнения беременности или редкие врождённые заболевания — надёжность прогнозов ниже.

Применение в клинике и системах здравоохранения

Раннее выявление и превентивная медицина

Delphi-2M может идентифицировать пациентов с высоким риском развития заболеваний за годы до появления симптомов. Это открывает возможности для ранних профилактических вмешательств: изменения образа жизни, медикаментозной профилактики или более частого мониторинга состояния здоровья у людей из группы риска.

Вы приходите на приём, а врач уже пользуется такими инструментами и говорит: «Вот четыре главных риска в вашем будущем, и вот две вещи, которые можете сделать, чтобы это изменить».— Юэн Бирни, временно исполняющий обязанности исполнительного директора EMBL

Планирование ресурсов здравоохранения

На популяционном уровне Delphi-2M позволяет прогнозировать, сколько людей в определённом регионе вероятно столкнутся с конкретными хроническими заболеваниями в ближайшие годы. Органы здравоохранения могут использовать эти данные для планирования бюджетов, распределения ресурсов и развёртывания профилактических программ.

Например, если модель прогнозирует рост числа случаев хронической болезни почек в определённой возрастной когорте через 5-7 лет, система здравоохранения может заблаговременно подготовить инфраструктуру диализных центров и обучить персонал.

Оптимизация скрининговых программ

Модель может повысить эффективность программ скрининга, фокусируя внимание на людях с наибольшими рисками. Вместо массовых скринингов всей популяции можно проводить целевые обследования среди групп высокого риска, что снижает затраты и повышает выявляемость заболеваний на ранних стадиях.

⚠️
Важное ограничение

Delphi-2M пока не готова к непосредственному применению в клинической практике. Модель требует дополнительной валидации, интеграции в рабочие процессы здравоохранения и решения этических вопросов.

Ограничения и этические вопросы

Смещения в данных обучения

UK Biobank содержит данные преимущественно от людей среднего возраста, европейского происхождения, с более высоким уровнем дохода и приверженностью здоровому образу жизни. Пожилые люди, молодёжь и этнические меньшинства представлены недостаточно. Соответственно, прогнозы модели для этих групп могут быть менее точными.

Без переобучения на более разнообразных данных модель рискует усилить существующее неравенство в здравоохранении, предоставляя менее надёжные прогнозы для недостаточно представленных популяций.

Вероятность, а не судьба

Delphi-2M предоставляет вероятностные оценки, а не абсолютные предсказания. Прогноз 40% риска развития рака не означает, что заболевание обязательно возникнет. Прогнозы становятся менее надёжными с увеличением временного горизонта, и пациенты должны понимать: это инструмент для информирования решений о профилактике, а не определение неизбежного будущего.

Право не знать

Как отмечает Роберт Ранич, эксперт по медицинской этике, «этически и юридически люди имеют право не знать — никто не должен жить в страхе возможного заболевания». Информированное согласие при использовании подобных инструментов становится критически важным.

Синтетические данные и конфиденциальность

Одной из наиболее инновационных возможностей Delphi-2M является способность генерировать синтетические траектории здоровья — полностью искусственные медицинские истории, статистически подобные реальным пациентам, но не раскрывающие персональную информацию.

Исследователи обучили новую версию модели исключительно на синтетических данных, сгенерированных Delphi-2M. Эта «модель, обученная на синтетике», достигла AUC 0,74 — всего на три процентных пункта ниже оригинальной. Это открывает мощный путь для разработки ИИ-инструментов в медицине при минимизации рисков для конфиденциальности пациентов.

Синтетические данные позволяют исследователям изучать долгосрочные взаимодействия заболеваний — например, как ожирение влияет на риск развития рака через десятилетия — без доступа к реальным медицинским записям.

Будущее развитие и интеграция данных

Том Фицджеральд и его команда активно работают над интеграцией дополнительных типов данных в Delphi-2M: биомаркеры, генотипы и записи о назначенных препаратах. В версиях модели с интегрированными биомаркерами наблюдается улучшение производительности для большинства заболеваний, особенно метаболических состояний.

🔬
Перспективы интеграции генетических данных

Добавление полигенных шкал риска немного улучшает производительность модели со временем. Перспектива заключается в моделировании базового генетического риска на протяжении всей жизни человека или популяции, отслеживая, как и когда он проявляется в здоровье.

Исследователи также работают над валидацией модели на данных из других стран для повышения точности прогнозирования и расширения области применения на более разнообразные популяции.

От исследования к клинической реальности

Несмотря на впечатляющие результаты, путь от исследовательской модели до клинического инструмента займёт несколько лет. Необходимы дальнейшие валидации на разнообразных популяциях, оценка надёжности в реальных условиях и интеграция в существующие рабочие процессы медицинских учреждений.

Регуляторные органы, такие как FDA в США, только начинают разбираться с регулированием адаптивных ИИ-систем в здравоохранении. Вопросы ответственности, прозрачности решений и защиты от алгоритмических смещений остаются открытыми.

Тем не менее, Delphi-2M демонстрирует фундаментальный сдвиг в подходе к прогнозированию здоровья: от фрагментированных моделей для отдельных заболеваний к комплексным системам, способным моделировать всю траекторию здоровья человека на десятилетия вперёд.

Это начало новой эры понимания здоровья человека и течения болезней. Генеративные модели могут однажды помочь персонализировать лечение и предвидеть потребности в медицинской помощи в масштабе.— Мориц Герстунг, руководитель отдела искусственного интеллекта и данных в медицине, DKFZ

Практические рекомендации

Для руководителей систем здравоохранения

Рассмотреть возможность участия в пилотных проектах по валидации подобных моделей на региональных данных.

Начать подготовку инфраструктуры для интеграции ИИ-инструментов прогнозирования в процессы планирования ресурсов.

Инвестировать в обучение медицинского персонала интерпретации вероятностных прогнозов и их использования в принятии клинических решений.
Для инвесторов в biotech и healthtech

Отслеживать компании, разрабатывающие клинически валидированные версии генеративных моделей для прогнозирования здоровья.

Оценивать стартапы, работающие над решениями для интеграции подобных моделей в существующие электронные медицинские карты.

Обратить внимание на проекты, фокусирующиеся на снижении алгоритмических смещений и валидации на разнообразных популяциях.
Для исследователей

Использовать открытый код Delphi-2M (доступен на GitHub) и синтетические данные для собственных исследований взаимодействий заболеваний.

Подавать заявки на доступ к данным UK Biobank для разработки улучшенных версий модели с интеграцией дополнительных данных.

Участвовать в мультицентровых исследованиях для валидации моделей на различных популяциях и системах здравоохранения.

Узнать больше

Оригинальная публикация в Nature

Полный текст исследования "Learning the natural history of human disease with generative transformers" с техническими деталями архитектуры и методологии.

Читать статью

Открытый код на GitHub

Репозиторий с кодом модели Delphi-2M, обучающими скриптами и синтетическими данными для экспериментов.

Перейти на GitHub

UK Biobank

Крупнейший биомедицинский ресурс с данными 500 000 участников. Доступ для исследователей по заявке.

Узнать о доступе

Материал подготовлен на основе публикации в журнале Nature (DOI: 10.1038/s41586-025-09529-3), официальных пресс-релизов EMBL, DKFZ и Копенгагенского университета, статей в Bio-IT World, BBC News, The Guardian, Nature News, Science Alert, Diagnostics World News, а также технических материалов из репозитория GitHub проекта Delphi. Данные актуальны на 23 октября 2025 года.

Источники

Subscribe to Eclibra

Don’t miss out on the latest issues. Sign up now to get access to the library of members-only issues.
jamie@example.com
Subscribe