Разработка новых лекарств остается одним из самых дорогостоящих и длительных процессов в фармацевтике. Ключевой этап — раннее выявление перспективных соединений с высокой специфичностью к целевому белку и благоприятным метаболическим профилем. Последнее десятилетие исследователи пытались применить машинное обучение для ускорения скрининга, но сталкивались с фундаментальной проблемой: модели демонстрировали непредсказуемые провалы при работе с новыми химическими структурами, не встречавшимися в обучающих данных.
Бенджамин Браун, профессор фармакологии из Vanderbilt University, предложил архитектурное решение этой «проблемы генерализации». Вместо анализа полной трехмерной структуры белка и молекулы препарата, его модель намеренно ограничена изучением только пространства взаимодействия — дистанционно-зависимых физико-химических связей между парами атомов. Такой подход заставляет алгоритм учиться переносимым принципам молекулярного связывания, а не «запоминать» структурные паттерны из тренировочного датасета.
Браун разработал строгий протокол валидации, имитирующий реальный сценарий: «Если завтра будет открыто новое семейство белков, сможет ли наша модель делать эффективные предсказания?» Для этого он исключил целые надсемейства белков и все связанные с ними химические данные из тренировочного набора, создав сложный и реалистичный тест способности модели к генерализации. Результаты показали, что современные ML-модели, хорошо работающие на стандартных бенчмарках, демонстрируют значительное падение производительности при встрече с новыми семействами белков.
Машинное обучение обещало связать точность физически обоснованных методов и скорость простых эмпирических функций. К сожалению, его потенциал оставался нереализованным из-за непредсказуемых провалов при работе с незнакомыми структурами.— Бенджамин Браун, Vanderbilt University School of Medicine
Работа предоставляет три критически важных инсайта для индустрии. Во-первых, задаче-специфичные архитектуры открывают путь к построению обобщаемых моделей на основе существующих публичных датасетов. Во-вторых, требуются более строгие реалистичные бенчмарки — стандартные метрики не отражают реальную применимость. В-третьих, текущий прирост производительности над традиционными scoring-функциями остается скромным, но подход создает надежный базис для создания предсказуемого AI в разработке лекарств.
Для стартапов в области AI-дизайна лекарств это сигнал пересмотреть валидационные протоколы. Многие команды полагаются на бенчмарки, которые не тестируют модели на out-of-distribution данных — реальных новых классах белков или химических структурах. Браун, член Center for AI in Protein Dynamics, продолжает работу над масштабируемостью и обобщаемостью в молекулярном моделировании, и обещает поделиться дополнительными результатами в ближайшее время.
Несмотря на то что существенные вызовы остаются, работа Брауна прояснила путь вперед: вместо гонки за точностью на известных датасетах фокус должен сместиться на создание робастных архитектур, которые не провалятся при встрече с реальными задачами drug discovery. Это фундаментально меняет критерии оценки ML-платформ для фармацевтических компаний и венчурных инвесторов, рассматривающих AI-первые биотех-стартапы.
Публикация в Proceedings of the National Academy of Sciences устанавливает новый стандарт валидации ML-моделей в computer-aided drug design и обозначает переход от эмпирического подхода «больше данных — лучше результат» к осознанному проектированию архитектур с встроенными индуктивными смещениями, отражающими физику молекулярных взаимодействий.