Исследователи MIT обучили языковую модель на геноме промышленных дрожжей и научили её подбирать оптимальные кодоны ДНК для белковых препаратов — метод превзошёл четыре коммерческих инструмента в 5 из 6 испытаний.
Разработка и производство биологических препаратов съедают от 15 до 20% затрат на их коммерциализацию: новый подход адресует именно этот узкий участок, ускоряя переход от идеи к производству.
Код модели открыт и уже адаптирован под несколько организмов, включая человека и крупный рогатый скот — это означает немедленную практическую применимость для индустрии.
Команда MIT опубликовала в Proceedings of the National Academy of Sciences работу, которая меняет один из самых трудоёмких этапов создания белковых препаратов. Языковая модель научилась читать «грамматику» ДНК промышленных дрожжей и точнее, чем любой существующий коммерческий инструмент, выбирать, какие именно три буквы генетического кода лучше всего сработают при производстве конкретного белка.
Что за задача и почему она важна
Промышленные дрожжи — прежде всего вид Komagataella phaffii (прежнее название Pichia pastoris) — производят инсулин, вакцины от гепатита B, антитела для лечения онкологии и хронической мигрени, а также пищевые добавки, в том числе гемоглобин. Дрожжи удобны: они быстро размножаются, не требуют дорогостоящих условий и дают стабильный выход продукта. Именно поэтому биофармацевтическая отрасль буквально стоит на них.
Чтобы заставить дрожжи производить нужный белок, в их геном вставляют чужеродный ген — например, ген инсулина. Но здесь возникает тонкость: один и тот же белок можно закодировать тысячами разных комбинаций ДНК-«слогов» (кодонов), и от выбора комбинации зависит, насколько эффективно клетка будет производить итоговый продукт. Эта задача называется оптимизацией кодонов, и именно она отнимает огромное количество времени и денег у разработчиков биологических препаратов.
В ДНК каждая аминокислота белка зашифрована трёхбуквенным «словом» — кодоном. Всего возможных кодонов 64, а аминокислот — 20, то есть большинство аминокислот кодируется сразу несколькими вариантами. Каждый кодон «обслуживает» своя молекула транспортной РНК (тРНК). Если использовать один и тот же кодон слишком часто, запас нужных тРНК в клетке иссякает — и синтез белка буксует или даёт сбои.
Как работает модель MIT
Исследователи применили архитектуру «энкодер-декодер» — ту же, что лежит в основе современных языковых моделей. Только вместо слов и предложений модель анализировала последовательности ДНК. Обучающий набор данных — около 5 000 белков, которые K. phaffii производит естественным образом, — взят из открытой базы Национального центра биотехнологической информации (NCBI) США.
Модель не просто запомнила, какие кодоны встречаются чаще всего. Она уловила контекстные связи: как соседние кодоны влияют друг на друга, какие длинные паттерны обеспечивают стабильную работу гена. По словам профессора Кристофера Лава, руководителя исследования, модель «выучила синтаксис языка кодонов» — точно так же, как языковая модель учится строить грамматически верные предложения.
«Наличие инструментов прогнозирования, которые стабильно дают хороший результат, критически важно для сокращения пути от идеи до производства. Устранение неопределённости в конечном счёте экономит время и деньги.»— Дж. Кристофер Лав, профессор MIT, соруководитель Инициативы по новому производству MIT INM
Результаты: модель против коммерческих инструментов
Команда проверила метод на шести белках: гормоне роста человека, сывороточном альбумине, антителе трастузумаб (терапия рака молочной железы) и трёх других. Каждый белок синтезировали параллельно — по версиям от модели MIT и от четырёх коммерческих систем оптимизации кодонов. Затем измеряли реальный выход продукта в клетках дрожжей.
Итог: в 5 из 6 случаев версия MIT оказалась лучшей. В шестом — заняла второе место. Особенно важно то, что модель самостоятельно «открыла» биологические принципы, которым её никто не учил: например, она избегала повторяющихся негативных элементов ДНК, способных подавлять соседние гены, и научилась группировать аминокислоты по физико-химическим свойствам — гидрофобности и гидрофильности.
Белки в тесте: гормон роста человека, сывороточный альбумин, трастузумаб (онкология), три дополнительных белка.
Метод MIT — лучший в 5 из 6 испытаний, второй — в 1 из 6.
Код опубликован в открытом доступе, уже адаптирован под геномы человека и крупного рогатого скота.
Что это означает для отрасли
Разработка биологического препарата — сложный процесс: нужно встроить ген в геном дрожжей, подобрать условия роста и отладить очистку продукта. Только этот производственный этап обходится в 15–20% от общей стоимости коммерциализации. Для препарата с бюджетом в $100 млн это $15–20 млн, которые можно сократить за счёт более точного первоначального выбора ДНК-последовательности.
Ещё важнее фактор времени. Сегодня каждый шаг выполняется экспериментально: синтезируют несколько вариантов ДНК, вставляют в клетки, ждут роста, измеряют результат, повторяют. Хорошая предиктивная модель способна отсеять большинство неудачных вариантов ещё до постановки эксперимента. Это означает ускорение перехода от молекулы к клинике — и, в конечном счёте, более быстрое появление новых препаратов в аптеках.
Работа MIT — наглядный пример того, как крупные языковые модели перестают быть инструментом только для текста. Здесь LLM применяется к «языку генома» — и результат немедленно конвертируется в промышленную эффективность. Это пересечение сразу двух столпов: конвергенции ИИ и биологии, а также промышленной биотехнологии.
Практические инсайты
Для руководителей биофармацевтических компаний и директоров по технологиям сигнал однозначный: методы оптимизации ДНК на основе языковых моделей переходят из академической стадии в инструментарий производственного инжиниринга. Код MIT открыт — это означает, что любая лаборатория или стартап может адаптировать его под свой организм-хозяин уже сегодня. Инвесторам стоит следить за компаниями, которые будут первыми интегрировать подобные инструменты в промышленные конвейеры синтеза белков — потенциальная экономия измеряется десятками миллионов на каждый новый биологический препарат.
Источники
MIT News — Новая ИИ-модель может снизить затраты на разработку белковых препаратов
Официальная публикация пресс-службы MIT от 16 февраля 2026 года. Описание исследования, цитаты авторов, методология.
Proceedings of the National Academy of Sciences (PNAS) — Оригинальная научная статья
Рецензируемая публикация в PNAS. Авторы: Харини Нараянан (ведущий автор), Дж. Кристофер Лав (старший автор) и коллеги, MIT, февраль 2026.