🎯
Ключевые выводы

Исследователи MIT обучили языковую модель на геноме промышленных дрожжей и научили её подбирать оптимальные кодоны ДНК для белковых препаратов — метод превзошёл четыре коммерческих инструмента в 5 из 6 испытаний.

Разработка и производство биологических препаратов съедают от 15 до 20% затрат на их коммерциализацию: новый подход адресует именно этот узкий участок, ускоряя переход от идеи к производству.

Код модели открыт и уже адаптирован под несколько организмов, включая человека и крупный рогатый скот — это означает немедленную практическую применимость для индустрии.

Команда MIT опубликовала в Proceedings of the National Academy of Sciences работу, которая меняет один из самых трудоёмких этапов создания белковых препаратов. Языковая модель научилась читать «грамматику» ДНК промышленных дрожжей и точнее, чем любой существующий коммерческий инструмент, выбирать, какие именно три буквы генетического кода лучше всего сработают при производстве конкретного белка.

Что за задача и почему она важна

Промышленные дрожжи — прежде всего вид Komagataella phaffii (прежнее название Pichia pastoris) — производят инсулин, вакцины от гепатита B, антитела для лечения онкологии и хронической мигрени, а также пищевые добавки, в том числе гемоглобин. Дрожжи удобны: они быстро размножаются, не требуют дорогостоящих условий и дают стабильный выход продукта. Именно поэтому биофармацевтическая отрасль буквально стоит на них.

Чтобы заставить дрожжи производить нужный белок, в их геном вставляют чужеродный ген — например, ген инсулина. Но здесь возникает тонкость: один и тот же белок можно закодировать тысячами разных комбинаций ДНК-«слогов» (кодонов), и от выбора комбинации зависит, насколько эффективно клетка будет производить итоговый продукт. Эта задача называется оптимизацией кодонов, и именно она отнимает огромное количество времени и денег у разработчиков биологических препаратов.

💡
Что такое кодон и почему выбор имеет значение
В ДНК каждая аминокислота белка зашифрована трёхбуквенным «словом» — кодоном. Всего возможных кодонов 64, а аминокислот — 20, то есть большинство аминокислот кодируется сразу несколькими вариантами. Каждый кодон «обслуживает» своя молекула транспортной РНК (тРНК). Если использовать один и тот же кодон слишком часто, запас нужных тРНК в клетке иссякает — и синтез белка буксует или даёт сбои.

Как работает модель MIT

Исследователи применили архитектуру «энкодер-декодер» — ту же, что лежит в основе современных языковых моделей. Только вместо слов и предложений модель анализировала последовательности ДНК. Обучающий набор данных — около 5 000 белков, которые K. phaffii производит естественным образом, — взят из открытой базы Национального центра биотехнологической информации (NCBI) США.

Модель не просто запомнила, какие кодоны встречаются чаще всего. Она уловила контекстные связи: как соседние кодоны влияют друг на друга, какие длинные паттерны обеспечивают стабильную работу гена. По словам профессора Кристофера Лава, руководителя исследования, модель «выучила синтаксис языка кодонов» — точно так же, как языковая модель учится строить грамматически верные предложения.

«Наличие инструментов прогнозирования, которые стабильно дают хороший результат, критически важно для сокращения пути от идеи до производства. Устранение неопределённости в конечном счёте экономит время и деньги.»— Дж. Кристофер Лав, профессор MIT, соруководитель Инициативы по новому производству MIT INM

Результаты: модель против коммерческих инструментов

Команда проверила метод на шести белках: гормоне роста человека, сывороточном альбумине, антителе трастузумаб (терапия рака молочной железы) и трёх других. Каждый белок синтезировали параллельно — по версиям от модели MIT и от четырёх коммерческих систем оптимизации кодонов. Затем измеряли реальный выход продукта в клетках дрожжей.

Итог: в 5 из 6 случаев версия MIT оказалась лучшей. В шестом — заняла второе место. Особенно важно то, что модель самостоятельно «открыла» биологические принципы, которым её никто не учил: например, она избегала повторяющихся негативных элементов ДНК, способных подавлять соседние гены, и научилась группировать аминокислоты по физико-химическим свойствам — гидрофобности и гидрофильности.

Практические результаты эксперимента
Белки в тесте: гормон роста человека, сывороточный альбумин, трастузумаб (онкология), три дополнительных белка.
Метод MIT — лучший в 5 из 6 испытаний, второй — в 1 из 6.
Код опубликован в открытом доступе, уже адаптирован под геномы человека и крупного рогатого скота.

Что это означает для отрасли

Разработка биологического препарата — сложный процесс: нужно встроить ген в геном дрожжей, подобрать условия роста и отладить очистку продукта. Только этот производственный этап обходится в 15–20% от общей стоимости коммерциализации. Для препарата с бюджетом в $100 млн это $15–20 млн, которые можно сократить за счёт более точного первоначального выбора ДНК-последовательности.

Ещё важнее фактор времени. Сегодня каждый шаг выполняется экспериментально: синтезируют несколько вариантов ДНК, вставляют в клетки, ждут роста, измеряют результат, повторяют. Хорошая предиктивная модель способна отсеять большинство неудачных вариантов ещё до постановки эксперимента. Это означает ускорение перехода от молекулы к клинике — и, в конечном счёте, более быстрое появление новых препаратов в аптеках.

🚀
Convergence-угол: ИИ + промышленная биотехнология
Работа MIT — наглядный пример того, как крупные языковые модели перестают быть инструментом только для текста. Здесь LLM применяется к «языку генома» — и результат немедленно конвертируется в промышленную эффективность. Это пересечение сразу двух столпов: конвергенции ИИ и биологии, а также промышленной биотехнологии.

Практические инсайты

Для руководителей биофармацевтических компаний и директоров по технологиям сигнал однозначный: методы оптимизации ДНК на основе языковых моделей переходят из академической стадии в инструментарий производственного инжиниринга. Код MIT открыт — это означает, что любая лаборатория или стартап может адаптировать его под свой организм-хозяин уже сегодня. Инвесторам стоит следить за компаниями, которые будут первыми интегрировать подобные инструменты в промышленные конвейеры синтеза белков — потенциальная экономия измеряется десятками миллионов на каждый новый биологический препарат.

Источники

MIT News — Новая ИИ-модель может снизить затраты на разработку белковых препаратов

Официальная публикация пресс-службы MIT от 16 февраля 2026 года. Описание исследования, цитаты авторов, методология.

Читать источник

Proceedings of the National Academy of Sciences (PNAS) — Оригинальная научная статья

Рецензируемая публикация в PNAS. Авторы: Харини Нараянан (ведущий автор), Дж. Кристофер Лав (старший автор) и коллеги, MIT, февраль 2026.

Открыть PNAS