MDLM достигают нового state-of-the-art среди диффузионных моделей и приближаются к качеству авторегрессивных моделей (в пределах 15-25% perplexity)
Параллельная генерация токенов обеспечивает значительно большую контролируемость благодаря classifier-free и classifier-based guidance
Дискретная диффузия успешно применяется в биоинформатике — DNA foundation models на её основе устанавливают рекорды в аннотации геномов растений
Подход открывает путь к улучшенному долгосрочному планированию, управляемой генерации и ускорению семплирования
Диффузионные генеративные модели добились выдающихся результатов в генерации изображений, но исследователи долгое время сталкивались со значительным разрывом в производительности между диффузией и авторегрессивными методами на дискретных данных вроде текста или биологических последовательностей. Volodymyr Kuleshov, профессор Cornell Tech, представил 17 октября 2025 года на семинаре Machine Learning and AI Series Колумбийского университета masked diffusion language models (MDLM) — простую и эффективную архитектуру, которая делает шаг к закрытию этого разрыва и открывает новые возможности для генеративного моделирования в науке и языковых технологиях.
Принцип дискретной диффузии
В отличие от авторегрессивных моделей, которые генерируют токены последовательно слева направо, дискретные диффузионные модели создают или модифицируют множество токенов одновременно через итеративное параллельное шумоподавление. Процесс можно представить как постепенное «проявление» текста из полностью зашумлённого состояния — подобно тому, как диффузионные модели изображений восстанавливают детали из гауссовского шума. Ключевое преимущество: алгоритмы не ограничены последовательной генерацией данных и могут создавать, заменять или уточнять любые части последовательности одновременно.
MDLM оптимизирует смесь denoising потерь (например, masking losses) и может рассматриваться как наделение BERT-подобных моделей принципиальными сэмплерами и вариационными оценками log-likelihood. Framework прост для понимания и реализации, но обеспечивает существенные преимущества в контролируемости генерации. Это достигается через расширенные механизмы classifier-free guidance (управление без дополнительных классификаторов) и classifier-based guidance (направленное управление с помощью внешних моделей), которые значительно превосходят возможности авторегрессивных подходов.
Производительность на языковых бенчмарках
На языковых бенчмарках LM1B, OpenWebText (OWT) и DNA MDLM устанавливают новый state-of-the-art среди всех диффузионных моделей и приближаются к качеству авторегрессивных методов. Разрыв в perplexity (метрике качества языкового моделирования) сокращён до 15-25%, что представляет драматическое улучшение по сравнению с предыдущими подходами к дискретной диффузии. Это достигнуто благодаря тщательной инженерии и простым, но эффективным архитектурным решениям, которые значительно повышают производительность даже простых baseline-моделей, ранее считавшихся неконкурентоспособными.
Особое значение имеет контролируемость генерации. В задачах guided generation, где модель должна генерировать текст с определёнными свойствами (тематика, стиль, структура), MDLM демонстрируют превосходство над авторегрессивными моделями благодаря возможности одновременного влияния на множество токенов. Это особенно важно для приложений вроде creative writing, контент-генерации с constraints или создания синтетических данных с заданными характеристиками. Guidance механизмы позволяют точно направлять процесс генерации без необходимости переобучать модель для каждой новой задачи.
Дискретные диффузионные модели не ограничены последовательной генерацией данных и поэтому имеют потенциал для улучшения долгосрочного планирования, управляемой генерации и скорости семплирования. Это открывает новые возможности для применения генеративных моделей в задачах, где авторегрессивные подходы сталкиваются с ограничениями.— Volodymyr Kuleshov, Cornell Tech
Прорыв в биоинформатике
Дискретная диффузия выходит за рамки языкового моделирования и находит применение в научных областях, особенно в биологии. Kuleshov и его команда разработали новое поколение DNA foundation models на основе MDLM, которые устанавливают новый state-of-the-art в аннотации геномов растений. Эти модели не только превосходят классические BERT-style подходы в downstream задачах (таких как предсказание функций генов, идентификация регуляторных элементов и классификация биологических последовательностей), но и впервые обеспечивают эффективную генеративную способность.
Классические masked language models вроде BERT могут предсказывать замаскированные элементы последовательности, но не могут генерировать новые последовательности de novo. MDLM решает эту проблему, объединяя сильные стороны BERT-style обучения с полноценными генеративными возможностями. Для биологических исследований это означает способность не только анализировать существующие геномы, но и генерировать новые биологические последовательности с желаемыми свойствами — например, синтезировать промоторы с определённой активностью экспрессии или создавать белковые последовательности с заданными функциями.
Преимущества параллельной генерации
Фундаментальное ограничение авторегрессивных моделей — необходимость генерировать каждый токен последовательно, что замедляет процесс и усложняет долгосрочное планирование структуры текста. MDLM могут генерировать или уточнять множество токенов одновременно, что обеспечивает несколько преимуществ. Во-первых, потенциально более высокая скорость генерации через параллелизацию вычислений. Во-вторых, улучшенное долгосрочное планирование — модель может одновременно «видеть» и корректировать разные части последовательности, поддерживая глобальную согласованность.
В-третьих, расширенные возможности редактирования и рефакторинга текста. Вместо полной перегенерации последовательности модель может локально изменять только нужные фрагменты, сохраняя остальной контекст неизменным. Это особенно ценно для interactive applications, где пользователь итеративно уточняет желаемый результат, или для задач вроде paraphrasing, style transfer и targeted content revision. Semi-autoregressive (SAR) сэмплеры MDLM превосходят предыдущие SAR модели, обеспечивая баланс между скоростью и качеством генерации.
Техническая архитектура и обучение
MDLM framework реализует substitution-based parameterization (SUBS) обратного unmasking диффузионного процесса. SUBS позволяет вывести simple continuous-time Rao-Blackwellized objective, который улучшает tightness и variance evidence lower bound (ELBO), критически важного для обучения генеративных моделей. Эта математическая формализация обеспечивает более стабильное и эффективное обучение по сравнению с предыдущими подходами к дискретной диффузии, которые использовали сложные continuous-time Markov chain (CTMC) теорию.
Важным аспектом является engineering — исследователи показали, что простые, но тщательно выбранные инженерные решения существенно улучшают производительность не только MDLM, но и простых baseline-моделей, которые ранее считались неконкурентоспособными. Это подчёркивает важность careful implementation наряду с теоретическими инновациями. Модели обучаются на взвешенном среднем masked cross-entropy потерь, что обеспечивает эффективную оптимизацию across different noise levels диффузионного процесса.
Простые инженерные решения значительно улучшают производительность как наших моделей, так и простых baseline-подходов, которые ранее считались неэффективными. Это демонстрирует, что успех диффузионных моделей на дискретных данных требует как теоретических инноваций, так и тщательной практической реализации.— Из статьи MDLM в NeurIPS 2024
Сравнение с другими подходами
Существующие методы дискретной диффузии можно разделить на две категории. Первая включает embedding дискретных структур в continuous space с последующим применением Gaussian diffusion на этих представлениях. Вторая — более близкая к MDLM — определяет диффузионный процесс непосредственно на дискретных структурах. D3PM framework представил общий подход с Markov forward process, определяемым умножением матриц переходов, но практически наилучшую производительность стабильно показывает absorbing state (masking) диффузия.
Вместо поддержки произвольных noise processes MDLM фокусируется на masking и выводит tight Rao-Blackwellized objectives, которые превосходят общие подходы и не требуют сложной CTMC теории (например, как в SEDD). Это делает MDLM проще для понимания, реализации и адаптации. По сравнению с uniform noise diffusion models (UDLM), недавно представленными в контексте guidance механизмов, MDLM демонстрируют более высокую baseline производительность, хотя оба подхода хорошо сочетаются с novel guidance техниками.
Будущие направления и применения
Дискретные диффузионные модели открывают несколько перспективных направлений исследований и применений. В языковых технологиях — улучшение controllable generation для контент-маркетинга, персонализированных ассистентов и creative writing tools. Параллельная генерация может значительно ускорить inference для real-time приложений, особенно в сочетании со специализированными ускорителями. В научных областях дискретная диффузия обещает прорывы в drug discovery (генерация молекул с заданными свойствами), protein engineering (дизайн белков с новыми функциями) и материаловедении.
Особый интерес представляет интеграция с reinforcement learning для задач sequential decision-making и planning. Способность MDLM одновременно рассматривать и корректировать множество шагов последовательности может улучшить long-term planning в автономных системах, робототехнике и strategic game playing. В области научных открытий комбинация MDLM с domain-specific constraints и физическими законами может ускорить генерацию гипотез и дизайн экспериментов. Исследовательская группа Kuleshov активно развивает эти направления и поддерживает open-source репозитории для воспроизведения результатов.
Стратегические выводы
Представление MDLM знаменует важный шаг в развитии генеративных моделей для дискретных данных. Закрытие performance gap с авторегрессивными моделями делает дискретную диффузию практически применимой для production систем, где ранее доминировали GPT-подобные архитектуры. Превосходство в controllable generation открывает новые возможности для приложений, требующих точного управления свойствами сгенерированного контента — от персонализированной генерации текста до целевого дизайна биологических последовательностей.
Для enterprise это означает доступ к более гибким инструментам генерации контента с меньшими требованиями к инфраструктуре благодаря возможности параллелизации. Для научных организаций MDLM представляет новый класс foundation models для биологических данных, который сочетает аналитические возможности BERT с генеративной силой диффузии. Инвестиции в освоение дискретных диффузионных моделей становятся стратегическим приоритетом для команд, работающих с текстовыми данными, биоинформатикой или любыми дискретными последовательностями.
Академическая среда продолжает играть критическую роль в развитии AI — семинары вроде Machine Learning and AI Series в Columbia объединяют исследователей для обмена cutting-edge идеями за месяцы до публикации в крупных конференциях. Участие в таких мероприятиях и мониторинг работы ведущих групп (Cornell Tech, Stanford, CMU) обеспечивает ранний доступ к прорывным техникам. MDLM демонстрирует, что фундаментальные архитектурные инновации, дополненные тщательной инженерией, продолжают двигать границы возможного в AI.
Изучите MDLM для задач, требующих контролируемой генерации текста или биологических последовательностей
Оцените потенциал параллельной генерации для ускорения inference в production системах
Экспериментируйте с guidance механизмами для точного управления свойствами генерируемого контента
Для биотех-компаний рассмотрите DNA foundation models на основе дискретной диффузии для drug discovery
Следите за предстоящими семинарами серии (24 октября — Furong Huang, 7 ноября — Florentin Guth) для новых прорывов