Исследователи UCLA разработали революционную систему генерации изображений, использующую оптические вычисления вместо традиционных процессоров. Технология создаёт визуальный контент за один «снимок», потребляя лишь долю энергии обычных AI-моделей и открывая путь к устойчивому масштабированию генеративного искусственного интеллекта.

Энергетический кризис генеративного AI

Современные диффузионные модели изображений работают через сотни или тысячи итераций, постепенно удаляя шум для создания финального контента. Этот процесс требует огромных вычислительных мощностей: обучение одной модели может потреблять десятки тысяч киловатт-часов — столько же, сколько несколько домохозяйств используют за год. Даже генерация единственного изображения на GPU может требовать сотни ватт-часов энергии.

Команда под руководством Айдогана Озкана из UCLA Samueli School of Engineering создала оптическую генеративную модель, которая выполняет декодирование изображения за один проход с использованием света. Система обучает цифровой энкодер совместно с дифракционным оптическим декодером, исключая необходимость в тяжёлых итеративных вычислениях на стадии генерации.

💡
Оптическая модель создаёт изображения «моментально», требуя только начальной цифровой кодировки и последующего оптического декодирования — без дополнительных вычислений между этапами.

Как работает световая генерация

В основе системы лежит пространственный модулятор света (SLM) — жидкокристаллический экран, который преобразует паттерны шума в двумерные фазовые структуры. Цифровой энкодер быстро трансформирует случайные паттерны шума в эти структуры, которые затем проецируются на SLM. При освещении лазером создаётся световое поле с закодированной фазовой информацией.

Прохождение этого оптического поля через дифракционную структуру позволяет декодировать фазовый паттерн, создавая совершенно новое изображение, которое фиксируется сенсорной матрицей. Вся «тяжёлая работа» происходит оптически, а не электронно — большая часть энергоёмких вычислений устраняется.

Наша работа показывает, что оптика может использоваться для выполнения генеративных AI-задач в масштабе. Устраняя необходимость в тяжёлых итеративных цифровых вычислениях на этапе инференса, оптические генеративные модели открывают дверь к моментальным, энергоэффективным AI-системам, которые могут трансформировать повседневные технологии.— Айдоган Озкан, профессор UCLA Samueli и старший автор исследования

Производительность и практические результаты

Команда протестировала систему на разнообразных датасетах: рукописные цифры, модные товары, бабочки, лица людей. Оптически сгенерированные результаты оказались статистически сопоставимы с продвинутыми цифровыми моделями по стандартным метрикам качества изображений.

В одном из экспериментов оптическая сеть создавала оригинальные красочные работы в стиле Винсента Ван Гога, производя результаты даже более разнообразные, чем цифровая диффузионная модель, требующая 1000 итераций. При этом учительская цифровая модель требовала 1000 вычислительных шагов на изображение, в то время как оптическая модель генерировала каждое произведение за один шаг на длину волны освещения.

Оптическая модель использовала лишь долю энергии, необходимой для итеративного цифрового диффузионного процесса, демонстрируя возможность световых вычислений создавать высококачественные художественные изображения эффективно.

Встроенная безопасность и гибкость

Помимо эффективности, оптические генеративные модели обеспечивают встроенную конфиденциальность и безопасность. Несколько сгенерированных паттернов или изображений могут одновременно кодироваться с использованием разных длин волн света и декодироваться только уникальными согласованными декодерными поверхностями.

Этот физический механизм «ключ-замок» гарантирует, что неавторизованные зрители не смогут реконструировать сгенерированные изображения, созданные для отдельных авторизованных пользователей. Технология открывает новые возможности для защиты коммуникаций, борьбы с подделками и персонализации доставки контента.

Та же оптическая аппаратура может выполнять множественные задачи с простыми обновлениями энкодера и декодера, обеспечивая гибкость без физической замены оборудования.

Перспективы интеграции и масштабирования

Исследователи указывают на потенциал интеграции оптических генеративных моделей в носимые и портативные устройства, где компактные, низкоэнергетические дизайны критически важны. Модели могут быть встроены непосредственно в умные очки, гарнитуры дополненной и виртуальной реальности или мобильные платформы, обеспечивая генеративный AI в реальном времени на ходу.

В перспективе команда разработала итеративную схему, повторяющую процесс декодирования до пяти раз. Этот итеративный процесс даёт изображения более высокого качества с чёткими фонами и в будущем может позволить создание полностью оптического генератора изображений.

🔮
Текущее proof-of-concept использует оптическую архитектуру свободного пространства, но гораздо меньшее решение может быть реализовано на фотонном чипе, что сделает технологию применимой для AR/VR и edge-вычислений.

Влияние на устойчивость AI-индустрии

Более широкие последствия для снижения энергетического следа и расхода воды в AI открывают перспективы устойчивого развёртывания в масштабе. Потенциальные применения распространяются на биомедицинскую визуализацию, диагностику, иммерсивные медиа и edge-вычисления, обрабатывающие данные локально на устройствах пользователей, а не в облаке.

Благодаря скорости и минимальным энергетическим требованиям технология может быть интегрирована в приложения вроде генерации видео в реальном времени для дисплеев дополненной реальности или встроена в компактные устройства с низким энергопотреблением, включая смартфоны и AI-очки.

Nature Journal

Исследование поддержано V. M. Watanabe Excellence in Research Award от UCLA Samueli. Первым автором выступает Шици Чен, постдокторальный исследователь из группы Озкана. Среди соавторов — Юханг Ли, Юнтянь Ван и Ханлонг Чен, нынешние и бывшие докторанты, работавшие под руководством Озкана.