AI Frontiers: 89 прорывов компьютерного зрения за один день

1 октября 2025 года опубликовано 89 исследований по компьютерному зрению, демонстрирующих пять ключевых трендов: веб-автоматизация через WALT, безконтрастная медицинская визуализация AortaDiff, решение проблемы клонированных лиц DisCo и компактные модели SPUS для физических уравнений.

1 октября 2025 года стал знаковым днём для компьютерного зрения: 89 научных работ представили решения давних проблем индустрии — от клонирования лиц в генеративных моделях до медицинской визуализации без контрастного агента. Четыре ключевых прорыва меняют подход к автоматизации браузеров, диагностике аневризм, генерации групповых портретов и физическому моделированию.

WALT: веб-агенты учатся использовать инструменты

Команда Salesforce AI Research представила WALT (Web Agents that Learn Tools) — фреймворк, который реверс-инжиниринг функциональности сайтов превращает в переиспользуемые инструменты. Вместо хрупкой пошаговой навигации по интерфейсу агент напрямую вызывает search(query), filter(Y), sort(Z), абстрагируясь от низкоуровневых кликов и ввода текста. Система обнаруживает встроенные функции — поисковые строки, фильтры, механизмы комментирования — через цикл демонстрации, генерации и валидации, приоритизируя детерминированные действия и замену UI-последовательностей на прямые URL-манипуляции.

В бенчмарках VisualWebArena и WebArena WALT достигает 52,9% и 50,1% успешности соответственно, превосходя предыдущие решения на 10–30% и сокращая количество шагов в 1,3–1,4 раза. Более 50 инструментов охватывают поиск, создание контента (create, edit, delete), социальные взаимодействия (комментирование, upvote, мессенджинг). Это смещает вычислительную нагрузку с LLM-рассуждений на надёжный вызов функций.

💡
WALT использует функциональность, уже заложенную дизайнерами сайтов, вместо обучения хрупким аппроксимациям паттернов взаимодействия — парадигма tool-based abstraction против step-by-step reasoning.

AortaDiff: медицинская визуализация без контраста

Исследовательская группа из университетов представила AortaDiff — унифицированный мультизадачный диффузионный фреймворк для безконтрастной визуализации аневризм брюшной аорты (AAA). Модель генерирует синтетические контрастно-усиленные КТ (CECT) из нативных сканов (NCCT) и одновременно сегментирует просвет и тромб, используя условную диффузию с объёмными данными в качестве гайда.

На датасете OxAAA (264 пациента, 65 с полной разметкой) AortaDiff показывает точность сегментации просвета с коэффициентом Dice 0,91–0,93, превосходя одно-задачные baseline на 15–25%. Полу-контролируемая версия AortaDiff-P обучается на неполных метках 199 случаев без аннотаций просвета, сохраняя сопоставимую производительность. Визуальные результаты демонстрируют анатомически корректную форму и контраст, чёткую границу между просветом и эксцентричным тромбом, что критично для предоперационного планирования и CFD-симуляций гемодинамики.

🏥
AortaDiff снижает зависимость от больших размеченных датасетов и ручного вмешательства, генерируя CFD-совместимые меши с высокой геометрической точностью для нормальных и патологических случаев (аневризмы, коарктация).

DisCo: решение кризиса идентичности в генеративных моделях

Современные text-to-image модели сталкиваются с коллапсом на промптах с несколькими людьми: дублирование лиц, слияние идентичностей, ошибки подсчёта. Авторы DisCo (Reinforcement with Diversity Constraints) предложили первый RL-фреймворк для прямой оптимизации разнообразия идентичностей через Group-Relative Policy Optimization (GRPO) flow-matching моделей.

Композитная функция награды включает четыре компонента: (i) штраф за внутри-изображенческое лицевое сходство, (ii) подавление повторяющихся идентичностей между сэмплами, (iii) точность подсчёта персон, (iv) сохранение визуального качества через human preference scores. Одностадийный curriculum стабилизирует обучение при масштабировании сложности без дополнительных аннотаций. На тестовом наборе DiverseHumans DisCo достигает 98,6% Unique Face Accuracy и почти идеального Global Identity Spread, превосходя open-source и proprietary решения (Gemini, GPT-Image) при конкурентном перцептивном качестве.

DisCo устанавливает новый benchmark для композиционной генерации групп людей, демонстрируя масштабируемое решение без аннотаций для давней проблемы identity crisis в генеративных моделях.

SPUS: компактные foundation-модели для уравнений

Восьмая работа из обзора — SPUS (Small Parameter-efficient Foundation Model for PDEs) — представляет легковесную архитектуру для решения дифференциальных уравнений в частных производных, превосходящую массивные трансформеры. Компактная модель демонстрирует эффективность в сложных физических симуляциях, смещая фокус от scale к архитектурной оптимизации.

Зрелость компьютерного зрения

Пять главных тем объединяют 89 исследований: переход к tool-based автоматизации вместо brittle UI-навигации, безконтрастная медицинская визуализация с мультизадачными диффузионными моделями, решение identity diversity через RL-оптимизацию, parameter-efficient архитектуры для научных вычислений и рост надёжности для реальных приложений. Компьютерное зрение перешло от proof-of-concept к индустриальному внедрению в медицине, креативных инструментах и повседневных цифровых взаимодействиях.

WALT: Web Agents that Learn Tools

Фреймворк Salesforce AI Research для автоматизации браузеров через реверс-инжиниринг функциональности сайтов в переиспользуемые инструменты

Читать статью на arXiv

DisCo: Diversity Constraints for Multi-Human Generation

Первый RL-фреймворк для оптимизации разнообразия идентичностей в генерации групп людей с 98,6% Unique Face Accuracy

Подробнее на arXiv

Subscribe to Eclibra

Don’t miss out on the latest issues. Sign up now to get access to the library of members-only issues.
jamie@example.com
Subscribe