Гонка вооружений в мире искусственного интеллекта смещается с параметров модели на эффективность. Исследователи Стэнфордского института гуманитарных наук (HAI) представили новую архитектуру малых языковых моделей (SLM), способную работать локально на смартфонах.

🎯
Ключевые выводы

1. Новая архитектура SLM работает локально на смартфоне без облака.

2. Потребление энергии менее 1 Вт при производительности уровня GPT-4.

3. Схема смешанных экспертов (MoE) активируется только по запросу, экономя ресурсы.

Техническая суть: On-Demand MoE

Ключевое отличие разработки — модифицированная схема смешанных экспертов (Mixture of Experts). В традиционных моделях значительная часть вычислительных ресурсов тратится впустую. Стэнфордская команда реализовала механизм активации экспертов только при необходимости.

Это позволяет снизить энергопотребление до критически важной отметки менее 1 Вт. Для контекста: стандартные облачные запросы к большим моделям требуют серверных мощностей, потребляющих киловатты энергии на тысячу запросов.

Бенчмарки и производительность

В ходе тестирования модель продемонстрировала задержку (latency) ниже 50 мс на флагманских мобильных процессорах 2025 года. Точность ответов в задачах логики и кодирования сопоставима с облачными аналогами уровня GPT-4.

«Мы перестали гнаться за размером. Теперь важно, сколько энергии стоит один умный ответ».— Ведущий исследователь Stanford HAI

Бизнес-значение для Edge AI

Внедрение локальных моделей меняет экономику процессов. Во-первых, исчезает стоимость API-вызовов. Во-вторых, данные пользователя не покидают устройство, что решает вопросы приватности и compliance (GDPR, AI Act).

Для предприятий это означает возможность внедрения умных ассистентов в полевых условиях без зависимости от качества связи.

Ограничения и перспективы

Технология требует наличия нейропроцессоров (NPU) последнего поколения. На старых устройствах производительность падает. Тем не менее, это первый шаг к массовому персональному ИИ.

Исследование Stanford HAI

Оригинальная статья с метриками и архитектурой модели.

Читать источник

Архив arXiv

Технические детали реализации On-Demand MoE.

Смотреть статью