Гонка вооружений в мире искусственного интеллекта смещается с параметров модели на эффективность. Исследователи Стэнфордского института гуманитарных наук (HAI) представили новую архитектуру малых языковых моделей (SLM), способную работать локально на смартфонах.
1. Новая архитектура SLM работает локально на смартфоне без облака.
2. Потребление энергии менее 1 Вт при производительности уровня GPT-4.
3. Схема смешанных экспертов (MoE) активируется только по запросу, экономя ресурсы.
Техническая суть: On-Demand MoE
Ключевое отличие разработки — модифицированная схема смешанных экспертов (Mixture of Experts). В традиционных моделях значительная часть вычислительных ресурсов тратится впустую. Стэнфордская команда реализовала механизм активации экспертов только при необходимости.
Это позволяет снизить энергопотребление до критически важной отметки менее 1 Вт. Для контекста: стандартные облачные запросы к большим моделям требуют серверных мощностей, потребляющих киловатты энергии на тысячу запросов.
Бенчмарки и производительность
В ходе тестирования модель продемонстрировала задержку (latency) ниже 50 мс на флагманских мобильных процессорах 2025 года. Точность ответов в задачах логики и кодирования сопоставима с облачными аналогами уровня GPT-4.
«Мы перестали гнаться за размером. Теперь важно, сколько энергии стоит один умный ответ».— Ведущий исследователь Stanford HAI
Бизнес-значение для Edge AI
Внедрение локальных моделей меняет экономику процессов. Во-первых, исчезает стоимость API-вызовов. Во-вторых, данные пользователя не покидают устройство, что решает вопросы приватности и compliance (GDPR, AI Act).
Для предприятий это означает возможность внедрения умных ассистентов в полевых условиях без зависимости от качества связи.
Ограничения и перспективы
Технология требует наличия нейропроцессоров (NPU) последнего поколения. На старых устройствах производительность падает. Тем не менее, это первый шаг к массовому персональному ИИ.