На фоне бурного развития генеративных нейросетей IT-компании столкнулись с проблемой: работа алгоритмов требует колоссальных вычислительных ресурсов. Оптимальное решение — перенос этих задач на неиспользуемые мощности смартфонов.
В чём плюсы локальной работы нейросетей
По словам аналитика SemiAnalysis, один день работы чат-бота ChatGPT на базе языковой модели GPT-3.5 обходится компании OpenAI примерно в 700 000 долларов. Функционирование более продвинутой GPT-4 стоит ещё дороже.
Участие в гонке нейросетей может сыграть с техногигантами злую шутку. По словам аналитиков, если Google начнёт показывать обогащённые ИИ ответы на каждый поисковый запрос, объём прибыли «корпорации добра» может сократиться.
По мнению главы Qualcomm Кристиано Амона, лучше всего использовать гибридную модель, разделяя задачи по обработке данных между дата-центрами и устройствами пользователей.
Хотя бы частичная генерация ответа прямо на устройстве положительно скажется на времени отклика. Ещё локальный процессинг данных позволит сберечь персональные сведения пользователей. Последнее условие — важный плюс: Apple и Google любят напоминать, что многие из интеллектуальных функций iPhone и Pixel не требуют отправки информации в облако.
Чего удалось добиться
В феврале 2023-го Qualcomm продемонстрировала работу модели для генерации изображений Stable Diffusion на гаджете с процессором Snapdragon 8 Gen 2. Для этого пришлось провести процедуру квантования, то есть сократить размер модели. В итоге Stable Diffusion, запущенная на телефоне, сгенерировала изображение разрешением 512х512 пикселей менее чем за 15 секунд.
С GPT-3 так не выйдет: модель включает 175 млрд параметров, тогда как оригинальная Stable Diffusion — всего 1 млрд. Зато есть успехи в адаптации других алгоритмов общего назначения. Так, нейросеть LLaMA на базе 7 млрд параметров, созданная Meta*, успешно запустилась на аппарате Google Pixel 6.
Недавно поисковый гигант представил языковую модель PaLM 2. В компании изначально предусмотрели четыре размера нейросети. По заявлениям инженеров, самая минималистичная — её называют Gecko — способна генерировать 10-15 слов в секунду на мощностях смартфона без подключения к интернету.
Что будет дальше
Старший вице-президент Qualcomm Зиад Асгар считает, что развитие получат мультимодальные модели, которые умеют взаимодействовать не только с текстом, но и изображениями или аудио. Владельцы гаджетов чаще используют эти форматы, нежели исключительно текстовые приложения, более популярные на компьютерах.
По мнению аналитика Creative Strategies Бена Баджарина, малые языковые модели (до 10 млрд параметров) найдут применение в примитивных мобильных приложениях. В качестве примеров он привёл редактирование фотографий по голосовым командам и ответы на простые вопросы.
Тем временем локализация вычислений наверняка привлечёт внимание Apple, которая пока не проявляет интерес к генеративным нейросетям. Купертиновская корпорация не обладает нужными облачными мощностями и полагается на вычисления, обрабатываемые на устройстве пользователя.
* признана в России экстремистской организацией