Сколько шагов нужно, чтобы загрузить большую модель в мобильный телефон?

Question

Первоисточник: Light Cone Intelligence![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b1ee7bd50a-dd1a6f-1c6801)Источник изображения: сгенерировано Unbounded AI‌Большая модель «упирается» в мобильный телефон, а битва ИИ перенесена из «облака» в «мобильный терминал».«В эпоху искусственного интеллекта модель Huawei Pangu поможет экологии Hongmeng». Модель Harmony OS приносит следующее поколение операционных систем для интеллектуальных терминалов.Использование больших моделей на мобильных телефонах не ново: ранее приложения и апплеты, такие как ChatGPT, Wenxin Yiyan и Miaoya, использовали вычислительную мощность облачных вычислений для удовлетворения потребностей приложений ИИ на мобильных терминалах.**Следующий шаг — запуск большой модели непосредственно на мобильном телефоне. **С апреля и мая этого года три гиганта американских технологий — Qualcomm, Microsoft и Nvidia, самая привлекательная звезда искусственного интеллекта OpenAI и отечественная «головная команда» искусственного интеллекта — Tencent, Baidu и другие — ускорили свои усилия в мобильных терминалах Легкое развертывание больших моделей ИИ. Qualcomm даже объявила, что постепенно трансформируется в компанию, занимающуюся интеллектуальными граничными вычислениями (предоставляющую вычислительные услуги на таких источниках данных, как мобильные терминалы).Под сильным давлением гигантов отраслевая тенденция к перемещению крупномасштабных моделей из облака в конец стала совершенно очевидной.## Почему большая модель должна «запускаться» на мобильном телефоне?Самая большая особенность большой модели - «большая», с десятками миллиардов миллиардов или даже триллионов параметров, и для лучшего запуска большой модели кластер вычислительной мощности был повышен до уровня «десять тысяч карт». Теперь, зачем вам "запихивать" большую модель в маленький мобильный телефон размером с ладонь?Большая модель действительно приносит некоторые улучшения для пользователей мобильных телефонов. Например, Xiaoyi, интеллектуальный помощник терминала Huawei, может не только рекомендовать рестораны в соответствии с голосовыми подсказками, но и выполнять обработку информации, такую как обобщение, поиск информации и многоязычный перевод. интеллектуальный помощник с возможностями крупномасштабной модели Генерируется сводка, которую также можно перевести на китайский язык. Особенно последний пункт в эпоху информационного взрыва по-прежнему очень ценен для повышения эффективности обучения и работы.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4d7d0cda67-dd1a6f-1c6801) ** Цзя Юнли, президент подразделения Huawei Terminal BG AI и Intelligent All-Scenario Business Department, объяснил, что, с одной стороны, крупноязыковая модель обладает способностью обобщать, что может помочь интеллектуальным помощникам на мобильных телефонах улучшить свое понимание. С другой стороны, подключаемые модули большой модели Plug-in могут преодолевать барьеры между приложениями в мобильном телефоне и расширять возможности с помощью инструментов. **Кроме того, приложения AIGC, такие как ChatGPT, всегда сопровождались сильными спорами о конфиденциальности и безопасности, но если они полностью выполняются на конечной стороне, этой проблемы можно полностью избежать. Поскольку большая модель работает на конечной стороне, данные не будут покидать конечную сторону. Кроме того, скорость отклика будет быстрее.** С другой стороны, спрос на большие модели мобильных терминалов, таких как мобильные телефоны, уже очень актуален. **Бурная тенденция к большим моделям делает облако все более и более неспособным удовлетворить спрос на вычислительную мощность в одиночку. Алекс Катузян, старший вице-президент Qualcomm, недавно прямо сказал: «Поскольку рост подключенных устройств и трафика данных ускоряется, а стоимость наложенных центров обработки данных растет, невозможно (для нас) отправлять весь контент в облако».Не считая большого количества ресурсов, таких как пропускная способность сети, хранилище и аппаратное обеспечение, потребляемых для передачи данных, вычислительная мощность облака сама по себе уже привела к перегрузке соответствующих производителей. ChatGPT находится только на стадии вывода, и по консервативным оценкам ежемесячная стоимость вычислительной мощности составляет около 10 миллионов долларов США.Самая большая проблема не "дорого", а "отсутствие".Ранее даже Сэм Альтаман, основатель OpenAI, сообщил о нехватке графических процессоров и даже прямо заявил, что не хочет, чтобы ChatGPT использовало слишком много людей. В последнее время некоторые инсайдеры предполагают, что емкость крупномасштабных кластеров H100 малых и крупных облачных провайдеров вот-вот закончится, а тенденция спроса на H100 сохранится как минимум до конца 2024 года. Текущие производственные мощности Nvidia H100 по-прежнему сильно ограничены цепочкой поставок.Таким образом, облако и терминал образуют сотрудничество, а простаивающие вычислительные мощности мобильных телефонов и других терминалов используются для устранения несоответствия между «централизованной» вычислительной мощностью и «распределенным» спросом. Что еще более важно, по сравнению с ограниченным числом центральных узлов многочисленные мобильные терминалы можно назвать «капиллярами», затрагивающими тысячи сценариев, что определяет, что эта запись станет ключом к ускорению проникновения приложений в большие модели.## Как "прикарманить" большую модель?"По сравнению с традиционными ПК или серверами, самая большая проблема для мобильных терминалов заключается в том, как сбалансировать работу и энергопотребление. Это один из самых важных ключевых моментов базовой конструкции Hongmeng", — Гонг Ти, президент отдела программного обеспечения для терминалов Huawei. , подчеркнул.Большая модель требует много вычислительных ресурсов и ресурсов хранения, особенно на основе существующей аппаратной конфигурации мобильного телефона, что требует координации системы программного обеспечения для повышения эффективности и снижения энергопотребления.В настоящее время для повышения производительности мобильных телефонов система мобильного телефона должна координировать не менее 8 ядер чипа, и этот процесс будет потреблять много вычислительной мощности. Если применяется планирование разнородных ресурсов, ЦП, ГП и NPU могут эффективно координироваться. По словам Гонг Ти, эффективность планирования может быть увеличена более чем на 60%.Система мобильного телефона может выполнять вычисления, а наименьшая единица планирования называется потоком.В традиционной операционной системе одновременно выполняются десятки тысяч потоков, и будет большое количество недействительных потоков. Ввиду этого можно использовать более легкую модель параллелизма для обработки параллельных операций и снижения потребления вычислительной мощности за счет недопустимого переключения потоков. По словам Гонга Ти, модель параллелизма может снизить накладные расходы на переключение задач на 50%.Кроме того, с точки зрения планирования задач в операционной системе, это также самый основной элемент, влияющий на бесперебойную работу.По сравнению со справедливым планированием планирование с динамическим приоритетом значительно снижает потребление энергии. Динамическое планирование приоритетов похоже на интеллектуальную транспортную систему, которая может динамически регулировать состояние освещения светофоров в соответствии с дорожными условиями и транспортным потоком, заторами и задержками.Однако для того, чтобы большая модель была развернута на мобильном телефоне и продолжала работать, недостаточно обновить и улучшить операционную систему мобильного телефона.По мере того, как предсказания больших моделей становятся более точными, а сети становятся глубже, объем памяти, потребляемый нейронными сетями, становится основной проблемой. В то же время это также связано с проблемой пропускной способности памяти.Когда сеть работает, память, процессор и батарея будут быстро расходоваться.Это определенно непосильная ноша для современных мобильных телефонов.** Поэтому перед развертыванием на мобильном телефоне большая модель должна быть сжата, чтобы снизить потребность в вычислительной мощности для логических выводов. Однако важно убедиться, что исходные характеристики и точность практически не изменились. **Квантование — это распространенная и важная операция сжатия, которая может уменьшить объем памяти, занимаемый моделью, и повысить производительность логического вывода. По сути, это преобразование модели операции с плавающей запятой в модель операции с целым числом, потому что операция с целым числом имеет более высокую точность и более высокую скорость работы, чем операция с плавающей запятой.В настоящее время количественные технологии также ускоряют прорывы. Модель, обученная на сервере, обычно использует 32-битные операции с плавающей запятой (FP32).Что касается мобильных телефонов, Qualcomm квантизировала и сжала модель FP32 до модели INT4, добившись 64-кратного увеличения памяти и повышения энергоэффективности вычислений. Данные реализации Qualcomm показывают, что после использования обучения восприятия квантования Qualcomm многие модели AIGC можно преобразовать в модели INT4.По сравнению с INT8 производительность повышается примерно на 90%, а энергоэффективность повышается примерно на 60%.Технология сжатия больших моделей, несомненно, является ключевым фактором для гигантов ИИ, чтобы выиграть поле битвы мобильных терминалов. Это также в определенной степени объясняет, почему Nvidia «тихо» приобрела OmniML, стартап искусственного интеллекта, который осваивает технологию сжатия больших моделей, в феврале этого года.## Большая модель заставляет аппаратное обеспечение терминала обновляться«В этом году мы сможем поддерживать модель генеративного ИИ с 10 миллиардами параметров, работающую на мобильном телефоне», — недавно сказал Зиад Асгар, старший вице-президент по управлению продуктами и глава отдела ИИ в Qualcomm. миллиард параметров может охватывать большую часть данных.Большинство вариантов использования AIGC. Если терминал уже может поддерживать этот уровень параметров, все расчеты можно производить на терминале, а мобильный телефон станет настоящим личным помощником.Однако нынешнее поколение флагманских чипов для мобильных телефонов может работать с большой моделью с параметрами уровня 1 млрд. Qualcomm успешно продемонстрировала большую модель, работающую на системе Android, на CVPR, крупнейшей академической конференции по компьютерному зрению в июне этого года. , а всего 1,5 млрд. параметр.Параметры подскочили почти в десять раз, а крупная модель, направляющаяся в мобильный терминал, уже нажала на «акселератор», поэтому мобильный телефон приходится модернизировать, чтобы справиться с этим.** Аппаратное обеспечение мобильных телефонов срочно нуждается в инновациях в области ускорителей искусственного интеллекта и памяти. **Во-первых, большие модели с большими параметрами требуют большего объема памяти и места для хранения параметров модели и промежуточных результатов. Это требует увеличения емкости чипа памяти мобильного терминала и пропускной способности интерфейса памяти.Во-вторых, большие параметры неизбежно требуют более мощных вычислительных и логических способностей для обработки входных данных и выходных результатов.Хотя ускорители искусственного интеллекта (такие как различные IP-адреса NPU) на чипах мобильных телефонов почти стандартны, дизайн в основном предназначен для проектирования сверточных нейронных сетей предыдущего поколения, а не полностью для больших моделей.Чтобы адаптироваться к большим моделям, ускорители ИИ должны иметь большую пропускную способность доступа к памяти и уменьшать задержку доступа к памяти. Это требует некоторых изменений в интерфейсе ИИ-ускорителя (например, назначение большего количества выводов для интерфейса памяти), а также требует соответствующих изменений во внутреннем соединении данных для удовлетворения требований к доступу к памяти ИИ-ускорителя.Одна из важных причин, по которой Qualcomm может назвать «мобильные телефоны с 10 миллиардами параметров в течение года», заключается в том, что они оснащены процессором Snapdragon 8 второго поколения, оснащенным самым быстрым и самым совершенным механизмом искусственного интеллекта в истории Qualcomm. , производительность ИИ увеличена в 4,35 раза, а энергоэффективность увеличена на 60%.**Конечно, даже в облаке обучение и обоснование сверхкрупномасштабных моделей параметров должны преодолеть пять стен: стена памяти + стена вычислительной мощности + стена связи + стена настройки + стена развертывания, а мобильные телефоны должны пробиваться слой за слоем. **Однако, от «интеллекта» до «искусственного интеллекта» для мобильных телефонов возможности перевешивают проблемы.«Влияние инновационного цикла на бытовую электронику более важно, и оно может даже вывести отрасль из-под влияния экономического цикла». по инициативе ИИ и 5G+.