Скільки кроків потрібно, щоб завантажити велику модель у мобільний телефон?

Question

Джерело: Light Cone Intelligence![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b1ee7bd50a-dd1a6f-1c6801)Джерело зображення: створено Unbounded AI‌Велика модель «наїжджає» на мобільний телефон, а битва AI була спалена від «хмари» до «мобільного терміналу».«В епоху штучного інтелекту модель Huawei Pangu допоможе екології Hongmeng.» 4 серпня Юй Чендун, виконавчий директор Huawei, генеральний директор терміналу BG і генеральний директор рішення для розумних автомобілів BU, представив, що за допомогою базової технології Pangu Модель Harmony OS представляє наступне покоління операційних систем розумних терміналів.Використання великих моделей на мобільних телефонах не є новим. Раніше такі програми та аплети, як ChatGPT, Wenxin Yiyan і Miaoya, використовували потужність хмарних обчислень для задоволення потреб додатків AI на мобільних терміналах.**Наступним кроком є запуск великої моделі безпосередньо на мобільному телефоні. **З квітня та травня цього року три гіганти американських технологій — Qualcomm, Microsoft і Nvidia, найбільш приваблива зірка штучного інтелекту OpenAI і вітчизняна «головна команда» Tencent, Baidu тощо — прискорили свої зусилля. у мобільних терміналах Легке розгортання великих моделей ШІ. Qualcomm навіть оголосила, що поступово перетворюється на компанію з інтелектуальних периферійних обчислень (надає обчислювальні послуги на джерелах даних, таких як мобільні термінали).Під сильним поштовхом гігантів галузева тенденція переміщення великомасштабних моделей від хмари до кінця стала дуже чіткою.## Чому велика модель повинна "бігти" на мобільному телефоні?Найбільшою особливістю великої моделі є «велика» з десятками мільярдів мільярдів або навіть трильйонами параметрів, і для кращої роботи великої моделі кластер обчислювальної потужності було оновлено до рівня «десять тисяч карт». Тепер, навіщо вам «впихати» велику модель у маленький мобільний телефон розміром з долоню?Велика модель приносить деякі покращення для користувачів мобільних телефонів. Наприклад, Xiaoyi, термінальний інтелектуальний помічник Huawei, може не тільки рекомендувати ресторани відповідно до голосових підказок, але й виконувати обробку інформації, таку як узагальнення, пошук інформації та багатомовний переклад.Довгий англійський текст із тисячами слів може бути оброблений мобільним телефоном інтелектуальний помічник із можливостями великомасштабної моделі.Створюється резюме, яке також можна перекласти на китайську мову. Особливо останній пункт, в епоху інформаційного вибуху, все ще є дуже цінним для підвищення ефективності навчання та роботи.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4d7d0cda67-dd1a6f-1c6801) **Цзя Юнлі, президент департаменту інтелектуального інтелектуального інтелекту Huawei Terminal BG і інтелектуального бізнесу для всіх сценаріїв, пояснив, що, з одного боку, велика мовна модель має здатність до узагальнення, що може допомогти розумним помічникам мобільних телефонів покращити розуміння. З іншого боку, можливість підключення великої моделі Plug-in може подолати бар’єри між програмами в мобільному телефоні та розширити можливості за допомогою інструментів. **Крім того, програми AIGC, такі як ChatGPT, завжди супроводжувалися серйозними суперечками щодо конфіденційності та безпеки, але якщо вони повністю запущені на кінцевій стороні, цієї проблеми можна повністю уникнути. Оскільки велика модель працює на кінцевій стороні, дані не будуть залишати кінцеву сторону. Крім того, швидкість відповіді буде швидше.** З іншого боку, попит на великі моделі мобільних терміналів, таких як мобільні телефони, вже є дуже актуальним. **Турбулентна тенденція великих моделей робить хмару все більш нездатною витримувати попит на обчислювальну потужність. Алекс Катузіан, старший віце-президент Qualcomm, нещодавно прямо сказав: «Оскільки прискорюється зростання підключених пристроїв і трафіку даних, а вартість накладених центрів обробки даних зростає, (для нас) неможливо відправити весь вміст у хмару».Не враховуючи велику кількість ресурсів, таких як пропускна здатність мережі, сховище та апаратне забезпечення, що споживаються передачею даних, обчислювальна потужність хмари сама по собі вже приголомшила відповідних виробників. ChatGPT лише на стадії висновків, і за консервативними оцінками щомісячна вартість обчислювальної потужності становить близько 10 мільйонів доларів США.Найбільша проблема не «дорого», а «не вистачає».Раніше навіть Сем Алтаман, засновник OpenAI, показав, що існує дефіцит графічних процесорів, і навіть прямо сказав, що він не хоче, щоб занадто багато людей використовували ChatGPT. Нещодавно деякі інсайдери припускають, що потужність великомасштабних кластерів H100 малих і великих хмарних провайдерів скоро вичерпається, і тенденція попиту на H100 збережеться принаймні до кінця 2024 року. Поточна виробнича потужність Nvidia H100 все ще сильно обмежена ланцюжком поставок.Таким чином, хмара та термінал формують співпрацю, а незадіяні ресурси обчислювальної потужності мобільних телефонів та інших терміналів використовуються для вирішення невідповідності між «централізованою» обчислювальною потужністю та «розподіленим» попитом. Що ще важливіше, порівняно з обмеженою кількістю центральних вузлів численні мобільні термінали можна назвати «капілярами», які стосуються тисяч сценаріїв, що визначає, що цей запис стане ключем до прискорення проникнення додатків у великі моделі.## Як «помістити» велику модель?«Порівняно з традиційними ПК або серверами, найбільша проблема для мобільних терміналів полягає в тому, як збалансувати досвід і споживання енергії. Це одна з найважливіших ключових точок основного дизайну Hongmeng», — Гонг Ті, президент відділу програмного забезпечення терміналів Huawei. , підкреслив .Велика модель вимагає багато обчислювальних ресурсів і ресурсів зберігання, особливо на основі наявної апаратної конфігурації мобільного телефону, що вимагає координації системи програмного забезпечення для підвищення ефективності та зменшення споживання енергії.Наразі, щоб покращити продуктивність мобільних телефонів, принаймні 8 ядер чіпа повинні бути скоординовані системою мобільного телефону, і цей процес споживатиме багато обчислювальної потужності. Якщо прийнято гетерогенне планування ресурсів, ЦП, ГП і НП можна ефективно координувати. За словами Gong Ti, ефективність планування можна збільшити більш ніж на 60%.Система мобільного телефону може виконувати обчислення, а найменша одиниця планування називається потоком.У традиційній операційній системі одночасно виконуються десятки тисяч потоків, і буде велика кількість недійсних потоків. З огляду на це, для обробки одночасних операцій і зменшення споживання обчислювальної потужності через недійсне перемикання потоків можна використовувати легшу модель паралелізму. За словами Gong Ti, модель паралелізму може зменшити накладні витрати на перемикання завдань на 50%.Крім того, з точки зору планування завдань в операційній системі, це також основний елемент, який впливає на безперебійну роботу. У порівнянні зі справедливим плануванням динамічне планування пріоритетів значно зменшить споживання енергії. Динамічне планування пріоритетів подібне до інтелектуальної транспортної системи, яка може динамічно регулювати стан освітлення світлофорів відповідно до дорожніх умов і транспортного потоку, заторів і затримок.Однак для того, щоб велика модель була розгорнута на мобільному телефоні та продовжувала працювати, недостатньо оновити та вдосконалити операційну систему мобільного телефону.Оскільки прогнози великих моделей стають точнішими, а мережі стають глибшими, ємність пам’яті, яку споживають нейронні мережі, стає основною проблемою. У той же час це також пов’язано з проблемою пропускної здатності пам’яті. Коли мережа працює, пам’ять, процесор і батарея будуть швидко споживатися. Це, безумовно, нестерпний тягар для сучасних мобільних телефонів.** Таким чином, перед розгортанням на мобільному телефоні велику модель потрібно стиснути, щоб зменшити потребу в обчислювальній потужності висновку. Однак важливо переконатися, що вихідна продуктивність і точність практично не змінюються. **Квантування — це поширена й важлива операція стиснення, яка може зменшити простір пам’яті, зайнятий моделлю, і покращити продуктивність логічного висновку. По суті, це перетворює модель операції з плаваючою комою в модель цілочисельної операції, оскільки цілочисельна операція має вищу точність і швидкість роботи, ніж операція з плаваючою комою.В даний час кількісні технології також прискорюють прориви. Модель, навчена на сервері, зазвичай використовує 32-розрядну арифметику з плаваючою комою (FP32).Що стосується мобільних телефонів, Qualcomm квантував і стиснув модель FP32 до моделі INT4, досягнувши 64 пам’яті та покращення енергоефективності обчислень. Дані впровадження Qualcomm показують, що після використання Qualcomm навчання сприйняття квантування багато моделей AIGC можна квантувати до моделей INT4.Порівняно з INT8 продуктивність покращена приблизно на 90%, а енергоефективність покращена приблизно на 60%.Технологія стиснення великих моделей, безсумнівно, є ключовим фактором для перемоги гігантів ШІ на полі битви мобільних терміналів. Це також певною мірою пояснює, чому Nvidia «тихо» придбала OmniML, стартап зі штучного інтелекту, який освоює технологію стиснення великих моделей, у лютому цього року.## Велика модель змушує апаратне забезпечення терміналу оновлюватися«Цього року ми зможемо підтримувати генеративну модель штучного інтелекту з 10 мільярдами параметрів, що працюють на мобільному телефоні». Зіад Асгар, старший віце-президент із управління продуктами та керівник відділу штучного інтелекту в Qualcomm, нещодавно сказав, що модель із 10 мільярдами до 15 мільярд параметрів може охопити більшість даних Більшість випадків використання AIGC. Якщо термінал вже може підтримувати цей рівень параметрів, усі обчислення можна буде виконувати на терміналі, і мобільний телефон стане справжнім персональним помічником.Проте нинішнє покоління флагманських чіпів для мобільних телефонів також може підтримувати та працювати з великою моделлю з рівнем параметрів 1 млрд. Компанія Qualcomm успішно продемонструвала велику модель, що працює на системі Android, на CVPR, найкращій академічній конференції з комп’ютерного зору в червні цього року. рік, але лише 1,5 млрд. параметр.Параметри підскочили майже в десять разів, а велика модель, яка прямує до мобільного терміналу, вже наступила на «прискорювач», тож мобільний телефон доводиться модернізувати, щоб з цим справлятися.**Апаратне забезпечення мобільних телефонів терміново потребує інновацій у прискорювачах ШІ та пам’яті. **По-перше, великі моделі з більшими параметрами вимагають більшого обсягу пам’яті та місця для зберігання параметрів моделі та проміжних результатів. Для цього потрібно оновити ємність чіпа пам’яті мобільного терміналу та пропускну здатність інтерфейсу пам’яті.По-друге, більші параметри неминуче вимагають потужніших обчислювальних засобів і можливостей міркування для обробки вхідних даних і вихідних результатів.Хоча прискорювачі штучного інтелекту (такі як різні IP-адреси NPU) на чіпах мобільних телефонів є майже стандартними, дизайн в основному відповідає дизайну згорткової нейронної мережі попереднього покоління, а не повністю для великих моделей.Щоб адаптуватися до великих моделей, прискорювачі AI повинні мати більшу пропускну здатність доступу до пам’яті та зменшити затримку доступу до пам’яті. Це вимагає деяких змін в інтерфейсі прискорювача ШІ (наприклад, призначення більше контактів інтерфейсу пам’яті), а також вимагає відповідних змін у з’єднанні даних на кристалі, щоб відповідати вимогам доступу до пам’яті прискорювача ШІ.Одна з важливих причин, чому Qualcomm може називати «запуск мобільних телефонів із 10 мільярдами параметрів протягом року», полягає в тому, що він оснащений процесором Snapdragon 8 другого покоління, оснащеним найшвидшим і найдосконалішим механізмом ШІ в історії Qualcomm. З новим процесором , продуктивність ШІ зросла в 4,35 рази, а енергоефективність зросла на 60%.**Звичайно, навіть у хмарі навчання та обґрунтування надвеликомасштабних моделей параметрів має терміново подолати п’ять стін: стіну пам’яті + стіну обчислювальної потужності + комунікаційну стіну + стіну налаштування + стіну розгортання, і мобільні телефони мають шар за шаром пробиватися . **Однак, від «інтелекту» до «штучного інтелекту», для мобільних телефонів можливості переважують виклики.«Вплив інноваційного циклу на споживчу електроніку більш важливий, і він навіть може вивести галузь з-під впливу економічного циклу.» Генеральний директор Glory Terminal Чжао Мін вважає, що нинішня індустрія смартфонів перебуває на новому витку інноваційного циклу. за ініціативи ШІ та 5G+.