При великих даних, великих параметрах і великих обчислювальних потужностях будуть «вимальовуватися» певні можливості великих моделей, які широко поширені в технологічному колі.
Основна ідея створення великої моделі така: не кажіть, що модель «не працює», якщо «вона ще не працює», то зробіть її більшою.
Тому менш ніж за рік масштаб параметрів великої моделі збільшився в 100 разів, а зараз він перевищив трильйонний рівень, споживання ресурсів величезне, а також це принесло все більші і більші витрати на зберігання, витрати на умовиводи, витрати на експлуатацію та обслуговування, а також витрати на посадку. та соціальні витрати.
В даний час велика модель все ще знаходиться на зорі комерціалізації, і все ще залишається багато невідомостей і невизначеностей щодо того, як повернути інвестиції у велику модель, а велика модель стає більшою і стала надзвичайно прибутковим бізнесом, за підтримки Open AI від Microsoft, який втратить близько 540 мільйонів доларів у 2022 році.
Вартість, що постійно зростає, є купюрою реальних грошей і «соломинкою», яка тяжіє над великими модельними підприємствами. Генеральний директор Anthropic Даріо Амодей нещодавно спрогнозував, що їхня модель коштуватиме 10 мільярдів доларів протягом наступних двох років.
Крім самих підприємств, приховані витрати великих моделей несе і суспільство. Компанія Google повідомила, що навчальний PaLM споживає близько 3,4 кВт-год електроенергії приблизно за два місяці, що еквівалентно загальному річному споживанню енергії 300 домогосподарств. Тягар і витрати від високого енергоспоживання на навколишнє середовище, спричинені великою моделлю, в кінцевому підсумку оплачуються всім суспільством.
Очевидно, що як з комерційної, так і з екологічної точки зору, розмір моделі конкуренції є нестійким.
Епоха сліпого пошуку величі пройшла.
Питання в тому, як «зменшити навантаження» великої моделі?
По суті, головні виробники великих моделей загального призначення активно проводять кампанію «схуднення».
Наприклад, Microsoft оголосила на Microsoft Build 2020, що суперкомп'ютер зі штучним інтелектом, який працює на GPT-3, може зробити моделі штучного інтелекту в 16 разів ефективнішими, ніж інші платформи, а більш швидке навчання може скоротити витрати часу та ризику.
Вітчизняні великі моделі не є винятком.
Ще у версії 2.0 велика модель Pangu намагалася прийняти розріджену + щільну архітектуру, щоб знизити вартість навчання. Через місяць після запуску, Wenxin Yiyan також покращив продуктивність висновків великої моделі майже в 10 разів за допомогою технічних засобів, і вартість висновку була знижена до однієї десятої від початкової вартості.
Щоб не стати роздутим і важким, обов'язково потрібно стати інструментом, яким зможе користуватися кожен, і «коштувати руху для схуднення» великих моделей. Як? У даній статті мова піде про це питання.
Один укус не може зробити товстуна
Які витрати великих моделей можна оптимізувати, які витрати не можна знижувати, а в які витрати потрібно додатково інвестувати? Перш ніж розібратися в цьому, спочатку потрібно знати, як погладшати. Для того, щоб забезпечити продуктивність і користувальницький досвід (здоров'я) великої моделі, «зниження вартості» може бути здійснено розумно і точно.
Простіше кажучи, три елементи штучного інтелекту – дані, обчислювальна потужність та алгоритми – як і раніше є найважливішими факторами у визначенні вартості великих моделей.
Почнемо з даних. ** Garbage in, garbage out, все ще застосовується в епоху великих моделей.
Якість даних безпосередньо визначає можливості великої моделі. OpenAI найняла низку докторів наук для обробки професійних даних у різних галузях і найняла низку компаній з анотації даних, таких як компанія-єдиноріг Scale AI, щоб годувати GPT-3 великомасштабними наборами даних. При цьому модель алгоритму продовжить ітеративно оновлюватися, а попит на обсяг даних збережеться ще короткий час зі збільшенням використання та оптимізацією продуктивності.
Однією з головних причин високої вартості китайських великих моделей є те, що все ще існує розрив між обсягом і якістю китайських даних та англійською мовою, і для навчання китайських великих моделей необхідно збирати та обробляти більше даних китайською мовою. З іншого боку, англійська граматична структура простіша, ніж китайська, складність і різноманітність китайських текстів, деякі китайські слова можуть виражати різноманітні значення, багатий контекст і багато двозначностей і труднощів у розумінні контексту, що також збільшує складність навчання китайських моделей і вимагає додаткових ресурсів для підтримки навчання китайських великих моделей.
Поговоримо про обчислювальні потужності. **
Ресурси потрібно обчислювати та зберігати протягом усього навчання, експлуатації, обслуговування та ітерації великих моделей.
Навчання великих моделей орієнтоване на «насильницьку естетику», і чим більше параметри, тим більше обчислювальних ресурсів використовується для навчання. GPT-3 використовує суперкомп'ютер, який містить 10 000 графічних процесорів і 285 000 ядер процесора. Вітчизняний Wenxin 4.0 також тренується в кластері Vanka на базі веслової платформи.
І це ще не все. Великі моделі піддаються впливу сервісів після розгортання, і зі збільшенням використання потрібно виконувати все більше і більше завдань з висновків. Процес міркувань «думати» і «виводити» за 24 години також продовжить споживати обчислювальні ресурси, подібно до того, як людський мозок повинен споживати глікоген при вирішенні великої кількості складних завдань, і легко відчути голод і з'їсти велику порцію, щоб поповнити запаси енергії. Тому вартість виведення великих моделей також дуже висока.
Висновок GPT-3 після розгортання 175B вимагає щонайменше п'яти графічних процесорів A100, а великі моделі, відкриті для всього суспільства в Китаї, такі як Wenxin Yiyan, мають у 8-10 разів більшу вартість висновків, ніж попереднє покоління.
Наостанок поговоримо про алгоритм. **
Щоб зменшити величезну залежність великих моделей від обчислювальних ресурсів, основним рішенням є оптимізація моделі на основі незмінної продуктивності, з більшою швидкістю висновків, меншою затримкою та нижчими вимогами до ресурсів, що еквівалентно вищому співвідношенню входів-виходів ROI, а вартість одиниці обчислювальних ресурсів, необхідних для навчання та висновків, є нижчою.
Праці стільки ж, скільки і інтелекту, і неможливо зробити велику модель, на якій реально грати без талантів. Розробка алгоритмів, тестування, ітерація, продукція тощо вимагають великої кількості технічних талантів. Висока вартість робочої сили чи ні, залежить від того, чи є бізнес-модель великої моделі надійною.
Команда талантів з повною академічною кваліфікацією є досить конкурентоспроможною на етапі досліджень і розробок. Питання в тому, як ви заробляєте гроші? Виклики API або плата за використання, токен коштує менше одного цента, а віддача від інвестицій може бути далекою; Платна підписка (професійна версія), головна велика модель має сифонний ефект, кожен вибере OpenAI або BATH та інших великих виробників, чи зможе їхня власна велика модель бути прийнята користувачами та готова платити, невідомо; Щоб налаштувати розробку для галузевих клієнтів, ToB повинен мати глибоке розуміння галузі, досліджень, розробок, тестування та ітерацій, щоб інженери алгоритмів з річною зарплатою в десятки мільйонів могли залишатися на будівельному майданчику протягом декількох місяців, а валовий прибуток проекту оцінюється не дуже хорошим.
Тому, чи зможе велика модель досягти успіху, залежить не тільки від можливостей самого алгоритму, але і від того, чи є стійким бізнес-цикл від розробки до впровадження.
Закрийте рот і відкрийте ноги
Якщо порівнювати вартість великої моделі з людиною, яка бажає скинути зайвий жир, то цю мету можна розбити на два основних способи:
Одна з них полягає в тому, щоб створити «різницю тепла». Це тримати язик за зубами і відкривати ноги, контролювати інвестиції, віднімати зайві витрати, прискорювати комерціалізацію і збільшувати дохід, а також природним чином худнути.
Друге – стати «легко схуднути». Повністю розуміти механізм великих моделей, використовувати нову архітектуру для вирішення проблеми механізму уваги трансформера, і мати статуру «як би ви не їли, ви не можете погладшати».
Хіба це не звучить так, ніби другий дуже спокусливий?
Вам не потрібно контролювати витрати, залучати користувачів, налаштовувати послуги та легко лягати, щоб заробити гроші, і це добре? Дійсно.
В даний час всі великі мовні моделі використовують архітектуру Transformer, яка ускладнює обробку довгих текстів і зображень з високою роздільною здатністю, а логічні міркування та індукція знань покладаються на «енергійне творення чудес», що дорого коштує. Багато з основних принципів досі незрозумілі, що призводить до багатьох існуючих проблем, таких як генерація «галюцинацій» і обмежена здатність міркувати.
Лауреат премії Тюрінга Янн Лекун не раз критикував технічну парадигму великих мовних моделей, кажучи, що «LLM мають дуже поверхневе розуміння світу», і він хоче побудувати «модель світу», щоб дізнатися, як влаштований світ, потім сформувати внутрішню модель, а потім використовувати цю внутрішню модель для виконання різних завдань. Крім того, є багато вчених, які обговорюють загальний інтелект AGI у відповідних галузях досліджень.
Підводячи підсумок, можна сказати, що багато принципів нинішніх великих мовних моделей не зрозумілі, і технологія все ще змінюється. У майбутньому можуть з'явитися інші технологічні парадигми, які підірвуть нинішню модель сліпого прагнення бути більшим, і тоді може не виникнути потреби в надмірних витратах і болісному «схудненні».
Можливо, ви зрозуміли, що дослідження основних принципів і пошук більш потужної технології AGI звучить круто, але насправді це не рахунок, і поки що немає чітких часових рамок. Технічна парадигма цього раунду великих мовних моделей здійсненна в інженерній практиці, може працювати в промисловості і має чіткий ефект підвищення якості та ефективності. Використання його в першу чергу та розуміння сьогодення є головним пріоритетом для технологічних компаній.
Тому масштабним модельним підприємствам залишається тільки тримати язик за зубами, відкривати ноги, якнайшвидше контролювати витрати, прискорити комерціалізацію та створити «теплотворну різницю» для доброякісного та сталого розвитку.
Рух чотирьох модернізацій для створення «різниці калорій»
Отже, як саме створити «різницю тепла»? ** Ґрунтуючись на основних методах, які зараз є на ринку, ми узагальнюємо їх як «Рух чотирьох модернізацій»: масштаб даних, стиснення моделей, ефективність обчислень та стратифікація бізнесу. **
Масштаб даних полягає в тому, щоб підвищити граничну вигоду від даних і отримати найкращу ефективність витрат за допомогою ефекту масштабування. Ефект масштабу в основному досягається трьома шляхами, один з яких – це масштаб промислової концентрації, а на національному рівні чітко запропоновано «прискорити культивування ринку елементів даних», що включає виробництво, збір, зберігання, обробку, аналіз, обслуговування та інші ланки даних, індустріалізація допоможе знизити вартість даних великих модельних підприємств. По-друге, це застосування інструментів штучного інтелекту, що зменшує ручну участь у всіх аспектах інженерії даних, прискорює обробку попередньо навчених даних, а також знижує витрати та підвищує ефективність навчання моделей. По-третє, шкала даних зворотного зв'язку. Очікується, що деякі великі моделі, які раніше відкрили свої послуги для всього суспільства, такі як Baidu Wenxin Yiyan, «SenseChat» від SenseTime, «Baichuan Model» від Baichuan Intelligence, «Spark Model» від iFLYTEK тощо, швидше досягнуть оптимального масштабу даних із незначними перевагами.
Дані приносять незначну користь. OpenAl вже дозволяє користувачам вирішувати, чи дозволяти їм використовувати дані чату для навчання, а це означає, що вони більше не можуть покладатися на дані відгуків користувачів, тому витрати на зберігання даних та обчислення можна контролювати.
Стиснення моделі полягає в тому, щоб покращити продуктивність моделі, досягти вищої продуктивності з меншими ресурсами та перетворити ресурсомістку велику модель на більш компактну та ефективну версію за допомогою технології стиснення. Подібно до перетворення жиру в м'язи, м'язи стають більш щільними, а вага (продуктивність) залишається незмінною, в той час як людина стає худішою (меншою).
В даний час існує три поширені методи стиснення великих моделей: кількісна оцінка, обрізка і дистиляція знань. **
Кількісне визначення, еквівалентне ліпосакції, є простим і грубим, але ефективним. Чим вище точність моделі, тим більше місця для зберігання потрібно. Однак при висновуванні не обов'язково фіксувати дуже малі градієнтні зміни в складних моделях, тому квантування може безпосередньо знизити точність параметрів моделі і «витягти» деяку детальну інформацію, тим самим зменшуючи займаний простір і не зменшуючи здатність до висновування. Наприклад, Qualcomm AI Research використовує технологію квантування для підтримки точності моделі на нижчому рівні точності, і вперше розгорнула Stable Diffusion на Android-смартфонах. Кількісна технологія також була застосована у вітчизняних великих моделях, таких як Wenxin і Pangu.
Обрізка, подібна до «висічення», безпосередньо віднімає деякі бічні гілки, які мало впливають на ефект, наприклад, велику кількість надлишкових структур і нейронів, і ці менші ваги видаляються, що мало впливає на ефект моделі та зменшує розмір моделі. Звичайно, обрізка - це «реміснича робота», і чим точніше обрізка, тим менше втрата точності моделі, і тим краще ефект стиснення.
Дистиляція знань полягає в тому, щоб дозволити великій моделі «сауні», а модель 100 мільярдів дистилюється за один прохід, щоб виготовити кілька невеликих моделей з аналогічною продуктивністю та простішою структурою, а вартість посадки нижча. Проблема полягає в тому, що модельна дистиляція з масштабом 100 мільярдів також споживає надзвичайно багато обчислювальних ресурсів, а розрив в обсязі даних від 100 мільярдів до десятків мільйонів занадто великий, що легко вплинути на ефект дистиляції. Неруйнівна дистиляція є одним з технічних пунктів конкуренції великих виробників.
Оскільки технологія стиснення моделей також споживає обчислювальні ресурси, особливо важливо підвищити обчислювальну ефективність обчислювальної інфраструктури.
Обчислювальна ефективність є передумовою для великих виробників моделей, щоб надавати модельні послуги з більш високою ефективністю.
Продуктивність чіпів і обчислювальних кластерів знаходиться в центрі уваги досліджень і оптимізації. Microsoft Cloud Azure створила суперкомп'ютер для обчислень зі штучним інтелектом спеціально для OpenAI. Вітчизняні виробники, такі як Baidu та Huawei, мають самостійно розроблені чіпи та фреймворки глибокого навчання, які можуть підвищити ефективність обчислень за рахунок наскрізної оптимізації, покращити швидкість навчання та швидкість висновків великих моделей, а також скоротити час та витрати на навчання.
Однак для незагальних великих моделей, таких як галузеві моделі та галузеві моделі, ефект масштабу та технологія оптимізації апаратного забезпечення обмежені, а витрати на самостійне створення та підтримку інфраструктури дуже високі, тому використання хмарних сервісів для навчання та розгортання сервісів є більш економічно ефективним вибором.
Зрештою, великим моделям необхідно збільшити комерційний дохід для досягнення мети оптимізації рентабельності інвестицій та відшкодування витрат. В даний час комерціалізація різних великих моделей відображає очевидні ієрархічні характеристики.
Простіше кажучи, це велика модель з різними об'ємами, різними функціями та різними напрямками, і шлях комерціалізації став зрозумілим.
Загальна модель ґрунтується на економії на масштабі та ринках з високою вартістю. OpenAI має величезну кількість користувачів, а розвиток економіки API має ефект масштабу, а початкові інвестиції можна розділити порівну зі зростанням обсягу бізнесу. BATH (Baidu, Alibaba, Tencent, Huawei) та інші мають власний хмарний бізнес і накопичили багатий досвід у сфері галузевих послуг, особливо можливостей охоплення клієнтів великими урядами та підприємствами, такими як фінанси, гірничодобувна промисловість та урядові справи, і мають великий потенціал для комерційної трансформації. Високі вимоги клієнтів ToB сприяють покращенню досвіду та ефекту моделі, а також можуть обслуговувати ринок змісту та додатково амортизувати витрати за рахунок масштабу.
Велика галузева модель активно обмежує межі продукту та бізнесу, зосереджується на основному бізнесі та функціях, а також розробляє спеціалізовані невеликі моделі з меншими ресурсами, щоб досягти хорошого балансу рентабельності інвестицій між інвестиціями та комерціалізацією. Наприклад, у фінансовій сфері «Xuanyuan 70B» Ду Сяомана об'єднав велику кількість професійних фінансових корпусів для покращення розуміння фінансових знань, задоволення особливих вимог фінансових клієнтів з точки зору контрольованості та безпеки, і був поданий для випробування сотнями фінансових установ.
Загалом, велика модель є не лише універсальним та узагальненим шляхом, але й приватизація та персоналізоване розгортання тисяч галузей промисловості створить фактори прийняття рішень, такі як ціна, конфіденційність та безпека, а також надасть велику кількість можливостей для сегментації бізнесу. Загальна велика модель, велика модель галузі та власна мала модель, ієрархічні + спільні зусилля відкривають шлях до комерціалізації. Гармонія та відмінність випробовують мудрість кожної ролі в промисловому ланцюжку.
Для довгострокових і стійких послуг необхідно тримати язик за зубами і відкривати ноги, а «здешевлення» великої моделі - єдиний вихід.
Цей процес може бути болючим, але він ущільнить рів, щоб захистити здоровий розвиток усієї галузі.
У 40-х роках 20 століття, коли комп'ютери тільки зароджувалися, люди дивувалися величезному тілу цього «машинного монстра», але потім почався стрибок інформаційної ери. Коли смартфони тільки з'явилися на світ, виробники функціональних телефонів були вкрай саркастично налаштовані щодо цього, але вони не очікували, що такий інклюзивний зв'язок, де кожен може отримати доступ до Інтернету, сприятиме процвітанню мобільного Інтернету.
У міру того, як великі моделі стають все кращими і нижчими, «штучний інтелект для всіх» більше не буде далекою мрією.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Рух «схуднення» великих моделей
Першоджерело: Полярне тіло мозку
При великих даних, великих параметрах і великих обчислювальних потужностях будуть «вимальовуватися» певні можливості великих моделей, які широко поширені в технологічному колі.
Основна ідея створення великої моделі така: не кажіть, що модель «не працює», якщо «вона ще не працює», то зробіть її більшою.
Тому менш ніж за рік масштаб параметрів великої моделі збільшився в 100 разів, а зараз він перевищив трильйонний рівень, споживання ресурсів величезне, а також це принесло все більші і більші витрати на зберігання, витрати на умовиводи, витрати на експлуатацію та обслуговування, а також витрати на посадку. та соціальні витрати.
В даний час велика модель все ще знаходиться на зорі комерціалізації, і все ще залишається багато невідомостей і невизначеностей щодо того, як повернути інвестиції у велику модель, а велика модель стає більшою і стала надзвичайно прибутковим бізнесом, за підтримки Open AI від Microsoft, який втратить близько 540 мільйонів доларів у 2022 році.
Вартість, що постійно зростає, є купюрою реальних грошей і «соломинкою», яка тяжіє над великими модельними підприємствами. Генеральний директор Anthropic Даріо Амодей нещодавно спрогнозував, що їхня модель коштуватиме 10 мільярдів доларів протягом наступних двох років.
Крім самих підприємств, приховані витрати великих моделей несе і суспільство. Компанія Google повідомила, що навчальний PaLM споживає близько 3,4 кВт-год електроенергії приблизно за два місяці, що еквівалентно загальному річному споживанню енергії 300 домогосподарств. Тягар і витрати від високого енергоспоживання на навколишнє середовище, спричинені великою моделлю, в кінцевому підсумку оплачуються всім суспільством.
Очевидно, що як з комерційної, так і з екологічної точки зору, розмір моделі конкуренції є нестійким.
Епоха сліпого пошуку величі пройшла.
Питання в тому, як «зменшити навантаження» великої моделі?
По суті, головні виробники великих моделей загального призначення активно проводять кампанію «схуднення».
Наприклад, Microsoft оголосила на Microsoft Build 2020, що суперкомп'ютер зі штучним інтелектом, який працює на GPT-3, може зробити моделі штучного інтелекту в 16 разів ефективнішими, ніж інші платформи, а більш швидке навчання може скоротити витрати часу та ризику.
Вітчизняні великі моделі не є винятком.
Ще у версії 2.0 велика модель Pangu намагалася прийняти розріджену + щільну архітектуру, щоб знизити вартість навчання. Через місяць після запуску, Wenxin Yiyan також покращив продуктивність висновків великої моделі майже в 10 разів за допомогою технічних засобів, і вартість висновку була знижена до однієї десятої від початкової вартості.
Щоб не стати роздутим і важким, обов'язково потрібно стати інструментом, яким зможе користуватися кожен, і «коштувати руху для схуднення» великих моделей. Як? У даній статті мова піде про це питання.
Один укус не може зробити товстуна
Які витрати великих моделей можна оптимізувати, які витрати не можна знижувати, а в які витрати потрібно додатково інвестувати? Перш ніж розібратися в цьому, спочатку потрібно знати, як погладшати. Для того, щоб забезпечити продуктивність і користувальницький досвід (здоров'я) великої моделі, «зниження вартості» може бути здійснено розумно і точно.
Простіше кажучи, три елементи штучного інтелекту – дані, обчислювальна потужність та алгоритми – як і раніше є найважливішими факторами у визначенні вартості великих моделей.
Почнемо з даних. ** Garbage in, garbage out, все ще застосовується в епоху великих моделей.
Якість даних безпосередньо визначає можливості великої моделі. OpenAI найняла низку докторів наук для обробки професійних даних у різних галузях і найняла низку компаній з анотації даних, таких як компанія-єдиноріг Scale AI, щоб годувати GPT-3 великомасштабними наборами даних. При цьому модель алгоритму продовжить ітеративно оновлюватися, а попит на обсяг даних збережеться ще короткий час зі збільшенням використання та оптимізацією продуктивності.
Однією з головних причин високої вартості китайських великих моделей є те, що все ще існує розрив між обсягом і якістю китайських даних та англійською мовою, і для навчання китайських великих моделей необхідно збирати та обробляти більше даних китайською мовою. З іншого боку, англійська граматична структура простіша, ніж китайська, складність і різноманітність китайських текстів, деякі китайські слова можуть виражати різноманітні значення, багатий контекст і багато двозначностей і труднощів у розумінні контексту, що також збільшує складність навчання китайських моделей і вимагає додаткових ресурсів для підтримки навчання китайських великих моделей.
Поговоримо про обчислювальні потужності. **
Ресурси потрібно обчислювати та зберігати протягом усього навчання, експлуатації, обслуговування та ітерації великих моделей.
Навчання великих моделей орієнтоване на «насильницьку естетику», і чим більше параметри, тим більше обчислювальних ресурсів використовується для навчання. GPT-3 використовує суперкомп'ютер, який містить 10 000 графічних процесорів і 285 000 ядер процесора. Вітчизняний Wenxin 4.0 також тренується в кластері Vanka на базі веслової платформи.
І це ще не все. Великі моделі піддаються впливу сервісів після розгортання, і зі збільшенням використання потрібно виконувати все більше і більше завдань з висновків. Процес міркувань «думати» і «виводити» за 24 години також продовжить споживати обчислювальні ресурси, подібно до того, як людський мозок повинен споживати глікоген при вирішенні великої кількості складних завдань, і легко відчути голод і з'їсти велику порцію, щоб поповнити запаси енергії. Тому вартість виведення великих моделей також дуже висока.
Висновок GPT-3 після розгортання 175B вимагає щонайменше п'яти графічних процесорів A100, а великі моделі, відкриті для всього суспільства в Китаї, такі як Wenxin Yiyan, мають у 8-10 разів більшу вартість висновків, ніж попереднє покоління.
Наостанок поговоримо про алгоритм. **
Щоб зменшити величезну залежність великих моделей від обчислювальних ресурсів, основним рішенням є оптимізація моделі на основі незмінної продуктивності, з більшою швидкістю висновків, меншою затримкою та нижчими вимогами до ресурсів, що еквівалентно вищому співвідношенню входів-виходів ROI, а вартість одиниці обчислювальних ресурсів, необхідних для навчання та висновків, є нижчою.
Праці стільки ж, скільки і інтелекту, і неможливо зробити велику модель, на якій реально грати без талантів. Розробка алгоритмів, тестування, ітерація, продукція тощо вимагають великої кількості технічних талантів. Висока вартість робочої сили чи ні, залежить від того, чи є бізнес-модель великої моделі надійною.
Команда талантів з повною академічною кваліфікацією є досить конкурентоспроможною на етапі досліджень і розробок. Питання в тому, як ви заробляєте гроші? Виклики API або плата за використання, токен коштує менше одного цента, а віддача від інвестицій може бути далекою; Платна підписка (професійна версія), головна велика модель має сифонний ефект, кожен вибере OpenAI або BATH та інших великих виробників, чи зможе їхня власна велика модель бути прийнята користувачами та готова платити, невідомо; Щоб налаштувати розробку для галузевих клієнтів, ToB повинен мати глибоке розуміння галузі, досліджень, розробок, тестування та ітерацій, щоб інженери алгоритмів з річною зарплатою в десятки мільйонів могли залишатися на будівельному майданчику протягом декількох місяців, а валовий прибуток проекту оцінюється не дуже хорошим.
Тому, чи зможе велика модель досягти успіху, залежить не тільки від можливостей самого алгоритму, але і від того, чи є стійким бізнес-цикл від розробки до впровадження.
Закрийте рот і відкрийте ноги
Якщо порівнювати вартість великої моделі з людиною, яка бажає скинути зайвий жир, то цю мету можна розбити на два основних способи:
Одна з них полягає в тому, щоб створити «різницю тепла». Це тримати язик за зубами і відкривати ноги, контролювати інвестиції, віднімати зайві витрати, прискорювати комерціалізацію і збільшувати дохід, а також природним чином худнути.
Друге – стати «легко схуднути». Повністю розуміти механізм великих моделей, використовувати нову архітектуру для вирішення проблеми механізму уваги трансформера, і мати статуру «як би ви не їли, ви не можете погладшати».
Хіба це не звучить так, ніби другий дуже спокусливий?
Вам не потрібно контролювати витрати, залучати користувачів, налаштовувати послуги та легко лягати, щоб заробити гроші, і це добре? Дійсно.
В даний час всі великі мовні моделі використовують архітектуру Transformer, яка ускладнює обробку довгих текстів і зображень з високою роздільною здатністю, а логічні міркування та індукція знань покладаються на «енергійне творення чудес», що дорого коштує. Багато з основних принципів досі незрозумілі, що призводить до багатьох існуючих проблем, таких як генерація «галюцинацій» і обмежена здатність міркувати.
Лауреат премії Тюрінга Янн Лекун не раз критикував технічну парадигму великих мовних моделей, кажучи, що «LLM мають дуже поверхневе розуміння світу», і він хоче побудувати «модель світу», щоб дізнатися, як влаштований світ, потім сформувати внутрішню модель, а потім використовувати цю внутрішню модель для виконання різних завдань. Крім того, є багато вчених, які обговорюють загальний інтелект AGI у відповідних галузях досліджень.
Підводячи підсумок, можна сказати, що багато принципів нинішніх великих мовних моделей не зрозумілі, і технологія все ще змінюється. У майбутньому можуть з'явитися інші технологічні парадигми, які підірвуть нинішню модель сліпого прагнення бути більшим, і тоді може не виникнути потреби в надмірних витратах і болісному «схудненні».
Можливо, ви зрозуміли, що дослідження основних принципів і пошук більш потужної технології AGI звучить круто, але насправді це не рахунок, і поки що немає чітких часових рамок. Технічна парадигма цього раунду великих мовних моделей здійсненна в інженерній практиці, може працювати в промисловості і має чіткий ефект підвищення якості та ефективності. Використання його в першу чергу та розуміння сьогодення є головним пріоритетом для технологічних компаній.
Тому масштабним модельним підприємствам залишається тільки тримати язик за зубами, відкривати ноги, якнайшвидше контролювати витрати, прискорити комерціалізацію та створити «теплотворну різницю» для доброякісного та сталого розвитку.
Рух чотирьох модернізацій для створення «різниці калорій»
Отже, як саме створити «різницю тепла»? ** Ґрунтуючись на основних методах, які зараз є на ринку, ми узагальнюємо їх як «Рух чотирьох модернізацій»: масштаб даних, стиснення моделей, ефективність обчислень та стратифікація бізнесу. **
Масштаб даних полягає в тому, щоб підвищити граничну вигоду від даних і отримати найкращу ефективність витрат за допомогою ефекту масштабування. Ефект масштабу в основному досягається трьома шляхами, один з яких – це масштаб промислової концентрації, а на національному рівні чітко запропоновано «прискорити культивування ринку елементів даних», що включає виробництво, збір, зберігання, обробку, аналіз, обслуговування та інші ланки даних, індустріалізація допоможе знизити вартість даних великих модельних підприємств. По-друге, це застосування інструментів штучного інтелекту, що зменшує ручну участь у всіх аспектах інженерії даних, прискорює обробку попередньо навчених даних, а також знижує витрати та підвищує ефективність навчання моделей. По-третє, шкала даних зворотного зв'язку. Очікується, що деякі великі моделі, які раніше відкрили свої послуги для всього суспільства, такі як Baidu Wenxin Yiyan, «SenseChat» від SenseTime, «Baichuan Model» від Baichuan Intelligence, «Spark Model» від iFLYTEK тощо, швидше досягнуть оптимального масштабу даних із незначними перевагами.
Дані приносять незначну користь. OpenAl вже дозволяє користувачам вирішувати, чи дозволяти їм використовувати дані чату для навчання, а це означає, що вони більше не можуть покладатися на дані відгуків користувачів, тому витрати на зберігання даних та обчислення можна контролювати.
Стиснення моделі полягає в тому, щоб покращити продуктивність моделі, досягти вищої продуктивності з меншими ресурсами та перетворити ресурсомістку велику модель на більш компактну та ефективну версію за допомогою технології стиснення. Подібно до перетворення жиру в м'язи, м'язи стають більш щільними, а вага (продуктивність) залишається незмінною, в той час як людина стає худішою (меншою).
В даний час існує три поширені методи стиснення великих моделей: кількісна оцінка, обрізка і дистиляція знань. **
Кількісне визначення, еквівалентне ліпосакції, є простим і грубим, але ефективним. Чим вище точність моделі, тим більше місця для зберігання потрібно. Однак при висновуванні не обов'язково фіксувати дуже малі градієнтні зміни в складних моделях, тому квантування може безпосередньо знизити точність параметрів моделі і «витягти» деяку детальну інформацію, тим самим зменшуючи займаний простір і не зменшуючи здатність до висновування. Наприклад, Qualcomm AI Research використовує технологію квантування для підтримки точності моделі на нижчому рівні точності, і вперше розгорнула Stable Diffusion на Android-смартфонах. Кількісна технологія також була застосована у вітчизняних великих моделях, таких як Wenxin і Pangu.
Обрізка, подібна до «висічення», безпосередньо віднімає деякі бічні гілки, які мало впливають на ефект, наприклад, велику кількість надлишкових структур і нейронів, і ці менші ваги видаляються, що мало впливає на ефект моделі та зменшує розмір моделі. Звичайно, обрізка - це «реміснича робота», і чим точніше обрізка, тим менше втрата точності моделі, і тим краще ефект стиснення.
Дистиляція знань полягає в тому, щоб дозволити великій моделі «сауні», а модель 100 мільярдів дистилюється за один прохід, щоб виготовити кілька невеликих моделей з аналогічною продуктивністю та простішою структурою, а вартість посадки нижча. Проблема полягає в тому, що модельна дистиляція з масштабом 100 мільярдів також споживає надзвичайно багато обчислювальних ресурсів, а розрив в обсязі даних від 100 мільярдів до десятків мільйонів занадто великий, що легко вплинути на ефект дистиляції. Неруйнівна дистиляція є одним з технічних пунктів конкуренції великих виробників.
Оскільки технологія стиснення моделей також споживає обчислювальні ресурси, особливо важливо підвищити обчислювальну ефективність обчислювальної інфраструктури.
Обчислювальна ефективність є передумовою для великих виробників моделей, щоб надавати модельні послуги з більш високою ефективністю.
Продуктивність чіпів і обчислювальних кластерів знаходиться в центрі уваги досліджень і оптимізації. Microsoft Cloud Azure створила суперкомп'ютер для обчислень зі штучним інтелектом спеціально для OpenAI. Вітчизняні виробники, такі як Baidu та Huawei, мають самостійно розроблені чіпи та фреймворки глибокого навчання, які можуть підвищити ефективність обчислень за рахунок наскрізної оптимізації, покращити швидкість навчання та швидкість висновків великих моделей, а також скоротити час та витрати на навчання.
Однак для незагальних великих моделей, таких як галузеві моделі та галузеві моделі, ефект масштабу та технологія оптимізації апаратного забезпечення обмежені, а витрати на самостійне створення та підтримку інфраструктури дуже високі, тому використання хмарних сервісів для навчання та розгортання сервісів є більш економічно ефективним вибором.
Зрештою, великим моделям необхідно збільшити комерційний дохід для досягнення мети оптимізації рентабельності інвестицій та відшкодування витрат. В даний час комерціалізація різних великих моделей відображає очевидні ієрархічні характеристики.
Простіше кажучи, це велика модель з різними об'ємами, різними функціями та різними напрямками, і шлях комерціалізації став зрозумілим.
Загальна модель ґрунтується на економії на масштабі та ринках з високою вартістю. OpenAI має величезну кількість користувачів, а розвиток економіки API має ефект масштабу, а початкові інвестиції можна розділити порівну зі зростанням обсягу бізнесу. BATH (Baidu, Alibaba, Tencent, Huawei) та інші мають власний хмарний бізнес і накопичили багатий досвід у сфері галузевих послуг, особливо можливостей охоплення клієнтів великими урядами та підприємствами, такими як фінанси, гірничодобувна промисловість та урядові справи, і мають великий потенціал для комерційної трансформації. Високі вимоги клієнтів ToB сприяють покращенню досвіду та ефекту моделі, а також можуть обслуговувати ринок змісту та додатково амортизувати витрати за рахунок масштабу.
Велика галузева модель активно обмежує межі продукту та бізнесу, зосереджується на основному бізнесі та функціях, а також розробляє спеціалізовані невеликі моделі з меншими ресурсами, щоб досягти хорошого балансу рентабельності інвестицій між інвестиціями та комерціалізацією. Наприклад, у фінансовій сфері «Xuanyuan 70B» Ду Сяомана об'єднав велику кількість професійних фінансових корпусів для покращення розуміння фінансових знань, задоволення особливих вимог фінансових клієнтів з точки зору контрольованості та безпеки, і був поданий для випробування сотнями фінансових установ.
Загалом, велика модель є не лише універсальним та узагальненим шляхом, але й приватизація та персоналізоване розгортання тисяч галузей промисловості створить фактори прийняття рішень, такі як ціна, конфіденційність та безпека, а також надасть велику кількість можливостей для сегментації бізнесу. Загальна велика модель, велика модель галузі та власна мала модель, ієрархічні + спільні зусилля відкривають шлях до комерціалізації. Гармонія та відмінність випробовують мудрість кожної ролі в промисловому ланцюжку.
Для довгострокових і стійких послуг необхідно тримати язик за зубами і відкривати ноги, а «здешевлення» великої моделі - єдиний вихід.
Цей процес може бути болючим, але він ущільнить рів, щоб захистити здоровий розвиток усієї галузі.
У 40-х роках 20 століття, коли комп'ютери тільки зароджувалися, люди дивувалися величезному тілу цього «машинного монстра», але потім почався стрибок інформаційної ери. Коли смартфони тільки з'явилися на світ, виробники функціональних телефонів були вкрай саркастично налаштовані щодо цього, але вони не очікували, що такий інклюзивний зв'язок, де кожен може отримати доступ до Інтернету, сприятиме процвітанню мобільного Інтернету.
У міру того, як великі моделі стають все кращими і нижчими, «штучний інтелект для всіх» більше не буде далекою мрією.