За найпотужнішою комерційною моделлю Meta з відкритим вихідним кодом: гігантське змагання з порятунку життя, Маск і Apple знаходять інший шлях

Текст: Го Сяоцзін, Tencent Technology

Джерело зображення: створено Unbounded AI

19 липня Meta оголосила про офіційний випуск великої мовної моделі Llama2 на своєму офіційному веб-сайті. Це остання версія великої мовної моделі Meta та перша комерційна велика мовна модель Meta з відкритим кодом. Водночас Microsoft Azure також оголосила, що він буде глибоко співпрацювати з Llama2.

Згідно з офіційними даними Meta, Llama 2 покращила свої навчальні дані на 40% порівняно з попереднім поколінням, включаючи 3 версії з 7 мільярдами, 13 мільярдами та 70 мільярдами параметрів. Попередньо навчену модель Llama 2 було навчено на 2 трильйонах токенів із подвійною довжиною контексту, ніж на Llama 1, а її налаштовану модель було навчено на більш ніж 1 мільйоні людських анотацій.

Кажуть, що його продуктивність порівнянна з GPT-3.5, і він також відомий як найкраща велика модель з відкритим кодом. Після оприлюднення цієї новини ЗМІ та індустрія навіть зробили висновок, що комерціалізація Llama2 з відкритим вихідним кодом змінить конкурентний ландшафт у сфері великих моделей. Наскільки великий вплив цього інциденту? Який вплив це матиме на галузь? Ми запросили двох представників галузі поговорити. Один — Чжоу Сонтао, заступник генерального менеджера Центру досліджень і розробок продуктів Leo Group Digital Technology Co., Ltd.. Він привів команду до майже оцінки більшості основні великі моделі вдома та за кордоном; інший – це пані Цзяо Цзюань, президент Інституту космічних досліджень Аньсіньюань, яка багато років глибоко спостерігає за екологією технологічної галузі вдома та за кордоном.

Нижче наведено основні точки зору обох:

① Llama2 всебічно враховує параметри моделі, споживання часу, споживання обчислювальної потужності та інші аспекти. У порівнянні з GPT-3.5 це впевнено.

② Генеративний штучний інтелект призведе до карколомних змін у всій системі з відкритим кодом.

③ У майбутньому відкритий і закритий вихідний код обов’язково будуть змінювати один одного, і модель взаємних ігор і конкуренції буде формуватися в цій сфері ще досить довго.

④ Комерційний відкритий вихідний код Llama2 не обов’язково зменшить витрати для підприємців на використання великих моделей, але це може змусити постачальників послуг великих моделей розпочати цінову війну, що є гарною новиною для користувачів і підприємців.

⑤ Конкуренція закордонних гігантів у сфері штучного інтелекту вже не така проста, як розробка другої кривої. Конкуренція є жорстокою та вирішальною, і навіть трохи рятівною. Причини цього варто задуматися.

Нижче наведено вибірку вмісту бесіди:

**Tencent Technology: як оцінити велику модель з точки зору практиків або аплікаторів? **

Чжоу Сонтао: MMLU — це найбільш поширена система оцінювання широкомасштабної моделі в світі. Вона враховує всебічні знання та здібності з 57 дисциплін, від гуманітарних до соціальних наук до науки та техніки. Більшість наших оцінок базуються на цій системі. Але наша галузь – це рекламна індустрія, виходячи з атрибутів рекламної індустрії, ми додамо деякі інші оцінки.

Ми також говорили на зустрічі керівництва групи, що в центрі уваги рекламної індустрії не креативність, а контроль. Отримані результати повинні на 100% відповідати рекламодавцю, характеристикам його продукту, зовнішньому вигляду, логотипу тощо. Лише після того, як ці скорочення будуть досягнуті, з’явиться місце для розбіжностей і фантазії. Тому ми зробимо окремий тест для контролю галюцинації великої моделі. Однак більшість великих мовних моделей і моделей розповсюдження для створення зображень на ринку важко повністю задовольнити потреби рекламодавців. Після випуску великої моделі загального призначення попереду ще довгий шлях до її повної комерціалізації.

Крім того, найважливіше, що ми розглядаємо, — це питання вартості: модель із закритим кодом має систему прямого котирування, і ми зазвичай вимірюємо вартість тисяч токенів. Для моделі з відкритим вихідним кодом існує більше зв’язків, які потрібно виміряти та обчислити, від розгортання до тонкої настройки до остаточного онлайн-обґрунтування, скільки обчислювальної потужності споживається, і скільки коштує розробка та вартість даних, вкладених у підтримку відкритості вихідна модель.

Відгуки про якість великої моделі плюс оцінка вартості можуть сформувати оцінку моделі. Простим реченням: Чим вища вартість, тим популярніша.

Цзяо Цзюань: З нашої точки зору, важливіше те, як визначити деякі вертикальні вимоги. Тому що в глобальному масштабі, незалежно від того, чи це компанія, що займається жорсткими технологіями, чи Інтернет-компанія, може бути не надто багато компаній, які справді здатні визначати вимоги, тому цю пропозицію можна перетворити на——**Можна широкомасштабна Модельні компанії самі встановлюють певні вертикальні вимоги? Якщо ні, чи можемо ми співпрацювати з екологічними партнерами, щоб дослідити кращий напрям вертикальних категорій. Звичайно, було б краще, якщо певні компанії можуть мати власне накопичення даних і накопичення досвіду в певному напрямку. Це наша точка зору, з точки зору застосування та визначення потреб вертикально сегментованих галузей.

**Технологія Tencent: чи справді Llama2 може перевершити або зрівнятися з GPT-3.5 за продуктивністю? **

Чжоу Сонтао: Велика модель для Llama2 все ще перебуває на стадії оцінки, і це займе близько 2 тижнів. Але на основі нашого вивчення статті та деяких простих оцінок, які були зроблені досі, ми можемо зробити деякі загальні порівняння.

Є кілька відмінностей між стадією попереднього навчання та оригінальною моделлю GPT, і ці зміни раніше не вносилися іншими модельними компаніями. Перший полягає в тому, щоб змінити механізм уваги з кількома головами традиційного Трансформера на механізм групування фрагментів на етапі попереднього навчання. Це трохи схоже або імітує технологію шардингу, яку ми використовували, коли обробляли великі дані та обробляли великомасштабні паралельні дані. Згрупуйте велику кількість запитів (запитів), які потребують уваги, у групи та помістіть кожну групу в навчальний блок, щоб теоретично ефективність і швидкість паралелізму були значно покращені. Я думаю, що ця частина є новою зміною, внесеною Meta на основі попереднього досвіду великомасштабної паралельної обробки.

Виходячи з цієї зміни, я думаю, що теоретично вони у багато разів вищі за існуючі великі моделі з точки зору вимог до обчислювальної потужності та споживання часу. Я припускаю, що Llama2 почнеться в січні згідно з їхньою заявою. Розрахований відповідно до часу випуску, він повинен бути коротшим, ніж час попереднього навчання Llama1, оскільки він має більше параметрів, ніж Llama1. Таким чином стискається можливий цикл кількох раундів навчання. Це тісно пов’язане із GQA, згаданим у документі. На даний момент він повинен перевищувати GPT 4. Хоча ми не знаємо конкретного числа GPT-4, згідно з зовнішніми припущеннями, GPT-4 набагато вище, ніж GPT-3 і GPT-3,5.

Що стосується GQA, ми наразі вважаємо, що **метод обробки GQA справді може покращити швидкість навчання для користувачів із картами достатньої обчислювальної потужності, особливо ресурсами паралельних обчислень GPU. **Однак тести та експертні оцінки показали, що ця функція має високі вимоги до розміру обчислювальної потужності та апаратного забезпечення. З відомих причин розробники в материковому Китаї мають мало великомасштабних паралельних обчислювальних ресурсів GPU, тому **GQA може негативно вплинути на нас Це несмачно. **

Крім того, другий момент полягає в тому, що на етапі налаштування ми знаємо, що система GPT виконала пошарову обробку даних під час нормалізації, що робить результати навчання даних дуже точними, але це також споживає багато обчислювальної потужності. Але Llama2 використовує інше рішення, яке полягає в додаванні вагових коефіцієнтів на основі багаторівневої обробки, що дуже корисно для підвищення ефективності та підтримки точності, а також корисно для економії обчислювальної потужності. Ці два моменти є оптимізованими на етапі попереднього навчання. **

Крім того, у документі також зазначено, що позиція вбудовування Llama1 фіксована і не може бути змінена. Але в Llama2 це можна регулювати динамічно, що також є яскравою плямою. Нас це також дуже цікавить, і ми хочемо знати, який практичний ефект це може дати.

Окрім цього, Llama2, очевидно, перейняла певний інженерний досвід серій Llama1 та GPT, тобто успішний досвід на етапі RHLF було повторно використано, і його слід значно покращити.

І останнє – це параметри співвідношення. Те, що я бачив досі, це ті параметри, які він розкрив на своєму офіційному веб-сайті. Існує понад 1 мільйон параметрів, включаючи штучно посилений зворотний зв’язок, а тонко налаштована частина досягає понад 100 000. Якщо він наважиться оприлюднити ці параметри, це означає, що Meta має впевненість, щоб всебічно розглянути параметри моделі, споживання часу та споживання обчислювальної потужності.

**Tencent Technology: Чому порогове значення для комерційного відкритого коду встановлено не більше ніж у 700 мільйонів активних користувачів щомісяця? **

Цзяо Цзюань: Жартую, я вважаю, що ця норма «дуже відкрита» — Meta зіграла яскраву карту, оскільки вона не може перешкоджати іншим досліджувати, а потім відпустіть це. По суті, це результат внутрішніх ігор. Фінансові показники Meta були не дуже хорошими з початку 2021 року, тому вона шукала другу криву зростання. У жовтні 2021 року Meta змінила назву на All in Metaverse, але суттєвих покращень не відбулося. Він запустив поточну велику модель, яка може бути інтегрована з власним апаратним забезпеченням. Це еквівалентно грі в яскраву карту. Для цього потрібні апаратне забезпечення, програмне забезпечення та операційна система. Він сподівається зайняти власне місце в епоху штучного інтелекту, але в той же час як відкритий код, він не хоче бути надто вигідний для конкурентів. Як бачите, 700 мільйонів активних продуктів щомісяця включають YouTube 2,5 мільярда, Apple 1,8 мільярда, Microsoft 1,4 мільярда, Samsung 1 мільярд, LinkedIn 900 мільйонів, Snapchat 750 мільйонів тощо.

**Tencent Technology: яка суттєва різниця між комерційним відкритим кодом і ліцензуванням досліджень? Який вплив може бути на екосистему з відкритим кодом? **

Чжоу Сонтао: Після спалаху великої мовної моделі питання відкритого коду також стало дуже складним.Усі внесли багато коригувань у визначення відкритого коду та це правило. Це передбачатиме відкриття коду самого алгоритму, дослідження відкритих джерел даних тощо. Для оцінки загального відкритого вихідного коду нової мовної моделі або генеративної моделі: по-перше, це залежить від того, чи є код її алгоритму з відкритим вихідним кодом, а потім від того, чи буде його набір навчальних номерів відкритим кодом. Третій — на основі алгоритму з відкритим вихідним кодом. Якщо я зроблю точне налаштування чи іншу обробку, які обмеження матиме ваша політика авторизації. По-четверте, використовувати результати вашої моделі висновку, чи має сторона моделі контроль. Загалом ми судимо за цими вказівками, чи справді «відкритий код» цієї моделі має для нас прикладну цінність.

Щодо дослідження відкритого коду та комерційного відкритого коду, я пам’ятаю, що найбільш типовим прикладом є компанія Stability AI.Я пам’ятаю, що за два тижні до того, як LLama2 був відкритим кодом, також була випущена XL-версія StabilityAI, тобто лише дослідження дозволено використовувати відкритого коду, і чітко обумовлено, що моделі можна використовувати. Виконуйте дослідження з даними, наприклад, якщо ви дослідник або належите до певного університету, але якщо ви використовуєте цю модель для комерціалізації, це повністю заборонено, і ви для його використання необхідно подати заявку на авторизацію окремо.

Я вважаю, що авторизація великих моделей із відкритим кодом значно змінилася порівняно з початковою логікою відкритого коду. Посилання та процеси налаштовані дуже ретельно. Цілком можливо, що генеративний штучний інтелект принесе карколомні зміни до всього відкритого вихідна система. **

**Tencent Technology: Який вплив матиме комерційний відкритий код Llama2 на конкуренцію великих моделей? **

Цзяо Цзюань: У конкуренції закордонних гігантів є стиль, який полягає в тому, щоб зробити свої продукти та послуги впізнаваними, тому Meta називається Metaverse, а Apple має називатися New Universe. Якщо інші закриють джерело, я займу відкритий код . Відкритим кодом у минулому, можливо, займалися гіки з відчуттям свободи, і мислення було відносно простим. Але зараз, коли цією справою керує такий великий бізнес, мова йде більше про комерційні інтереси.

Чжоу Сонтао: Я вважаю, що три елементи конкурентного ландшафту системи генеративного штучного інтелекту — обчислювальна потужність, алгоритми та моделі — не змінилися. Насправді модель враховує лише одну третину факторів конкуренції. Якщо модель змінити, вона може змінитися лише на третину або трохи більше третини. Я вважаю, що вона оптимістичніша, і може досягають приблизно 45%. **

Схема вдома та за кордоном все ще не однакова, а схема на рівні іноземного алгоритму більш очевидна. Іноземні дані в основному очищені та векторизовані. Навчального набору даних уже достатньо, і конкурентна перевага щодо даних неочевидна, якщо у вас немає власних даних для певної галузі. Обчислювальна потужність — це не те місце, де іноземні гіганти можуть збільшити розрив. Гіганти насправді мають силу боротися за обчислювальну потужність.

По-перше, вітчизняні компанії з основними базовими алгоритмами насправді дуже обмежені; по-друге, ступінь очищення та векторизації вітчизняних даних насправді невисокий. На початку, якщо компанія вкладала багато сил у структуровану обробку даних, вона могла компенсувати брак обчислювальної потужності та алгоритмів. По-третє, країні фактично не вистачає обчислювальної потужності в короткостроковій перспективі. Тому оцінити вплив відкритого вихідного коду LLama2 на вітчизняний ландшафт наразі нелегко.

Крім того, за кордоном Google є справжнім піонером у всьому генеративному штучному інтелекті, а потім його мало не перетворили на мученика. Це тому, що вихідним документом для всього генеративного штучного інтелекту є «Увага — це все, що вам потрібно», а також найраніша модель T5 з відкритим кодом — це насправді Google. Колись Google пишався натовпом. Несподівано темна конячка, OpenAI, пізніше була вбита.Найперші GPT-1 і GPT-2 були з відкритим вихідним кодом, а GPT-3 був із закритим вихідним кодом після того, як став відкритим. Коли OpenAI виходить на ринок, відкритий вихідний код є основною тенденцією всього генеративного штучного інтелекту.

У цей час OpenAI знайшов Microsoft, а також мав дуже дорогі обчислювальні потужності, ставши сильним конкурентом Google. Починаючи з 2022 року, ринок генеративного штучного інтелекту почне виходити на закриту систему. OpenAI освоїв алгоритм, додав обчислювальну потужність і дані Microsoft і замкнув код продукту, і продукт став хітом феноменального рівня, і Microsoft і OpenAI виграли від цього. Я думаю, що коли компанія Meta вперше вирішила вийти на цю сферу, вона ретельно вивчила історію розробки з самого початку. Тепер, коли OpenAI перейшов із поля з відкритим кодом на закритий, я буду використовувати метод з відкритим кодом, щоб перемогти знову твоя магія.

До цього Meta також побачила життєздатність кількох невеликих компаній після відкритого вихідного коду, особливо Stability AI.Ця компанія не мала глибокої основи.Компанії все ще є багато суперечок.

Я пам’ятаю, що Llama1 оголосила про відкритий вихідний код у березні. Тоді також було сказано, що це «випадково відкритий вихідний код», а потім Stability AI також сказав, що я випадково злив код, тому він також був відкритим вихідним кодом. Загальний шлях полягає в тому, що Google заклав тон відкритого вихідного коду, а потім OpenAI і Microsoft повернули його до системи із закритим вихідним кодом, а потім Meta та Stability AI знову перемістили його у відкритий вихідний код. Я думаю, що в майбутньому, ** open джерело і закрите джерело повинні качати один одного, і модель взаємних ігор і конкуренції буде формуватися в цьому полі ще довго. **

**Tencent Technology: Meta Llama2 з відкритим вихідним кодом — останній засіб чи активний стратегічний вибір? **

Цзяо Цзюань: Це має бути активний стратегічний вибір, тому що три головні конкуренти в галузі AR, Meta, Microsoft і Google, борються більше десяти років. Meta швидко запустила LLama2, принаймні швидше, ніж Google. Вибір відкритого та закритого вихідного коду не позбавить деяких суттєвих вимог до інтересів, тому я вважаю, що не має сенсу повністю змінювати модель конкуренції. По-друге, внутрішня ситуація інша, тому внутрішню модель конкуренції потрібно спостерігати знову.

Незалежно від того, з відкритим або закритим вихідним кодом це, по суті, є стратегічний вибір між цими компаніями в усьому світі перед обличчям нових великих можливостей. Докладаючи зусиль, щоб оформити фронт, я також сподіваюся захопити якомога більше глибинку Бір. Конкуренція заокеанських гігантів вже не така проста, як розробка другої чи N-ї кривої зростання. Конкуренція жорстка і рішуча, навіть трохи рятівна.

Я вважаю, що це найбільш гідне обговорення: яке середовище чи фон стоять за їхніми діями, тому вони повинні робити це таким рішучим способом, як гонка озброєнь.

Останнім часом також відбулися деякі цікаві речі. Було засновано компанію Маска X-AI. Вона хоче заново зрозуміти реальний фізичний світ. Усі гіганти дивляться на реальну реалізацію AGI. Ця карта стає все більшою і більшою. Однак новий діловий світ і новий бізнес-ландшафт завжди потребують нових популярних додатків і продуктів, щоб рухати їх. Це може бути важко досягти в 2023 році. Ми можемо покладати надію на 2024 рік, можливо, МР-окуляри Apple стануть новою можливістю.

**Tencent Technology: ми також побачили, що два інших закордонні гіганти, Маск і Apple, не зробили гучних заяв про свій прогрес у сфері великомасштабних моделей. Що ви думаєте про це? **

Цзяо Цзюань: Наразі вони просто стримуються, і те, що вони запускають, точно не буде називатися великою моделлю. Я думаю, ми можемо зосередитися на наступному рівні, втіленому інтелекті. У цьому напрямку Маск хвилюється найменше. Найбільша перевага Apple полягає в поєднанні програмного та апаратного забезпечення.

Чжоу Сонтао: Ми приблизно перевірили це на собі, і чіп **M2 може конкурувати з картами Nvidia щодо обчислювальної потужності з плаваючою комою. ** Apple може застосувати інтеграцію програмного та апаратного забезпечення, що фактично виходить за рамки поточного конкурентного середовища великих моделей.

Я вважаю, що втілений інтелект може стати новою віхою в розвитку загального штучного інтелекту в майбутньому, тому що як тільки у вас з’явиться сильна здатність міркувати, вона обов’язково пошириться на фізичний світ, а основна точка контролю над фізичним світом полягає в тому, щоб вбудувати його в тіло або вбудувати в датчики у фізичному світі, тоді це система, яка стає втіленим інтелектом. Як щойно сказав пан Чжоу, це перетворилося на серію компаній Маска.

Коли ми поєднаємо програмне й апаратне забезпечення разом, щоб поглянути на весь загальний штучний інтелект, ви побачите, що конкуренція знову змінилася. Це вже не Google, Meta та відкритий штучний інтелект, які конкурують, але, можливо, приєднаються інші компанії, що займаються апаратним забезпеченням. в.

**Tencent Technology: комерційне відкрите програмне забезпечення Llama2. Чи можливо зменшити вартість запуску великомасштабної моделі? **

Чжоу Сонтао: Зараз я не впевнений у цьому, тому що хоча це економить вартість оренди API, ви побачите, що велике зниження ціни OpenAI 15 червня майже на 10%, тому модель із закритим кодом також бореться з ціною війни. Навпаки, якщо використовується модель з відкритим вихідним кодом, яка вартість апаратного забезпечення, вартість обчислювальної потужності та вартість даних будуть потрібні? Приховані витрати важко оцінити. Простіше кажучи з відкритого вихідного коду LLama2, я думаю, що це не обов’язково спосіб економії коштів для підприємництва.

Що стосується вартості аргументації, ми наразі вимірюємо та об’єднуємо оціночні статті іноземних тестувальників і виявили, що для деяких конкретних типів завдань міркування, таких як класифікація або робочий процес langchain, ефективність міркування та витрата часу Llama2 знижуються, але для інших типів завдань, **Якщо порівнювати з версією знімка GPT-3.5-turbo-0615, вона не обов’язково може бути дешевшою (тільки з точки зору споживання обчислювальної потужності); **Поточна оригінальна версія дуже вільна та точна для розуміння Китайська, але китайський вираз майже 0, **Отже, китайські підприємці, які хочуть повністю використовувати Llama2, повинні витратити багато грошей, щоб вирішити тонке налаштування чи керівництво китайським виразом, або чекати, поки спільнота з відкритим кодом надасть китайський вираз версія... Ця вартість не є низькою. **

Крім того, комерційний відкритий вихідний код **Llama2 дійсно може змусити великих постачальників послуг розпочати цінову війну, що є гарною новиною для користувачів і підприємців. **

Цзяо Цзюань: Чесно кажучи, я все ще з нетерпінням чекаю деяких галузевих або вертикальних моделей у Китаї. Особисто я вибрав кілька перспективних компаній, які характеризуються високими показниками в цій галузі та досвідом постійного накопичення даних і побудови платформи. Крім того, я думаю, що в цьому раунді питання не в тому, дорогий квиток чи ні, а в тому, дорогий ти чи ні, кожен стикається з трансформацією.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити