Велика модель, відкритий код не може вбити закритий код

2023-07-25 03:08:56

Джерело: Цереброполярне тіло

Джерело зображення: створено Unbounded AI

Вплив великих моделей із відкритим кодом на великі моделі із закритим кодом став дуже сильним.

У березні цього року Meta випустила Llama (альпака), яка швидко стала найпотужнішою великою моделлю з відкритим кодом у спільноті штучного інтелекту та базовою моделлю для багатьох моделей. Дехто жартував, що нинішнє масштабне модельне скупчення – це просто купа різнокольорових «альпак».

А буквально кілька днів тому Meta запустила безкоштовну комерційну версію «Альпаки 2» — Llama2, яка, як кажуть, порівнянна за продуктивністю з GPT-3.5.

Це дуже вибухово в усьому великомасштабному модельному колі.

Ми знаємо, що різні інтернет-компанії та технологічні компанії змагаються за підготовку та запуск власних великомасштабних моделей, інвестуючи багато обчислювальних ресурсів і витрат. Якщо їх не вдасться ефективно комерціалізувати, буде важко відшкодувати вартість цих великомасштабних моделей. Подальші ітерації, оновлення та модернізації стануть проблемами. Дослідницько-конструкторські компанії не тільки втратять гроші, але й користувачі, які «витратять усі попередні зусилля», ймовірно, будуть більше страждати.

Але тепер, коли є безкоштовні, відкриті та потужні моделі з відкритим кодом, хто готовий давати гроші на моделі із закритим кодом?

Є справді.

Відкритий вихідний код є загальною тенденцією, але велика модель закритого вихідного коду все ще має своє значення існування та комерційну цінність. Відповідно до поточного досвіду індустрії штучного інтелекту, щоб ефективно використовувати великі моделі, вам все одно доведеться покладатися на закриті джерела.

Сьогодні ми поговоримо про це.Кому потрібна велика модель із закритим кодом?

Іди в індустрію, іди в індустрію

Кінцевою точкою комерціалізації великих моделей є галузь, і це має бути консенсус, який не потребує зайвих пояснень.

Нещодавно я брав участь у внутрішній комунікаційній нараді вітчизняної великомасштабної моделі, і керівники високого рівня іншої сторони чітко заявили, що всі вони використовують закритий вихідний код і наполягають на закритому вихідному коді, оскільки вони розглядають навчання великомасштабних моделей і співпрацюють з галузевими партнерами, а багато приватних даних незручно відкрити.

Ви можете отримати уявлення про всю картину, принаймні в короткостроковій перспективі масштабні моделі підуть у промисловість, а реалізація все ще залежить від закритих джерел.

** З точки зору моделей, якість закритих великих моделей вища. **

Візьмемо для прикладу Llama 2, яка зараз є найпотужнішою. Meta порівняла результати Llama 2 70B із закритою моделлю. Результати близькі до GPT-3.5 на MMLU та GSM8K, але все ще існує значна прогалина в тесті кодування, а багатьом даним бракує різноманітності та якості.

Звичайно, швидкість ітерації оптимізації великих моделей з відкритим кодом дуже висока. Але суть відкритого вихідного коду дуже схожа на «статеве розмноження», тобто через масове розмноження та мутацію, як і «скупчення альпаки» на початку, перед обличчям невизначеного майбутнього, за допомогою еволюційного «виживання найпристосованішого» продовжуватиме з’являтися найкраще потомство. Тому існує багато гілок програмного забезпечення з відкритим кодом. Для користувачів ціна цього вибору дуже висока. Окрім великої кількості розробників, проблемою є контроль версій.

**З точки зору безпеки, великі моделі із закритим кодом більш надійні. **

Великі моделі з відкритим кодом повинні відповідати угоді про відкритий код, а комерційне використання має бути дозволено. Великі моделі з відкритим кодом за кордоном також мають підпадати під територіальну юрисдикцію. Колись GitHub заборонив облікові записи російських розробників. Використання закордонних великих моделей з відкритим вихідним кодом для розробки продуктів і ризики в ланцюзі поставок існують об’єктивно.

Отже, як щодо використання вітчизняних великих моделей з відкритим кодом? Безпека гарантована, але з комерційної точки зору багато клієнтів, наприклад великі державні підприємства, також надають великого значення надійності великих моделей у бізнесі та часто вимагають схвалення бренду великих компаній під час покупки. З одного боку, інвестиції в НДДКР більші, а сарафанне радіо більше; з іншого боку, якщо велика модель створена неналежним чином, що призведе до комерційних збитків або проблем із доброю волею, використання великої моделі із закритим кодом може призвести до відповідальності постачальника послуг, а використання великої моделі з відкритим кодом не може звести рахунки з глобальними розробниками, чи не так?

Наприклад, Huging Face, масштабна модельна стартап-компанія, надає клієнтам консультації з штучного інтелекту та є опорою спільноти відкритих кодів.Вони заявили, що велика кількість клієнтів хочуть використовувати свої особисті/професійні дані для навчання моделей і не хочуть передавати ці дані OpenAl.

** З точки зору індустріалізації, здатність довгострокової служби великих моделей із закритим вихідним кодом є сильнішою та зручнішою для використання. **

Розробка великої моделі не закінчується доступом до API, вставкою даних і налаштуванням параметрів. Будучи технологією, що розвивається, все ще існує багато проблем в інтеграції великих моделей і бізнес-сценаріїв. Наприклад, великі моделі потрібно стиснути за допомогою дистиляції, щоб зменшити розмір моделі, перш ніж їх можна буде розгорнути на стороні пристрою.Багато компаній просто не мають таких фахівців.

Для іншого прикладу, поєднання великих моделей і бізнесу вимагає участі кількох ролей, таких як інженери з виробництва, експлуатації та тестування.Ці сервісні можливості важко надати командам із відкритим кодом, які в основному є програмістами. Крім того, довгострокове застосування великих моделей, допоміжних засобів, таких як обчислювальна потужність, сховище та мережа, повинні йти в ногу.Спільнота з відкритим кодом не може допомогти користувачам вирішити ці детальні проблеми в "одному місці".

Існують також проблеми з конфіденційністю даних. Великі моделі не можуть безпосередньо використовуватися промисловістю. Їх потрібно оптимізувати за допомогою власних даних сцени, а моделі, навчені на цих даних, будуть відкритими та опублікованими, що змушує підприємства багато хвилюватися.

Одного разу ми взяли інтерв’ю у команди розумних медичних досліджень і розробок. Інша сторона сказала, що велика кількість медичних даних розповсюджується у великих лікарнях і дослідницьких установах, і це також стосується конфіденційності пацієнтів. Усіх хвилює використання даних для спільного навчання промислової моделі. З одного боку, не можна гарантувати безпеку, а з іншого боку, якість їхніх власних даних висока, але вони не можуть отримати від цього належну віддачу.Як і інші організації з низькоякісними даними, важко координувати. У спільному створенні великих моделей із відкритим вихідним кодом все ще виникає багато труднощів у тому, як отримати дані, зрозуміти формулу та визначити внески всіх сторін.

Великі моделі з відкритим вихідним кодом повинні збалансувати конфлікт між свободою технологічних інновацій і перевагами авторського права, тоді як великі моделі із закритим кодом не мають цієї проблеми.Права власності та використання даних і моделей дуже чіткі, і вони міцно знаходяться в руках самого підприємства.

Можна сказати, що поточна велика модель з відкритим кодом не може задовольнити реальні потреби бізнесу. Проте користувачам великої моделі з відкритим кодом та інтеграторам ISV потрібно отримати комерційну віддачу.Якщо велика модель з відкритим кодом комерційно не доступна, ефект буде поганим, і важко заробити гроші, навіть якщо вона безкоштовна, підприємство ретельно обдумає, чи варто інвестувати в людей для її розробки.

Таким чином, ще деякий час закрите джерело все ще буде популярним вибором для індустрії посадки великомасштабних моделей.

Іди в маси, іди в маси

Деякі люди можуть не зрозуміти, відкритий вихідний код безкоштовний для комерційного використання, і кожен може використовувати велику модель за ціною капусти. Він такий дружній до розробників і корпоративних користувачів, чому ви все ще говорите, що закритий код кращий? Це платформа великої фабрики, орієнтованої на заробляння грошей?

Немає.

Кожен, хто розуміється на відкритому коді, підтримає його. Кожен, хто підтримує відкритий код, зверне увагу на комерціалізацію відкритого коду.

Академік Мей Хонг з Академії наук Китаю якось сказав, що відкрите кодове джерело походить від ідеалізму та енергійно живиться комерціалізацією. Це модель відкритих інновацій. Без комерціалізації не може бути відкритого коду.

Тому незалежно від того, чи це відкритий код, чи закритий, той, хто раніше зможе стати «комерційним», матиме краще майбутнє. У цьому відношенні великомасштабні моделі із закритим вихідним кодом можуть мати перевагу.Зрештою, виробники, які впевнено закривають джерело, все ще мають дві пензлі та досвід досліджень і розробок.

Отже, які переваги великих моделей з відкритим кодом? Якщо широкомасштабна модель із закритим вихідним кодом йде в індустрію, то широкомасштабна модель із відкритим вихідним кодом має йти в маси, зосереджуючись на силі однієї людини.

(LeCun вважає, що Llama-v2 змінить структуру ринку LLM)

Велика модель з відкритим кодом відрізняється від традиційного програмного забезпечення з відкритим кодом, де вихідний код розміщується на ньому, а потім розробники з усього світу додають код, і все. Співпраця та спільне створення великих моделей більше відображається на процвітанні спільноти. Усі працюють разом, щоб оптимізувати модель, збагатити дані, удосконалити інструменти та зробити додаток комплексним...

Наразі модель з відкритим кодом може принести кілька переваг:

Технологічні інновації. Спільнота з відкритим кодом може об’єднати велику кількість технологічних компаній, дослідницьких установ і розробників для оптимізації, покращення та прискорення ітерацій моделі, роблячи технологію моделі та набори допоміжних даних, інструменти додатків тощо насиченими та високоякісними, щоб залишатися попереду.
Конкурс талантів. Як технологія, що розвивається, великі моделі відчувають дефіцит талантів. Цей розрив можна збільшити, залучивши видатних талантів з усього світу до участі через спільноти з відкритим кодом і прискоривши оновлення великих моделей. Коли є конкуренція, існує тиск, тому після випуску LLama 2 незабаром було повідомлено, що OpenAI також почав розглядати можливість відкритого коду GPT-3.5 протягом півроку. Розробники щасливі.
Екологічне закриття. Наразі ІТ-рішення та цифрова трансформація в усіх сферах життя використовують велику кількість технологій і додатків з відкритим кодом для побудови широкомасштабної екосистеми з відкритим кодом, що дозволяє ІТ-талантам і підприємствам використовувати відповідні технології, що дуже корисно для подальшої комерціалізації. Наприклад, Microsoft, партнер/інвестор OpenAI, цього разу також вирішила стати головним партнером Llama 2, підтримуючи індивідуальних розробників і малі та середні компанії використовувати Llama 2 за найнижчою ціною, що, безсумнівно, є великою перевагою для azure.

Не всі великі моделі з відкритим кодом можуть бути успішними, і екологія є ключовим ровом.

Сандвіч-бісквіт, куди ти йдеш?

Подібно до мобільних операційних систем iOS і Android, конкуренція між відкритим і закритим вихідним кодом не є боротьбою «на життя і смерть» у певній сфері, а кожна з них йде окремим шляхом і відкриває свій власний світ. Те ж саме стосується великих моделей.

Масштабні моделі із закритим вихідним кодом відкриті для клієнтів, великомасштабні моделі з відкритим кодом процвітають, і у кожного є світле майбутнє.

Зважаючи на це, чому деякі експерти вважають, що відкритий код Llama 2 є величезним кроком для відкритого коду, але серйозним ударом для закритих великих модельних компаній?

Кого це вдарило?

Відповідь повинна полягати в тому, що це основний виробник великомасштабних моделей, який не бажає бути лише прикладним рівнем, але також не може перевантажити великого виробника.

Дослідники Google одного разу написали, що через спільноту з відкритим кодом у нас (Google і OpenAI) немає рову. Однак OpenAI також має закриті великі моделі, такі як GPT-4, як свою вбивчу функцію.Тільки коли він змушений відкрити вихідний код, він розглядає відкритий код GPT-3.5.У цьому є технічна прогалина. Крім того, відкрите джерело GPT-3.5 лише розповіло з вуст в уста, а конкретний прогрес досі невідомий.

Таким чином, такі провідні виробники технологій і хмарні гіганти, як-от закордонні Google, OpenAI і вітчизняний BATH, мають переваги в картках, грошах, талантах, даних, поінформованості про ринок і клієнтській базі.Вибір шляху закритого коду для завершення комерціалізації та індустріалізації великих моделей має певні першочергові переваги та бар’єри.

Це проблема для тих виробників другого та третього рівня, які хочуть навчити базову велику модель загального призначення.

Раніше великі та малі технологічні компанії та різноманітні науково-дослідні установи по всьому світу збиралися тренувати базові великі моделі, такі як деякі штучні єдинороги машинного зору, які випадково ставали «печивом-сендвічем» між базовим шаром і рівнем додатків.

Він не може перевершити GPT з точки зору міцності та не може перемогти Llama з точки зору вартості.Базова універсальна велика модель, на яку було навчено, застаріла ще до того, як її офіційно відкрили для комерційного використання, і їй судилося залишитися в минулому. Ринок не може конкурувати з гігантами, а ступінь відкритості не такий високий, як у співтовариства з відкритим кодом, окупити високі витрати на розробку практично неможливо.

Можливо, розумним вибором буде якомога швидше відмовитися від великої моделі.

Наприклад, масштабну модель вітчизняної компанії зі штучного інтелекту раніше приватизували за ціною 300 000 юанів на рік, а потім було оголошено, що вона повністю відкрита для наукових досліджень, і її дозволили для вільного комерційного використання. Існує також можливість комерціалізації (наприклад, Linux/Android/Red Hat) у спільноті великомасштабної моделі з відкритим вихідним кодом, і в той же час вона може уникнути «голови до голови» із загальною великомасштабною моделлю голови.

Для розробників прикладного рівня та інтеграторів ISV ефективне використання великих моделей із закритим вихідним кодом із високим ступенем визнання галуззю може дозволити клієнтам сприймати їх швидше, бути більш придатними для бізнес-потреб приватизованого індивідуального розгортання та завершити комерційну посадку та швидше збільшити дохід.

Для стартапів штучного інтелекту відкритий код можна використовувати безпосередньо та уникати повторного створення колеса. Це може бути більш ідеальним і недорогим методом комерціалізації методом проб і помилок. «Повідомити групу, щоб розігрітися» сприяє широкомасштабним проектам з відкритим кодом, сприяє розвитку широкомасштабних спільнот з відкритим кодом, а також отримуватиме відгуки від спільноти та бізнесу.

Розвиток великомасштабної моделі Китаю до високого рівня вимагає не лише провідної у світі великомасштабної моделі із закритим вихідним кодом, щоб взяти на себе лідерство, але й спільноти широкомасштабних моделей із відкритим кодом із світовим впливом.

Дорога завалена і довга, але подорож наближається. Можливо, побажає використати конструктивну позицію, щоб розглянути суперечки щодо відкритого та закритого кодів, надати певної впевненості вітчизняній великій моделі із закритим кодом, а також надати певну підтримку та підтримку місцевій спільноті з відкритим кодом.

Переглянути оригінал

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.