Великі моделі - це не улюбленці гігантів

2023-10-30 07:18:49

Джерело статті: Tiger Sniff

Автор: Струмок

Джерело зображення: Створено Unbounded AI

Війна 100 моделей посилюється, але у багатьох практиків виникає все більше питань щодо великих моделей.

У сферу базових великих моделей влилися Tencent, Alibaba, Baidu та інші інтернет-гіганти, а Alibaba, Baidu, iFLYTEK та інші великі виробники за останній місяць послідовно випустили останні версії великомодельних продуктів, а також значно покращилися їх технічні можливості; Стартапи одночасно повторюють нову версію, але і «божевільне» фінансування, Zhipu AI нещодавно оголосила, що в цьому році отримала в цілому 2,5 мільярда юанів фінансування, створене майже півроку Baichuan Intelligence отримала 350 мільйонів доларів США фінансування, серед інвесторів цих стартапів також є Tencent, Alibaba, Meituan та інші інтернет-гіганти.

Чи справді Китаю потрібно стільки базових моделей? Всі базові великі модельні компанії без розуму від «прокатних» технічних параметрів, але яка велика модель потрібна ринку? У жвавій і хаотичній бойовій обстановці ці питання піднімає все більше людей.

Щоб відповісти на це питання, треба спочатку зрозуміти, як базова велика модель заробляє на китайському ринку. Хоча переважна більшість людей сприймає великі моделі саме чат-ботами, і багато користувачів починають використовувати ці продукти при пошуку інформації та систематизації документів, суміжним компаніям складно заробляти на цих С-кінцевих продуктах, і навіть чим більший масштаб користувача, тим більше підприємства втрачають грошей. **В даний час найбільш прагматичним напрямком комерціалізації базових великих моделей як і раніше залишається Б-сторона, що обслуговує підприємства роздрібної торгівлі, фінансів, виробництва та інших сфер з метою зниження витрат і підвищення ефективності, з метою отримання стабільного комерційного доходу. **

Існує лише три типи потреб для базових великих моделей: ** Безпосередньо викличте API великої моделі, щоб отримати відповідні можливості великої моделі; На основі великої моделі вторинна розробка здійснюється відповідно до фактичного бізнесу; Розробляти AI-додатки на основі великих моделей. **Ці вимоги тестують технічні можливості базової платформи великої моделі, а також перевіряють можливості її корпоративного сервісу.

З точки зору сервісних можливостей, масштабним модельним стартапам та інтернет-гігантам доводиться починати з нуля, і ніхто не має вродженої переваги. Платформи, які можуть швидше зрозуміти потреби клієнтів і надавати стабільні та надійні послуги, можуть виділятися.

Великі моделі не "продуваються"

З популярністю ChatGPT як демаркаційної точки, розробка вітчизняних великих моделей пережила два дні.

До того, як ChatGPT став популярним, лише невелика кількість вітчизняних компаній займалася дослідженнями та розробкою базових великих моделей, тому що технології та сервісні можливості великих моделей не були широко прийняті ринком, і ці компанії в основному зосереджуються на технологічних дослідженнях і розробках та накопиченні сервісних можливостей. Коли ChatGPT став популярним, до нього хлинула велика кількість інвесторів та практиків, а великі моделі стали новою віддушиною.

Гарячий ринок легко породити спекулянтів, які не заглиблюються в технології, а розповідають історії, хайпові концепції, незалежно від технологій і можливостей сервісу, спочатку розповідають історію в небо, і таким чином завойовують визнання ринку капіталу і клієнтів. Великий модельний практик жартома розповів Tiger Sniff, що багато великих модельних компаній у Китаї стверджують, що розрив між ними та GPT-4 становить лише кілька місяців, і це тому, що вони провели певне навчання на основі GPT-2, який був відкритим вихідним кодом, і вийшли, щоб розповідати історії.

Насправді еволюції технічних можливостей великих моделей не можна досягти шляхом навчання протягом декількох місяців, тому що це складна система, і дуже важливо мати великий масштаб, а виробляти більш інтелектуальну еволюцію без певного масштабу неможливо. Однак збільшення масштабів навчання великих моделей вимагає багато часу і багаторазового налагодження. Технічні фахівці, які налагодили параметри навчання великих моделей, розуміють цю складність: ніхто не підказує, що робити, доводиться розбиратися самостійно, а в процесі виникають всякі несподівані ситуації, на вирішення яких потрібен час.

У Китаї базові великі моделі, які дійсно впевнені в технічних можливостях, були навчені ще до того, як ChatGPT став популярним, на той момент велика модель була не всім добре відома, і багато людей не розуміли і не були оптимістично налаштовані щодо великої моделі, а компанії, які наполягали на інвестиціях у велику модель, були дуже впевнені в новій технології.

Наприклад, у 2020 році KLCII запустила перший надмасштабний проєкт з дослідження попередньо навчених моделей Wudao, а його версія 2.0 стала найбільшою у світі моделлю трильйонного рівня. Після оновлення цього року «Wudao» охоплює базові великі моделі, такі як мова, бачення та мультимодальність, і перейшов на стадію повного відкритого вихідного коду.

У 2020 році Zhipu AI також розробила архітектуру попереднього навчання GLM, а також навчила модель GLM-10B з десятками мільярдів параметрів. 27 жовтня Zhipu AI випустила власноруч розроблену діалогову модель третього покоління ChatGLM3, яка значно покращила її продуктивність, здатність до висновків і ємність контексту порівняно з попереднім поколінням. У порівнянні з ChatGLM2, ChatGLM3 посів перше місце серед 44 китайських та англійських публічних наборів даних у Китаї. Серед них MMLU зріс на 36%, C – на 33%, GSM8K – на 179%, а BBH – на 126%.

Крім того, з точки зору функцій, ряд великих моделей вітчизняної розробки (ChatGLM, CodeGeeX, WebGLM, CogVLM і т.д.), випущених Zhipu AI, також є найповнішими порівняльними великими моделями серії OpenAI в Китаї, і застосовні до генеративного ШІ-помічника «Zhipu Qingyan».

Ця перша партія компаній, які виробляють великі моделі, принципово відрізняється від компаній, які спекулюють на концепціях і женуться за вітром. Коли технологія масштабних моделей ще не вибухнула і ринок ще не був таким волатильним, вони долучаються до неї, тому що з'ясували технічну цінність і бізнес-логіку базової масштабної моделі. Ця різниця також дуже очевидна після популярності великої моделі, багато компаній залучаються до продуктів C-end заради трафіку та актуальності, тоді як найперші компанії, такі як Zhipu AI, більше зосереджені на сфері корпоративних послуг, і всі можливості досліджень і розробок та сервісні можливості також викладені навколо цієї ідеї, і вони накопичуються приземлено та розвиваються в напрямку створення цінності для клієнтів.

**Складність великої моделі визначає, що підприємства, які накопичували технологічні та сервісні можливості протягом більш тривалого часу, мають сильнішу перевагу. Коли все більше і більше людей на ринку усвідомлюють складність великих моделей і час, необхідний для еволюції великих моделей, ті великі модельні компанії, які покладаються на сторітелінг для смаження концепцій, матимуть все менше і менше можливостей для виживання, а компанії, які серйозно накопичують технологічні та сервісні можливості, зможуть витримати випробування першою хвилею конкуренції.

Немає великої моделі процвітаючої екології, немає майбутнього

** У процесі комерціалізації великих моделей той, хто зможе потрапити в сценарії застосування, що мають жорсткі потреби суспільства, буде першим, хто сформує доброчесне коло самокровотворення. **

Загальна велика модель має більш широкий спектр застосування, але вона недостатньо спеціалізована для вирішення конкретних завдань у вертикальних областях. Вертикальні великі моделі мають сильнішу здатність вирішувати специфічні для предметної області завдання, але обсяг послуг дуже обмежений, що ускладнює для багатьох вертикальних великих моделей досягнення балансу між вартістю та вигодами для бізнесу, а простір розробки обмежений.

Кінцевою точкою застосування великих моделей є використання в побуті і на виробництві, для вирішення практичних завдань в роботі і побуті, для підвищення ефективності і продуктивності праці. Виходячи з переваг і недоліків поточної загальної моделі і вертикальної моделі, більш доцільною ідеєю в поточному процесі комерціалізації моделі є відкритий вихідний код технологій і можливостей послуг для роздрібної торгівлі, фінансів, виробництва та інших сфер, а загальна модель і підприємства в суміжних областях працюють разом для побудови сценаріїв застосування. **

З урахуванням обмежень, таких як дані, обчислювальна потужність і сценарії, існує не так багато великих моделей, які дійсно можуть працювати через відкритий вихідний код. У той же час, як базова технологічна база, роль великої моделі дуже схожа на операційні системи ПК і мобільних телефонів, і буде представляти конкурентну схему «під великим деревом, жодного дюйма трави», тобто одна або дві технічні бази займають домінуюче становище в галузі, і всі розробники додатків повинні розвиватися на основі цих двох технічних баз. Якщо модель п'єдесталу не зможе сформувати процвітаючу екологію, не буде здатності до сталого розвитку.

Судячи з історії розвитку операційних систем для ПК і мобільних телефонів, перевага першопрохідця дуже важлива. Коли Windows домінує на ринку ПК, а iOS і Android розділені на два світи в області мобільних телефонів, іншим операційним системам важко знайти місце для змін.

Така ж тенденція спостерігається і в сфері великих моделей. Великі моделі відкриють процвітаючу екосистему додатків штучного інтелекту, а особисті та корпоративні дані, можливості або програми можуть швидко стати плагінами штучного інтелекту, розширюючи можливості великих моделей і роблячи великі моделі більш практичними та простими у використанні.

В даний час Baidu, iFLYTEK та інші компанії-гіганти віддані екологічному будівництву, інтелектуальна хмара Baidu Qianfan велика модельна платформа 2.0 щомісяця активні підприємства майже 10 000, що охоплюють понад 400 сценаріїв у фінансах, освіті, виробництві, енергетиці, державних справах, транспорті та інших галузях, масштаб розробника великої моделі iFLYTEK Spark перевищив 700 000.

Деякі стартапи, які давно накопичилися в сфері великих моделей, також першими починають вживати в їжу крабів. Наразі Zhipu AI має понад 1 000 клієнтів і понад 100 партнерів для створення екосистеми, що охоплює кілька сценаріїв, таких як медіа, SaaS, освіта та офіс. Наприклад, за можливостями інтелектуальної генерації документів WPS для презентаційного контенту та написання прес-релізів ховається технічна можливість Zhipu AI як підтримки.

В екологічній конкуренції різних масштабних модельних платформ найважливішим випробуванням платформи є цінність, яку вона приносить партнерам, і здатність зростати разом з партнерами. Що стосується офісного сценарію, то генерація контенту презентацій, написання змісту статті та переписування стилю мають дуже високі вимоги до точності та можливостей міркувань платформи великої моделі, і лише велика модель, яка досягла певного технічного рівня, може мати можливість підтримувати ці програми, а платформа великої моделі також потребує виправлення помилок та ітерацій відповідно до відгуків користувачів у реальних програмах.

**Будь то компанія-гігант або компанія-початківець, незалежно від того, наскільки сильний капітал і ресурсна міць, необхідно накопичувати і повторювати крок за кроком з нуля. Тому в процесі побудови екосистеми для великих модельних платформ дуже важлива перевага в часі. Це також є причиною того, що стартапи з перевагами першопрохідця та інтернет-гіганти з більшими фінансовими ресурсами можуть конкурувати на рівних.

100 модельна війна, хто більше підходить для китайського ринку?

Незважаючи на те, що бойова обстановка 100-модельної війни жвава і хаотична, напрямок конкуренції, що стоїть за нею, дуже чіткий, а технічні та сервісні можливості і здатність великої модельної платформи безпосередньо визначати напрямок конкуренції.

Для накопичення цих здібностей потрібен час, і їх важко досягти за одну ніч, але недостатньо, щоб накопичити їх з часом. Перевага першопрохідця, крім різниці в часі, принесеної ранніми діями, також має здатність точно сприймати ринковий попит, тобто діяти твердо і швидко відповідно до правильної стратегії, стратегічні коливання і обхідні шляхи можуть легко поглинути всі тимчасові переваги, накопичені ранніми діями.

Коли все більше і більше великих модельних платформ зміщують свою увагу на екологічне будівництво, стратегічне визначення та виконання платформи набуватиме все більшого значення в екологічній конкуренції. **Коли кілька платформ завершують якісний перехід на суперплатформи, в основному визначається конкурентне середовище.

На великому і складному внутрішньому ринку сервісні компанії B-end схильні до стратегічних коливань і обхідних шляхів. З одного боку, регіони та масштаби бізнесу підприємств на внутрішньому ринку різні, і сприйняття цінності великих моделей для корпоративної розвідки досить різне, та й ресурси та витрати, які вони готові інвестувати, також різні, тому складно знайти стандартизоване рішення; З іншого боку, підприємства різних галузей мають різні потреби у великих модельних можливостях, і навіть різні підприємства в одній галузі мають різні потреби у великих моделях.

У таких умовах, порівняно з планом комерціалізації OpenAI, комерціалізація вітчизняних масштабних модельних платформ вимагає більшої уваги до деталей. Таку тенденцію ми бачимо в ідеях комерціалізації деяких платформ.

Наприклад, крім загальних API-сервісів відкритої платформи, Zhipu AI також надає два рішення: хмарну приватизацію та локальну приватизацію. **Хмарна приватизація може допомогти підприємствам побудувати власні великі моделі на основі приватних даних із сильнішим захистом, тоді як локальна приватизація є унікальним рішенням на китайському ринку, окрім надання більш потужної моделі, вона також забезпечує повну матрицю моделей для задоволення різних сценаріїв та потреб. **

У відповідь на різні потреби клієнтів, такі як створення статей, інтелектуальне обслуговування клієнтів та анотація даних, а також масштаби великих, середніх і малих підприємств, Zhipu AI пропонує різні рішення, які клієнти можуть вільно комбінувати відповідно до власних потреб. Ця більш детальна та гнучка модель обслуговування також ґрунтується на довгостроковому точному розумінні китайського ринку.

В умовах невизначеності зовнішнього середовища Zhipu AI також запустила внутрішній план адаптації мікросхем, співпрацюючи з вітчизняними виробниками обладнання та виробниками мікросхем, щоб забезпечити різні рівні сертифікації та тестування для різних типів користувачів і різних типів чіпів, щоб зробити послуги великих моделей більш безпечними та надійними. В даний час серія ChatGLM підтримує понад 10 видів вітчизняних апаратних екосистем, включаючи Ascend, Shenwei Supercomputer, Haiguang DCU, Haifeike, Muxi Xiyun, Computing Technology, Tiantian Zhixin, Cambrian, Moore Threads, Baidu Kunlun Core, Lingxi Technology, Great Wall Chaoyun, а також одночасно випущені кінцеві тестові моделі мобільних телефонів ChatGLM3-1.5B і 3B підтримують Xiaomi, vivo, Samsung та інші мобільні телефони та платформи транспортних засобів.

Чим запекліший бій у 100 модельній війні, тим важливіші ці, здавалося б, непомітні деталі, адже саме ці деталі визначають ступінь впізнаваності зовнішніх партнерів, а також впливають на швидкість приземлення великих моделей у різних сценаріях. Поріг для простого випуску великої моделі не такий високий, як уявляє собі ринок, але можна мати сценарії якісних даних, щоб продовжувати ітерувати та формувати конкурентні бар'єри, а ключ до сценаріїв якісних даних лежить у зовнішніх партнерах – платформа, яку охоче обирає більше партнерів, полегшує проходження цього бізнес-циклу.

У цій конкуренції багато практиків вважають, що переможцем має стати компанія-гігант із сильнішими ресурсами та фінансовими можливостями, але це не так. Як стартапам, так і гігантам потрібно йти по хитрощах і докопуватися до деталей, і легких шляхів немає. Що стосується фінансування, то воно не є коренем вирішальної битви, адже стартапи з основною конкурентоспроможністю не відчуватимуть нестачі в грошах – навіть якщо Zhipu AI отримав найбільшу суму фінансування від масштабних модельних стартапів, нових інвесторів, охочих увійти в гру, стає більше.

Якщо поглянути на це під іншим кутом, то насправді ринок капіталу вже голосує ногами щодо того, хто більше підходить для п'єдесталу моделі китайських підприємств.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Поділіться

Прокоментувати

0/400

Немає коментарів

Тема
1/3
1Show My Alpha Points
17k Популярність
2SOL Futures Reach New High
65 Популярність
3ETH ETF Sees 12 Weeks of Inflows
89 Популярність
4Crypto Market Rebound
171k Популярність
5CandyDrop Airdrop Event 6.0
96k Популярність

Закріпити

карта сайту

Великі моделі - це не улюбленці гігантів

Великі моделі не "продуваються"

Немає великої моделі процвітаючої екології, немає майбутнього

**100 модельна війна, хто більше підходить для китайського ринку? **

100 модельна війна, хто більше підходить для китайського ринку?