Байчуань проти Чжіпу, хто такий китайський OpenAI?

Question

*Джерело статті: Light Conone Intelligence**Текст: Хао Сінь**Редактор: Лю Юці*На початку червня іноземні ЗМІ випустили тортури про те, «хто такий китайський OpenAI», і переживши хвилю великомодельного підприємництва, великі хвилі кинулися на пісок, і в підсумку залишилося лише кілька людей.Будівля Xaar Building за кілька перехресть від Університету Цінхуа — це Baichuan Intelligence зіркового підприємця Ван Сяочуаня, а Sohu Network Building — це спектр мудрості штучного інтелекту, надісланий академією. Пройшовши випробування ринком, вони стали двома найперспективнішими кандидатами.Битва за дві будівлі, схоже, тихо почалася.** З точки зору фінансування, Zhipu AI та Baichuan Intelligent завершили кілька раундів великомасштабного фінансування цього року. **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7e2e2823fa-dd1a6f-69ad2a) (Інтелектуальне картографування світлових конусів: організовано відповідно до загальнодоступної інформації)Цього року сукупна загальна сума фінансування Zhipu AI перевищила 2,5 млрд юанів, а загальна сума фінансування Baichuan Intelligent досягла 350 млн доларів США (близько 2,3 млрд юанів). Згідно з публічною інформацією, остання оцінка **Zhipu AI перевищила 10 мільярдів юанів, що є найвищим показником або 15 мільярдів, що є однією з найшвидших вітчизняних компаній з оцінкою понад 10 мільярдів юанів; **Після останнього раунду фінансування Baichuan Intelligent оцінюється більш ніж в 1 мільярд доларів США (близько 6,6 мільярда юанів).З точки зору складу команди, Zhipu AI та Baichuan Intelligent Master виходять з одного будинку, а Ван Шаолань, президент Zhipu AI, і Ван Сяочуань, засновник Sogou, є підприємницькими командами департаменту Цінхуа.** З точки зору швидкості технологічного наздоганяння, ці два поняття також не розрізняються. **GLM-130B від Zhipu AI переміг GPT-3, як тільки він вийшов, і нещодавно випущений Baichuan 2 випереджає Llama 2 у всіх вимірах, ставши піонером у розвитку китайської екосистеми з відкритим вихідним кодом.Всі ознаки показують, що Zhipu AI і Baichuan Intelligence стали «темними конячками» великої моделі траси Китаю, і в умовах жорсткої конкуренції, хто мертвий олень?  ## **Віруючі в OpenAI: Мудрість ШІ**  Відносини між Zhipu AI та OpenAI можна простежити до 2020 року, який Чжан Пен, генеральний директор Zhipu AI, вважав справжнім «першим роком великої мовної моделі штучного інтелекту» у своєму серці.Відносини між Zhipu AI та OpenAI можна простежити до 2020 року, який Чжан Пен, генеральний директор Zhipu AI, вважав справжнім «першим роком великої мовної моделі штучного інтелекту» у своєму серці.У річницю Zhipu AI у радісній атмосфері час від часу можна відчути деяке занепокоєння, викликане народженням GPT-3. GPT-3, який досягає 175 мільярдів параметрів, є першою великомовною моделлю в строгому сенсі.У той час Чжан Пен був не тільки шокований появою GPT-3, але і впав в роздуми про те, «чи варто слідувати», будь то тоді або зараз, все в сторону надмасштабного параметра великої моделі - справа вкрай ризикована. Зважившись, Zhipu AI вирішила взяти OpenAI як свій еталон і інвестувати в розробку надмасштабних моделей попереднього навчання.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e41f17dbae-dd1a6f-69ad2a) (Інтелектуальне картографування світлових конусів: організовано відповідно до загальнодоступної інформації)**З точки зору вибору технологічного шляху, Zhipu AI має таке ж незалежне мислення, як і OpenAI. **На той час існувало кілька великих моделей фреймворків попереднього навчання, таких як BERT, GPT і T5. Ці три шляхи мають свої переваги та недоліки з точки зору мети навчання, структури моделі, джерела навчальних даних та розміру моделі.Якщо порівнювати процес навчання з великою моделлю з англійською мовою, то BERT добре справляється з питаннями через зв'язок між словами та реченнями, а складання іспиту через розуміння, а матеріали для огляду в основному взяті з підручників та Вікіпедії; GPT добре вміє передбачати наступне слово для запитань, готуючись до іспиту за допомогою великої кількості письмової практики, а його оглядові матеріали в основному надходять із різноманітних веб-сторінок; Т5 приймає стратегію формалізації питань, спочатку перекладаючи питання на китайську мову, а потім вирішуючи питання, а при повторенні не тільки читаючи підручник, але і чистячи велику кількість банків питань.Як ми всі знаємо, Google вибрав BERT, OpenAI вибрав GPT, а Zhipu AI не став сліпо слідувати, ** на основі цих двох шляхів запропонував фреймворк алгоритму GLM (General Language Model). Фреймворк фактично реалізує взаємодоповнюючі переваги та недоліки BERT та GPT, «які можна зрозуміти, продовжуючи та заповнюючи прогалини». **Таким чином, GLM став найбільшою впевненістю для Zhipu AI у просуванні OpenAI, і в рамках цієї структури послідовно зростали моделі серії GLM, такі як GLM-130B, ChatGLM-6B і ChatGLM2-6B. Експериментальні дані показують, що великі моделі серії GLM перевершують GPT з точки зору точності розуміння мови, швидкості висновків, пропорції пам'яті та програми адаптації великих моделей.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dc70c8e5d7-dd1a6f-69ad2a) (Джерело: Інтернет)Наразі OpenAI є найповнішою установою, яка може надавати базові модельні послуги за кордоном, і її комерціалізація в основному поділяється на дві категорії, одна — плата за збір API, а інша — абонентська плата ChatGPT. З точки зору комерціалізації, Zhipu AI також дотримується загальної ідеї і знаходиться в ешелоні підприємств з відносно зрілою комерціалізацією вітчизняних великих моделей.Відповідно до інтелектуального прочісування оптичного конуса в поєднанні з посадкою китайських підприємств, бізнес-модель **Zhipu AI розділена на режим збору API та режим комісії за приватизацію. **Загальними типами моделей, що надаються, є мовні великі моделі, суперантропоморфні великі моделі, великі векторні моделі та великі моделі коду, а також для кожного варіанту великої моделі, включаючи стандартне ціноутворення, хмарне приватне ціноутворення та локальне приватне ціноутворення. У порівнянні з OpenAI, Zhapu AI не надає послуги великих моделей голосу та зображень, але додає суперантропоморфні великі моделі, які також задовольняють потреби цифрових людей, інтелектуальних NPC та інших галузей промисловості Китаю.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d5dc94c153-dd1a6f-69ad2a) (Інтелектуальне картографування світлових конусів: організовано відповідно до загальнодоступної інформації)Light Cone Intelligence дізналася від розробника, що «в даний час характеристики платформи Baidu Wenxin Qianfan ідеальні, характеристики Tongyi Qianwen гнучкі, а Zhipu AI є однією з компаній з найнижчими платами за API серед основних виробників на ринку».Комісія за ChaGLM-Pro становить 0,01 юаня/тисяча токенів, і розігрується 18 юанів, а комісія ChaGLM-Lite знижується до 0,002 юанів/тисяча токенів. Для довідки, OpenAI GPT-3.5 стягує 0,014 юаня/тисячу токенів, Ali Tongyi Qianwen-turbo – 0,012 юанів/тисячу токенів, а Baidu Wenxin One Word emie-bot-turbo – 0,008 юанів/тисячу токенів.Як сказав Чжан Пен, Zhipu AI також переживає новий етап «більше не слідувати за OpenAI» з метою OpenAI.З точки зору продуктового бізнесу, на відміну від OpenAI, яка зосереджується лише на оновленні та створенні ChatGPT, Zhipu AI вирішив атакувати з трьох сторін.Згідно з її офіційним веб-сайтом, поточний бізнес Zhipu AI в основному розділений на три блоки, а саме платформу MaaS великої моделі, платформу технологічного інтелекту AMiner і когнітивну цифрову людину. В результаті було сформовано три основні матриці продуктів штучного інтелекту: великі модельні продукти, продукти AMiner і цифрові людські продукти. Серед них великогабаритні модельні вироби охоплюють не тільки базові діалоги роботів, а й програмування, написання, розпис, поділ підвісних роботів.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0bf9c101e1-dd1a6f-69ad2a) (Джерело: офіційний сайт Zhipu AI)У той же час Zhipu AI продовжує досліджувати сторону додатків за допомогою інвестицій. До цього часу Zhipu AI інвестувала в Lingxin Intelligence і Painting Wall Intelligence, а у вересні цього року знову збільшила свої активи Lingxin Intelligent.Lingxin Intelligence також інкубується з кафедри комп'ютерних наук Університету Цінхуа, хоча кафедра є гомологічною, але Lingxin Intelligence більше схильна до застосування, а розроблена нею інтерактивна спільнота AiU interest є суперантропоморфною великою моделлю на основі Zhipu AI. Ідея розвитку його продуктів схожа на закордонний Character AI, створюючи ШІ-персонажів з різними характерами та характерами, взаємодіючи та спілкуючись з ними, він більше схиляється до С-енд-додатків та наголошує на атрибутах розваг.  ## ** Перехід з OpenAI на LIama: Baichuan Intelligence**  Light Cone Intelligence виявила, що порівняно з OpenAI, Baichuan Intelligence більше схожа на Llama.**Перш за все, на основі оригінальної технології та досвіду, швидкість випуску та ітерації дуже висока. **Через півроку після свого заснування Baichuan Intelligent послідовно випустила чотири комерційні моделі baichuan-7B/13B з відкритим вихідним кодом, Baichuan2-7B/13B і дві великі моделі Baichuan-53B і Baichuan2-53B з закритим вихідним кодом. Станом на відкриття інтерфейсу API Baichuan2-53B 25 вересня, за останні 168 днів, Baichuan Intelligent випустила велику модель із середньою швидкістю місяців.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e27cb1a5a0-dd1a6f-69ad2a) (Інтелектуальне картографування світлових конусів: організовано відповідно до загальнодоступної інформації)Meta покладається на LLama2, щоб відвоювати позиції ШІ, а Baichuan Intelligent відома тим, що перемогла LLama2 із серією моделей Baichuan2 з відкритим вихідним кодом.За результатами тестів Baichuan2-7B-Base і Baichuan2-13B-Base перевершують LLaMA2 в декількох авторитетних оціночних бенчмарках, таких як MMLU, CMMLU, GSM8K і т.д., а також їх продуктивність дуже яскрава в порівнянні з іншими моделями з великою кількістю тих же параметрів, а їх продуктивність значно краще, ніж у конкурентів LLaMA2 і інших моделей такого ж розміру.Факти довели, що інтелектуальна велика модель Байчуань дійсно витримала випробування. Згідно з офіційними даними, Baichuan завантажили понад 5 мільйонів разів у спільноті з відкритим вихідним кодом і понад 3 мільйони разів на місяць.Light Cone Intelligent виявила, що модель серії Baichuan intelligent має найбільшу кількість завантажень у спільноті Hugging Face з відкритим вихідним кодом понад 110 000, що все ще є конкурентоспроможним серед китайських та іноземних моделей з відкритим вихідним кодом.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d6975a90e4-dd1a6f-69ad2a) (Джерело: офіційний сайт Hugging Face)Причина, чому його відкритий вихідний код має переваги, також пов'язана з його сильною сумісністю, Baichuan Intelligent публічно представила, що вся її велика базова структура моделі ближча до структури LLAMA від Meta, тому вона дуже дружня до підприємств і виробників завдяки дизайну з відкритим вихідним кодом.**"Після відкритого вихідного коду екологія буде побудована навколо LLaMA, і є багато проектів з відкритим вихідним кодом у зарубіжних країнах, які слідують за LLaMA для просування, тому наша структура ближче до LLaMA." – сказав Ван Сяочуань.Відповідно до інтелекту оптичного конуса, Baichuan Intelligent використовує можливість гарячого підключення в дизайні архітектури, яка може підтримувати випадкове перемикання між різними модулями моделі Baichuan і моделі LLAMA та моделі Baichuan, наприклад, навчання моделі за допомогою LLAMA, без модифікації, модель може бути безпосередньо введена в Baichuan для використання. Це також пояснює, чому більшість інтернет-виробників зараз використовують модель Baichuan, а постачальники хмарних послуг представляють модель серії Baichuan.Шлях, який пройшла історія, веде як у минуле, так і в майбутнє, і підприємництво Ван Сяочуаня є саме таким.Ґрунтуючись на особистості засновника Sogou та досвіді пошукових технологій, на зорі підприємництва Ван Сяочуань отримав багато оцінок людей: «Сяочуань, найкраще підходить для великих моделей».** Побудова великих моделей у пошуковому досвіді та фреймворках стала фоновим кольором Baichuan Intelligence. **Чень Вейпен, співзасновник Baichuan Intelligent Technology, одного разу сказав, що пошукові дослідження та розробки мають багато спільного з розробкою великих моделей: «Baichuan Intelligent швидко переносить досвід пошуку на дослідження та розробку великих моделей, що схоже на систематичний проект «ракетобудування», демонтаж складних систем, сприяння командній співпраці та підвищення ефективності команди за допомогою оцінки процесів».Ван Сяочуань також виступив на прес-конференції: «Оскільки Baichuan Intelligence раніше мав ген пошуку, він, природно, знає, як вибрати найкращі сторінки з середини трильйонів веб-сторінок, які можна дедуплікувати та викинути сміття». При обробці даних Baichuan Intelligent також спирається на досвід попередніх пошуків і може завершити очищення та дедуплікацію сотень мільярдів даних за годину».Ядро пошуку великих моделей яскраво відображено в Baichuan-53B. Вирішуючи проблему «ілюзії» великих моделей у поєднанні з розвитком пошукових технологій, Baichuan Intelligent здійснила оптимізацію збору інформації, покращення якості даних та покращення пошуку.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e8c8a50de0-dd1a6f-69ad2a) З точки зору покращення якості даних, основна ідея Baichuan Intelligent полягає в тому, щоб «завжди брати найкраще», класифікувати дані з низькою та високою якістю як стандарт і гарантувати, що Baichuan2-53B завжди використовує високоякісні дані для попереднього навчання; З точки зору збору інформації, Baichuan2-53B оновив кілька модулів, включаючи такі ключові компоненти, як розуміння намірів інструкцій, інтелектуальний пошук і поліпшення результатів, завдяки глибокому розумінню інструкцій користувача, точне керування пошуком термінів запиту і, нарешті, поєднання технології великих мовних моделей для оптимізації надійності генерації результатів моделі.Незважаючи на те, що Baichuan Intelligent починала з відкритого вихідного коду, вона почала досліджувати шлях комерціалізації. Згідно з офіційною інформацією, метою Baichuan Intelligence є «створення найкращої великої модельної бази в Китаї», а метою вертикального виміру є вдосконалення в пошуковій, мультимодальної, освітній, медичній та інших сферах.Сьогоднішня комерціалізація зосереджена в Baichuan2-53B, і офіційний веб-сайт показує, що виклик API моделі приймає стандарт зарядки, заснований на часі. 0:00-8:00 стягує 0,01 юаня/тисячу токенів, 8:00-24:00 стягує 0,02 юаня/тисячу токенів, для порівняння, ціна денної комісії вища, ніж нічна.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4543fd2d4b-dd1a6f-69ad2a) (Джерело: офіційний сайт Baichuan Intelligent)  ## **Кінець**  Сперечатися про те, хто є китайським OpenAI, не має особливого сенсу в перші дні розробки великих моделей. Багато стартапів, таких як Zhipu AI і Baichuan Intelligent, зрозуміли, що сліпо йти по стопах OpenAI не бажано, наприклад, Zhipu AI прояснив технічний шлях «не робити китайський GPT». Більше того, в той час, коли відкритий вихідний код стає популярним і формує облогу, абсолютна технологічна перевага OpenAI не здається непорушною.Zhipu AI, Baichuan Intelligent зазначили, що супердодатки є більш широким ринком, але також зона комфорту великих зразкових підприємств Китаю, більше не залишаються на місці, наприклад, людина, близька до Zhipu AI, одного разу повідомила про це ЗМІ, команда Zhipu AI твердо визначила маршрут 2B, націлений на інформаційно-інноваційний ринок, і за 5 місяців швидко розширила команду, з 200 до 500 осіб, для наступних 2B бізнес-резерву робочої сили.На шляху комерціалізації Baichuan Intelligent вирішила посилатися на екологію з відкритим вихідним кодом Llama2, а також почала ітерувати маленькими кроками.Неозброєним оком видно, що всього за півроку Baichuan Intelligent і Zhipu AI пройшли нічийну землю технології і вийшли на стадію комерціалізації промислового десанту. У порівнянні з підприємницьким бумом AI 1.0, період шліфування технологій становить цілих 3 роки (2016-2019 рр.), і саме через перешкоди в комерційній посадці велика кількість ШІ-компаній колективно занепаде у 2022 році та впаде до світанку.Навчаючись на уроках попереднього етапу, а також тому, що універсальність технології великих моделей зручніша для посадки, стартапи, представлені Baichuan Intelligence і Zhipu AI, збирають війська та коней для підготовки технологій, продуктів та резервів талантів до наступного етапу.Однак перші постріли пролунали лише в марафоні, і говорити про те, що результат занадто ранній, було зарано. Але принаймні перший етап траси розкладений, а після того, як мета зрозуміла, змагання ще більш терплячі та наполегливі. Те ж саме стосується Baichuan Intelligence, Zhipu AI або OpenAI.