Велика модельна битва в розпалі? Виходом може бути «маленька модель».

Question

Текст: Qingcheng Finance, Автор: Qing Mu Редактор: Лю Цзи

Джерело зображення: створено Unbounded AI

26 липня OpenAI запустив версію ChatGPT для Android. Хоча наразі вона доступна лише в Сполучених Штатах, Індії, Бангладеш і Бразилії, OpenAI також повідомила, що наступного тижня буде рекламувати версію ChatGPT для Android у інших країнах. Це повернуло ChatGPT, який останнім часом був трохи менш популярним, знову в центрі уваги громадськості.

На початку запуску ChatGPT знадобилося лише два місяці, щоб стати найшвидшим додатком в історії, щоб пробити 100 мільйонів користувачів. Глобальний ринок технологій, який довгий час мовчав, знову кипить. Вітчизняні інвестори та підприємці летять до Silicon — запитала Долина.

Зіткнувшись із цією бурхливою хвилею ШІ, китайські підприємці та інвестори діяли швидко. Кілька місяців по тому технологічна індустрія Китаю показала вражаючу позицію «війни сотень моделей». У першій половині 2023 року в Китаї з’явилося більше 80 великомасштабних моделей, за останніми даними, 130 компаній вже виготовляють масштабні моделі на внутрішньому ринку. У світовому масштабі в першій половині цього року було випущено більше 400 великих моделей.

У той час як китайські гравці великих моделей переслідують комерційні інтереси та майбутнє технологій, їх також називають національними почуттями: бути китайською версією OpenAI.

Згідно з новинами від 24 липня, перед запуском версії ChatGPT для Android, IDC опублікувала звіт про оцінку технічних можливостей великомасштабної моделі, який показує, що великомасштабна модель 3.5 Baidu Wenxin набрала 7 із 12 показників, посівши перше місце в комплексній оцінці. Ву Тянь, віце-президент Baidu, сказав, що можливості нової версії Wenxin Yiyan 3.5 перевершили можливості ChatGPT 3.5, що є важливою віхою в розвитку відповідної технічної роботи в нашій країні.

HKUST Xunfei раніше оголосив, що 24 жовтня виконає третю ітерацію великої моделі Xinghuo, повністю порівнявши ChatGPT, китайська здатність перевершила GPT3.5, а англійська еквівалентна GPT3.5.

01 сцена, сцена

Насправді, як сказав Лі Чжіфей, колишній науковець Google і засновник і генеральний директор Mobvoy, в Китаї може не бути такої організації, як OpenAI.

Порівняно з великомасштабними моделями загального призначення, такими як ChatGPT, вітчизняні великомасштабні моделі приділяють більше уваги додаткам і сценаріям, тобто вертикальним великомасштабним моделям, промисловим великомасштабним моделям і промисловим великомасштабним моделям. У цьому відношенні думки провідників у колі технологічного венчурного капіталу висловлювали майже те саме значення.

Робін Лі, засновник Baidu, давно публічно заявляв: «Для компанії-початківця немає сенсу відтворювати ChatGPT. Я думаю, що є чудова можливість розробляти програми на основі цієї великої мовної моделі. Є немає потреби винаходити колесо. Маючи колесо, можна зробити автомобіль." , Літак, цінність може бути набагато більшою, ніж колесо."

Чжу Сяоху, керуючий директор GSR Venture Capital, написав у Moments: «Не будьте забобонними щодо загальної моделі, тому що наступного року GPT-3.5 стане товаром (загальна інфраструктура), а через три роки також стане GPT-4. . Для більшості підприємців насамперед сценарії, дані — головне!"

Фу Шен, голова та генеральний директор Cheetah Mobile, вважає, що для великих моделей буде дві дороги. Велика модель під назвою Getting Better — це «Створення Ейнштейна». Але для багатьох професій не потрібен «Ейнштейн», випускники коледжу можуть це зробити. Це інший шлях. Я вважаю, що має бути велика кількість людей, які виготовляють «цивільні великі моделі».

Чжан Пінган, генеральний директор Huawei Cloud, сказав на прес-конференції Pangu Large Model 3.0: «У великої моделі Pangu немає часу писати вірші та спілкуватися. Незалежно від того, скільки там параметрів і наскільки хороша здатність до діалогу, якщо вона може Не вирішуйте практичних завдань, це не принесе великої користі».

Більшість великомасштабних моделей, випущених у Китаї останнім часом, спрямовані на вертикальні галузі, як-от великомасштабна модель Yanxi, випущена JD. Вертикальна великомасштабна модель «Ziyue» у сфері освіти, випущена Dao.

Велика модель JD Yanxi акумулювала накопичені знання JD у роздрібній торгівлі, логістиці, охороні здоров’я, фінансах та інших галузях промисловості протягом багатьох років. Вона об’єднує 70% загальних даних і 30% вихідних даних JD про ланцюг поставок для навчання, надання рекомендацій щодо продуктів, фінансової політики , Можливості в таких сферах, як правила фінансового менеджменту та досвід логістики. Цао Пенг, президент підрозділу JD Cloud, вважає, що одна технологія масштабної моделі сама по собі не може безпосередньо створювати цінність, а технологія може створювати реальну цінність лише тоді, коли її вводять на сцену.

Модель подорожі Ctrip просить перевірити 20 мільярдів неструктурованих туристичних даних, поєднати існуючі структурні дані Ctrip у реальному часі та історично навчених роботів і пошукових алгоритмів Ctrip для проведення самостійно розробленого навчання вертикальної моделі та інвестувати багато робочої сили Створити та перевірити загальну відповідь зміст подорожей. Лян Цзяньчжан, засновник і голова ради директорів Ctrip, сказав, що Ctrip не пошкодує зусиль, щоб інвестувати у великі моделі, і сума інвестицій не обмежена.

Що стосується додатків, Baidu нещодавно співпрацює з Lenovo у сфері AIGC. Приватний бізнес Lenovo з персоналізації повністю представив Baidu Wenxin Yige. Споживачі можуть налаштувати зовнішній вигляд ноутбуків за допомогою малюнків на тему AIGC на офіційному веб-сайті. Huawei Cloud Pangu Large Model і Meitu Visual Large Model MiracleVision спільно запустили функцію підгонки моделі AI, яка може ефективно підвищити ефективність електронної комерції товарів одягу.

Хоча вертикальна велика модель не має високих вимог до параметрів і обчислювальної потужності, як загальна велика модель, вона має вищі вимоги до сценаріїв і даних. Вона вимагає від розробників професійних знань, багатого накопичення досвіду галузевих застосувань і терпимості до помилок. ступінь також нижчий, вимагаючи від ШІ суперстабільності та надійності. Тому чим ближче до вертикальної галузі, тим більше переваг у вертикальної моделі.

«Загальна широкомасштабна модель може вирішити 70%-80% проблем у 100 сценаріях, але вона може не задовольнити потреби певного сценарію підприємства на 100%. Якщо підприємство тонко налаштовується на основі великомасштабної промислової моделі та власних даних, він може побудувати спеціальну модель для створення високодоступної інтелектуальної служби, і параметри моделі менші, ніж у загальної великої моделі, вартість навчання та міркування нижча, а оптимізація моделі простіше", - сказав старший виконавчий віце-президент Tencent Group, генеральний директор Cloud and Smart Industry Business Group Тан Даошен.

З цієї точки зору «маленькі моделі» можуть бути більш сексуальними і здатними краще вирішувати конкретні проблеми.

SenseTime запустив велику модель із 100 мільярдами параметрів, а також запускає невелику модель із 10 мільярдами параметрів для різних вертикальних полів. Перевага великої моделі полягає в тому, що вона може знаходити нові рішення та допомагати вирішувати нові проблеми. Після вирішення вона може генерувати велику кількість даних у вузькому полі та перенавчати малу модель. Деякі маленькі моделі навіть можуть працювати на терміналі за нижчою ціною. Але маленька модель не існувала б без великої моделі.

02 Великі виробники забирають усіх переможців, де можливості для компаній-початківців?

У галузі існує думка, що китайську версію ChatGPT вироблятимуть лише п’ять компаній: Baidu, Ali, Tencent, Byte та Huawei.

В епоху Інтернету це типовий «721», перше місце смачно і гостро, друге ледве виживає, третє під загрозою.

Зараз борються сотні моделей, і кожна хоче отримати частку великої моделі. Але існує дуже реальна проблема, що великі заводи мають переваги, з якими компанії-початківці не можуть зрівнятися, коли вони виготовляють великомасштабні моделі. Для маленької та красивої компанії-початківця це, мабуть, лише ілюзія, що вона хоче повалити велику фабрику лише з трьома-п’ятьма людьми.

Великі моделі неможливо відокремити від хмарної платформи. Висадка великих моделей потребує постійного тонкого налаштування та навчання, і все це потрібно запускати на хмарній платформі. Baidu, Ali, Tencent, Byte і Huawei мають власний хмарний бізнес. Baidu і Huawei також завершили компонування від чіпів до програм. Baidu — «Kunlun Core + Flying Paddle Platform + Wenxin Large Model», Huawei — «чіп Shengteng». + фреймворк MindSpore + велика модель Pangu», які є перевагами, з якими не можуть зрівнятися компанії-початківці.

Крім того, великі компанії мають природні переваги щодо запасів капіталу, людських ресурсів, сценаріїв використання та накопичення даних. Без сценарію посадки для стартапів технологія не може бути повторена, постійно оптимізована, а також не можуть бути створені ефекти мережі даних.

Тож у малих компаній взагалі немає шансів?

Давайте повернемося до метафори епохи золотої лихоманки: "Ця епоха дуже схожа на епоху золотої лихоманки. Якби ви тоді поїхали до Каліфорнії шукати золото, багато людей загинуло б. Але люди, які продають ложки та лопати, можуть завжди заробляй гроші». Це також правда. Лу Ці, засновник і генеральний директор Qiji Chuangtan, нещодавно поділився з підприємцями. Лу Ці сподівається допомогти китайським підприємцям розпізнати цей історичний поворотний момент, знайти координати сучасної епохи та знайти власну позицію.

На початку липня Стюарт Рассел, професор комп’ютерних наук Каліфорнійського університету в Берклі та автор книги «Штучний інтелект — сучасний підхід», попередив, що боти на основі штучного інтелекту, такі як ChatGPT, незабаром можуть «вичерпати текст у всесвіті» ." ", а техніка навчання ботів шляхом збору великої кількості тексту "починає стикатися з труднощами".

Минулого тижня понад 8500 авторів підписали листа з проханням до керівників компаній, зокрема OpenAI, Microsoft, Meta та Alphabet, не використовувати їхню роботу для навчання систем штучного інтелекту без дозволу чи оплати, а також із проханням до цих компаній штучного інтелекту компенсувати їхні втрати авторських прав.

Запас даних в Інтернеті скоро вичерпається, а високоякісних даних стає дедалі дефіцитніше. Хороша чи погана модель, на 20% визначається алгоритмом, а на 80% – якість даних. У «трійці» даних, обчислювальної потужності та алгоритмів дані є основним, найдовговічнішим і фундаментальним елементом. Для постійної оптимізації та ітерації великі моделі потребують надсилання величезних обсягів даних.

Далі справжньою цінністю стануть стійкі високоякісні дані. Як постійно отримувати джерела даних, які є законними, сумісними та відповідають бізнес-логіці, стане ключовим фактором у покращенні продуктивності великих моделей. Таким чином, оператори даних можуть стати важливою роллю, що обмежує розвиток великих моделей.

В ідеалі модель постійно надає послуги користувачам, а користувачі постійно генерують нові дані для моделі. Що стосується наступного кроку, то приватні дані будуть прописані. Більш персоналізовані послуги означають більше особистих даних, і малоймовірно, що люди будуть показувати особисті дані великій моделі без застережень.

У будь-яку епоху «продавець води» - це завжди хороший бізнес. Цікаво, що без води вам не обійтися, будь ви першовідкривачем, дослідником чи золотошукачем. Звичайно, ви також можете продавати ложки та лопати.

03 Висновок

За останні кілька місяців у соціальних мережах з’явився пост, який широко поширювався:

Подумайте про ШІ як про дитину. ШІ в Європі та Сполучених Штатах належить до елітарного шляху освіти.Після його народження його родина витрачала гроші всю дорогу на навчання, поки він не отримав докторський ступінь.

Китайський штучний інтелект належить до лінії утилітарної освіти. Його виховують для виживання з народження, і коли йому виповнюється 15 років, він змушений шукати способи заробити гроші для сім’ї та навчитися продавати навички.

Кілька слів, ретельно продегустований, наповнений смаками.

Хоча це не обов’язково правда, це також може певною мірою пояснити, чому OpenAI і ChatGPT не з’явилися в Китаї. Фактично, деякі вітчизняні інвестори та підприємці спочатку були сповнені впевненості та хотіли бути китайською версією OpenAI. Після кількох місяців метань я виявив, що мені все ще потрібно знайти модель прибутку, вивчити сценарії бізнес-додатків і можливості комерціалізації.

Варто зазначити, що деякі кінцеві користувачі C нещодавно помітили, що продуктивність ChatGPT-4 у певних завданнях надто низька. Це вважається використанням OpenAI змішаної експертної моделі (MOE) для зменшення витрат і підвищення ефективності. , а також перенести фокус на послуги корпоративного рівня.

Озираючись навколо, Apple також розробляє власну велику мовну модель Apple GPT, і Qualcomm уже вивчає, як її реалізувати до кінця цього року, щоб модель із рівнем параметрів від 10 до 15 мільярдів могла працювати в автономному режимі на мобільний телефон без хмарної обробки.

Великі моделі – це зміна продуктивності, зміна парадигми. 200 років тому люди вперше використали парові двигуни для перетворення теплової енергії в кінетичну, і почалася ера індустріалізації. Сьогодні люди використовують великі моделі для перетворення електричної енергії в потужність мозку та загальний інтелект, і починається нова ера.

Звичайно, нам не потрібно занадто багато коліс, але нам все одно потрібні хороші колеса.

Попереду довгий шлях.

Переглянути оригінал