Наскільки складно посадити вертикальну модель?

Першоджерело: ті речі в Інтернеті

Джерело зображення: створено Unbounded AI‌

Поточний статус треку великомасштабної моделі: *З одного боку, компанії-початківці базуються на широкомасштабних моделях з відкритим кодом, а з іншого боку, великі виробники залучають різні параметри великомасштабної моделі *.

Згідно з неповною статистикою організації, наразі в Китаї існує 79 великомасштабних моделей із масштабом понад 1 мільярд параметрів. У процесі масштабної інволюції параметрів на ринку почав з’являтися інший голос: «поліпшення параметрів без напрямку розвитку не має сенсу».

З цієї причини, з точки зору напрямку розвитку, деякі великі моделі були зосереджені на застосуванні вертикальних полів. Базуючись на розробці тисяч моделей, база може змінюватися, але якщо добре подумати, завжди знайдеться хтось, хто може вибігти з вертикальної індустрії.

У той же час, на ранній стадії розробки, хоча великі моделі із закритим вихідним кодом є кращими за якістю та відносно безпечними, екологія великомасштабної моделі все-таки потребує певного ступеня інволюції, і відкритий код може фактично сприяти процвітанню великі моделі. З іншої точки зору, на основі відкритого коду, багато компаній мають право брати участь у треку, але завжди є люди, які легко потрапляють на перший рівень – брак обчислювальної потужності.

Зрештою, кількість великих моделей зростає в рази, але якщо ми поглянемо на збільшення кількості великих моделей однобічно, то певною мірою ми проігноруємо вибір, боротьбу та навіть проблеми деяких компаній, що стоять за великими моделі.Можливість відмовитися після вибору.

Як ми всі знаємо, трьома елементами штучного інтелекту є: обчислювальна потужність, алгоритм і дані. Відкритий вихідний код знаходиться лише на стадії алгоритму, після чого підприємства потребують значної підтримки обчислювальної потужності та навчання даних, вартість цього висока.

01 Вертикальна модель, чи є ще надія для компаній-початківців?

У виборі великих моделей з відкритим кодом, виходячи з міркувань вартості та індивідуальної розробки, є чимало підприємців, які обирають моделі з малими параметрами, і вони навіть є першим вибором таких підприємств.

**Одним є питання вартості попереднього навчання. **

Guosheng Securities одного разу підрахувала, що вартість навчання GPT-3 становить близько 1,4 мільйона доларів США, а для деяких більших моделей LLM вартість навчання становить від 2 мільйонів доларів США до 12 мільйонів доларів США.

У тому числі в січні цього року в середньому близько 13 мільйонів унікальних відвідувачів використовують ChatGPT щодня. Відповідний попит на чіп становить понад 30 000 графічних процесорів NVIDIA A100. Початкова вартість інвестицій становить близько 800 мільйонів доларів США, а щоденні витрати на електроенергію - близько 50 000 доларів США.

Більше того, перш ніж інвестувати багато грошей, потрібно багато ресурсів даних для підтримки навчання моделі. Ще однією причиною цього є питання вимог до попередньої підготовки.

Деякі представники галузі також висловили свою точку зору з цього приводу: «Здатність узагальнення самої великої моделі все ще обмежена даними».

Оскільки після того, як високоякісні дані великої моделі будуть відібрані та навчені занадто мало, проблема якості вихідних даних великої моделі стане очевидною, а досвід користувача значно зменшиться.

Можна сказати, що в процесі попередньої підготовки було витрачено багато коштів і часу саме на накопичення даних.

Більше того, у великомасштабному модельному треку більшість стартапів розвиваються навколо вертикального поля галузі.Хоча зусилля відносно невеликі, це має бути непросто.

Зокрема, якщо велика модель хоче змінити бізнес-модель галузі, то найпростішим критерієм для оцінки цього є те, чи має велика модель цього типу достатньо галузевих даних, наприклад, необхідно проаналізувати чорні продукти, приховані в Лише з достатнім розумінням ми можемо не використовуватися чорними продуктами та бути в безпечному та пасивному стані.

** Іншим критерієм для оцінювання є якість кінцевого результату даних, оброблених великою моделлю під час її роботи. **

Зрештою, якщо ви хочете порушити модельну монополію, засновану на моделі з відкритим вихідним кодом, вам потрібно оптимізувати та покращити велику кількість даних, а також інвестувати в достатню кількість інфраструктури.

Сучасна модель з відкритим вихідним кодом насправді більше схожа на Android в епоху Інтернету. Початківцям компаніям нелегко розвиватися без переваг сценаріїв посадки великих виробників і накопичення даних, але все ще є можливості.

Фактично, Інститут Бодхідхарми колись розглядав «спільну розробку великих і малих моделей» як одну з майбутніх тенденцій.

Навіть стартап-компанія Zhuiyi Technology вважає, що «велика вертикальна модель — це хороша можливість, так само як відкриття американського континенту — це набагато більше, ніж просто одна людина».

Тож тепер ми бачимо, що багато стартапів почали вибирати шлях до великомасштабної моделі, зокрема DriveGPT Xuehu Hairuo, Qizhi Kongming і ChatYuan Yuanyu, запущені такими стартапами зі штучного інтелекту, як Momo Zhixing, Innovation Qizhi та Yuanyu Intelligence та інші. великі моделі.

Однак, незважаючи на відсутність вітчизняних продуктів для C-кінця, на основі B-кінця, основні виробники почали процес початкового впровадження.

Повідомляється, що великі виробники наразі планують експортувати великі моделі через хмару. Хмарні обчислення стали найкращим способом реалізації великої моделі. Модель як послуга (MaaS) привертає все більше уваги, і це також принесе вартість великих моделей зниження.

Отже, чи є ще надія на стартапи?

02 Чи відповідає досвід продукту попиту на ринку?

За прогнозом авторитетного журналу «Fast Company», дохід OpenAI у 2023 році досягне 200 мільйонів доларів США, включаючи надання послуг інтерфейсу даних API, плату за підписку на обслуговування чат-роботів тощо.

Очевидно, що існує попит на великі моделі в різних галузях промисловості, але, виходячи з міркувань безпеки та ставлення B до великих моделей, поточний коефіцієнт безпеки великих моделей обмежений. Тому на відносно базовій основі великі інтернет-компанії також віддають пріоритет діалогам із високим попитом, створенню вмісту документів і сценаріям запитань і відповідей, включаючи діалоги в офісі для спільної роботи, створення документів та багато інших сценаріїв.

Наприклад, тепер людям потрібно лише повідомити штучному інтелекту інформацію про продукт, дозволити штучному інтелекту автоматично генерувати різноманітні стилі сценаріїв і стилів доставки продукту, а потім призначити цифрову людину-якір, щоб допомогти компаніям продавати товари. Згідно з Baidu, у порівнянні з прямим мовленням, цифрове пряме мовлення може досягати 7*24 годин безперервного мовлення в прямому ефірі, а коефіцієнт перетворення вдвічі більший, ніж у безлюдних кімнатах прямого мовлення.

Оскільки хмарна інфраструктура є необхідною базою для великого підприємництва, інтернет-гіганти з хмарними обчисленнями мають певні переваги.

Відповідно до глобальних даних відстеження ринку хмарних обчислень IaaS за 2022 рік, опублікованих IDC, 10 найбільших гравців на ринку складають великі компанії в Китаї та Сполучених Штатах, включаючи Amazon, Google, Microsoft і IBM у Сполучених Штатах, а також Ali, Huawei, Tencent і Baidu в Китаї.

Хоча суперечки щодо відкритих і закритих вихідних кодів щодо великих моделей не закінчаться з появою одного чи кількох продуктів, потрібна більша участь найкращих спеціалістів, технічна ітерація та фінансова підтримка.

Але якщо порівнювати по горизонталі, багатьом стартап-компаніям зі штучним інтелектом також не пощастило, як компанії-стартапу-єдинорога MiniMax. (Різниця полягає в тому, що MiniMax фокусується на звичайних великих моделях)

20 липня Tencent Cloud розповіла про останні досягнення в допомозі MiniMax у розробці великих моделей. Зараз Tencent Cloud підтримує завдання MiniMax на рівні кілокалорій для стабільної роботи в Tencent Cloud протягом тривалого часу з доступністю 99,9%.

Повідомляється, що починаючи з червня 2022 року, на основі можливостей продукту, таких як кластери обчислювальної потужності, власне хмарне середовище, великі дані та безпека, Tencent Cloud побудувала хмарну архітектуру для MiniMax із рівня ресурсів, рівня даних і бізнес-рівня.

Реальність, здається, ще раз доводить, що отримання вхідного квитка є першим кроком, а наступним випробуванням є здатність гравців ринку досліджувати комерціалізацію та технологічні оновлення. Відверто кажучи, стартапи зі штучним інтелектом хочуть бігти на трасі до кінця, і вони не повинні пропускати кожен крок.

Певною мірою компанії-початківці не позбавлені переваг у розробці великих моделей.

Хоча деякі великі інтернет-компанії вже реалізували початкові сценарії або почали продавати послуги для отримання прибутку, очі великих компаній і MiniMax більше зосереджені на великих моделях загального призначення.

Вертикальний макет все ще залишається вакуумом. Особливо для традиційних груп підприємств, враховуючи низькі ІТ-атрибути їхнього власного бізнесу та низьке співвідношення витрат і виробництва, ймовірність вибору великої самостійно розробленої моделі є низькою.

Наприклад, Chuangxin Qizhi зосереджується на промисловому великомасштабному модельному продукті "Qizhi Kongming"; він має певну перевагу в даних і розробляє великомасштабну модель мови в ChatYuan; він головним чином зосереджується на автономному керуванні великомасштабною генеративною моделлю DriveGPT Сюеху Хайруо.

Однак можна сказати одне, дані і напрямок навчання різні, а вартість сильно різниться.

По-перше, вартість навчання великої метамовної моделі з нуля може досягати десятків мільйонів юанів. У сфері генеративного автономного водіння необхідно розробити мову, відмінну від ChatGPT, а потім «перекласти» всі дані реального водіння на дорозі на єдину мову.

До певної міри компанії-початківці штучного інтелекту можуть здійснити значні інвестиції у великі моделі та більше отримати вигоду від успіху ChatGPT у бізнесі та маркетингу, який може миттєво дозволити людям переконатися в доцільності великих моделей замість того, щоб продовжувати сховатися в довгій технічній ітерації.

З цієї причини першим кроком до реалізації поточної реалізації є те, що вартість навчання та вартість міркування великої моделі мають бути нижчими, ніж витрати на пошук, і також може бути гарантована безпосередність.

03 Наскільки складно від концепції до реалізації?

Існує думка, що китайські великі стартапи, які можуть закінчитися, швидше за все, будуть вертикально інтегрованими.

Простіше кажучи, створюючи базову велику модель, визначте остаточний основний сценарій застосування моделі, збирайте дані користувача та виконуйте швидкі ітерації.

Візуально метамовний інтелект більше тяжіє до цієї категорії. Підсумовуючи, протягом тривалого часу метамовний інтелект зосереджувався на бізнесі великих моделей природної мови.

Головний операційний директор Yuanyu Чжу Лей також сказав: «Ми не будемо сліпо розширювати бізнес із зображеннями та відео лише для того, щоб наслідувати їхній приклад. Хороший бізнес-концентрація важлива».

Однак для інших компаній-початківців, які розвиваються у масштабні вертикальні моделі, такі як автономне водіння та промислове виробництво, їм може не вистачати деяких спеціальних галузевих даних.

Зрештою, у вертикальній великомасштабній моделі основним фактором майбутньої конкуренції підприємств є приватні дані та особистий досвід.Коли процес окремої компанії не відомий розробникам великого моделювання, вона може мати унікальну конкурентоспроможність.

Крім того, у процесі бізнес-фокусу також потрібна точність даних від джерела до попереднього навчання та виведення.

Генеративний штучний інтелект наразі також отримує більше уваги регуляторів. Нещодавно Китай опублікував «Заходи з управління службою генеративного штучного інтелекту (проект для коментарів)», які чітко вимагають, щоб не було жодної дискримінації, створюваний контент повинен бути правдивим і точним, а неправдиву інформацію слід запобігати. Якщо є, у додаток до фільтрації вмісту, оптимізації моделі тощо для оптимізації.

Однак, якщо це вроджений дефект генеративного штучного інтелекту, технічно важко гарантувати та повністю вирішити його.

Крім того, з появою кращої моделі з відкритим вихідним кодом буде приплив більшої кількості компаній, які прагнуть спробувати. Для компаній-початківців це не конкуренція?

Наприклад, поточна Llama 2, 18 липня Meta випустила комерційну версію Llama 2 першої моделі штучного інтелекту з відкритим кодом Llama. Деякі компанії вважають, що, згідно з поточними різними оціночними документами, на додаток до поганої здатності кодування, насправді, багато місць почали наближатися до ChatGPT.

Можливо, божевілля спільноти з відкритим кодом у майбутньому популяризує масштабні моделі з базовими можливостями, а приватизовані масштабні моделі в майбутньому стануть ціною капусти. Відверто кажучи, підприємства можуть використовувати модель приватизації дуже дешево.

Що ще важливіше, Тан Даошен одного разу сказав: «Загальна велика модель має потужні можливості, але вона не може вирішити конкретні проблеми багатьох підприємств. Вона може вирішити 70%-80% проблем у 100 сценаріях, але вона може бути не в змозі вирішити специфічні проблеми багатьох підприємств. На 100% задовольнити потреби певного сценарію підприємства. Однак, якщо підприємство проводить тонке налаштування на основі великої моделі галузі та власних даних, воно може побудувати спеціальну модель і створити високоякісні доступні інтелектуальні послуги».

Звісно, така модель приватизації ще не настала, але у стартапів на шляху повинні бути як можливості, так і труднощі.

Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити