Лінь Цзюньчао: Дивлячись на інвестиційні можливості ШІ з точки зору первинного ринку

Джерело: НДІ «Титан Капітал».

Після того як ChatGPT охопив світ, штучний інтелект вийшов на новий ринок. Як підривний інтелектуальний інструмент продуктивності, він уже став гарячою темою. Наразі розвинені країни та регіони по всьому світу підняли розвиток індустрії штучного інтелекту до національної стратегії, а пов’язані нові технології та програми постійно впроваджуються. З поглибленим розвитком нової хвилі штучного інтелекту ось-ось почнеться промислова революція на чолі з технологією цифрового інтелекту, яка також відкрила прелюдію до «ери великих моделей» у всіх сферах життя.

Чому великі мовні моделі можуть очолити тенденцію ШІ? Які інвестиційні можливості для вітчизняного ШІ? Нещодавно Titanium Capital запросив Лінь Цзюньчао, інвестиційного директора Rongyi Capital, поділитися темою: «Погляд на інвестиційні можливості ШІ з точки зору первинного ринку». Пан Лін має ступінь бакалавра з електротехніки та електронної інженерії та першокласний ступінь магістра з відзнакою в Університетському коледжі Лондона (UCL), а також має трирічний досвід підприємницької діяльності та шість років досвіду інвестування в акції. Його інвестиції спрямовані на основні інструменти розробки програмного забезпечення, Metaverse та AIGC, включаючи Jingye Intelligence, Smart Open Source China та інші проекти. Організатором цього обміну є Ву Кай, керуючий директор Titanium Capital. Нижче наведено запис про обмін:

Чому велика мовна модель може стати лідером розвитку штучного інтелекту

Коротка історія розвитку ШІ

З тих пір, як Шеннон запропонував комп’ютерні ігри в 1950 році, ШІ пережив понад 70 років розвитку. Ми можемо приблизно розділити його на чотири етапи: раннє просвітництво + ера експертних систем (50-70-ті роки), машинне навчання + ера комп'ютерного бачення (80-90-ті роки), ера глибокого навчання (2006-2017), мультимодальна + ера великої мовної моделі (2018-теперішній час).

Знакова подія на ранньому етапі просвітництва відбулася на Літньому симпозіумі Дартмутського коледжу в 1956 р. На зустрічі вперше було запропоновано концепцію штучного інтелекту, яка офіційно поклала початок прелюдії до штучного інтелекту. У цей період з’явився перший чат-робот ELIZA, розроблений Массачусетським технологічним інститутом у 1966 р., перша експертна система DENDRAL, а Девід Марр запропонував концепції комп’ютерного зору та обчислювальної техніки. урології в 1976 році.

В епоху машинного навчання є визначна фігура, тобто хрещений батько штучного інтелекту, який деякий час тому залишив Google – Джеффрі Хінтон. У 1986 році він запропонував алгоритм зворотного поширення, який зробив можливим широкомасштабне навчання нейронних мереж і проклав шлях для пізніших нейронних мереж і глибокого навчання. У той же час на цьому етапі також з’явилося багато знакових подій і цифр, як-от гра в нарди в 1979 році та перемога Deep Blue над чемпіоном світу з шахів Кастровим в 1997 році. У 2006 році Джеффрі Хінтон та інші офіційно запропонували концепцію глибокого навчання, ввівши таким чином ШІ в третю стадію — еру глибокого навчання.

В епоху глибокого навчання Джеффрі Хінтон запропонував згорткову нейронну мережу AlexNet у 2012 році та виграв конкурс на класифікацію зображень ImageNet.Загальний рівень помилок був на 10,8% нижчим, ніж друге місце, офіційно відкривши перший рік глибокого навчання комп’ютерного зору. У березні 2013 року Google придбала стартап-компанію Джеффрі Хінтона DNNResearch за 44 мільйони доларів США. Відтоді Google почала лідирувати в розробці глобального штучного інтелекту; у 2015 році TensorFlow, найвпливовіша у світі структура глибокого навчання, була відкритою; у 2016 році AlphaGo переміг 9-данного майстра Го Лі Седоля з рахунком 4:1; у 2017 році була здобута модель Transformer. запущено, що відтоді відкрило еру нинішньої великої мовної моделі. У той же час, разом із хвилею штучного інтелекту на чолі з Google, у 2016 році також були створені штучні єдинороги, такі як Scale AI, HuggingFace і OpenAI. У 2017 році інтернет-гігант Meta також відкрив вихідний код більш корисного фреймворку глибокого навчання Pytorch.

OpenAI, лідер в епоху великих мовних моделей, вперше з’явився на початку квітня 2019 року. Розроблена нею OpenAI Five перемогла команду OG, чемпіона світу Dota2, з абсолютною перевагою 2:0, а потім випустила GPT-3 із 175 мільярдами параметрів у травні 2020 року, ChatGPT (GPT-3.5) у листопаді 2022 року та GPT-4 у березні 2023 року. Відтоді вона офіційно зайняла перейшов із Google і став лідером у світі. Розробка моделі. Інтернет-гіганти програмного забезпечення, такі як Google, Meta та Microsoft, також скоригували свої стратегії та взяли активну участь у масштабному конкурсі моделей. Після ChatGPT наприкінці 2022 року ми побачили, що великі виробники в усьому світі перейшли на широкомасштабну модель, а вітчизняні університети, технологічні гіганти, стартапи тощо також постійно запускали різноманітні великомасштабні модельні продукти та програми.

Історію розвитку штучного інтелекту в Китаї можна простежити до заснування Азійського дослідницького інституту Microsoft у 1998 році. Сьогодні засновники та основні команди відомих вітчизняних компаній, таких як Innovation Works, Baidu, Kingsoft, Alibaba, SenseTime і Questyle, походять із Азійського дослідницького інституту Microsoft. Перша партія вітчизняних компаній штучного інтелекту iFlytek, Dahua та Hikvision була зареєстрована на ринку акцій A приблизно в 2008-2010 роках. З 2011 по 2015 рік у Китаї з’явилося багато стартапів із комп’ютерного зору, таких як Megvii (заснований у 2011 році), YITU (заснований у 2012 році), SenseTime (заснований у 2014 році) та Yuncong (заснований у 2015 році). У 2018 році була створена національна команда - Beijing Zhiyuan Artificial Intelligence Research Institute. Розробка великих моделей цього разу також виграла від цієї хвилі. З 2002 року такі компанії, пов’язані зі штучним інтелектом, як Cambrian, SenseTime, Haitian Ruisheng і Yuncong, зареєстровані в Раді науково-технічних інновацій і на Гонконзькій фондовій біржі.

Чарівність ChatGPT і GPT-4

Чому ChatGPT і GPT-4 дозволяють нам інтуїтивно відчути різницю та силу цієї хвилі ШІ з минулого? В основному його можна розглядати з таких аспектів:

**По-перше, з точки зору користувача, цей час є дуже схожим на людський метод взаємодії. **Під час розмови за допомогою ChatGPT вміст генерується слово за словом, а відповідь генерується під час роздумів. У той же час він також має можливість кількох раундів діалогу. Крім того, він також може виконувати деякі ролі, такі як перекладачі, психологічні консультанти тощо.

**По-друге, здатність до узагальнення, що в основному відображається в здатності швидко розуміти вимоги та давати відносно точні відповіді без контексту. **Це залежить від підтримки масивного корпусу попереднього навчання та розробки підказок.

**По-третє, ланцюжок мислення. ** Здатність розуміти контекст і контекст, навіть довгі тексти. Наприклад, щойно випущений Claude2 має потужність обробки контексту в 100 000 токенів, що, по суті, може завантажувати в нього для обробки цілу книгу. У той же час існує також сильна здатність до логічного міркування, яка може поступово розбирати та виводити проблему відповідно до способу людського мислення.

Насправді ці можливості з'являються зі збільшенням параметрів моделі та подовженням часу навчання. Крім того, ми бачимо, що GPT-4 має чудові результати в різних тестах на людях, в основному досягаючи рівня майбутніх студентів коледжу.

Склад великої мовної моделі

Повертаючись до самої великої мовної моделі, я рекомендую всім переглянути доповідь State of GPT, яку опублікував співзасновник OpenAI Андрій Карпаті на конференції розробників Microsoft. Він розібрав процес навчання великої моделі на чотири етапи:

**На етапі попереднього навчання для навчання базової моделі потрібна велика кількість відносно низькоякісних навчальних даних (включно з книгами, скануванням Інтернету, документами тощо) і 99% обчислювальної потужності та часу в усьому процесі навчання великої моделі. **Наприклад, навчання базової моделі LLaMA із 650 мільярдами параметрів потребує 2048 графічних процесорів Nvidia A100, що займає 21 день, а повна вартість навчання становить близько 5 мільйонів доларів США. Таким чином, навчання базової моделі не є дружнім для стартапів, і такі ресурси та витрати, як правило, доступні лише для великих виробників.

Другий крок виконується під контролем і налаштовується на базовій моделі, щоб навчити модель SFT, таку як Vicuna-13B та інші поширені моделі з відкритим вихідним кодом, є контрольованими і налаштованими моделями. На цьому етапі необхідно надати лише невелику кількість високоякісних даних, а потреба в обчислювальній потужності є відносно невеликою.

**Третій і четвертий етапи – це етапи моделювання винагороди та навчання підкріплення, тобто навчання зворотного зв’язку підкріплення людини RLHF. ** Завдяки цим двом етапам вихід моделі буде набагато кращим, ніж контрольована модель тонкого налаштування та базова модель, але ентропія базової моделі буде принесена в жертву.

З точки зору галузі первинного ринку, щоб побачити можливості ШІ

Розглядаючи можливості інвестування штучного інтелекту систематично з точки зору інвестицій у первинний ринок, його можна розділити на базовий рівень, рівень розгортання та рівень додатків.Спільнота моделей AI проходить через ці три рівні.

**Базовий рівень можна розділити на рівень інфраструктури, рівень даних і рівень алгоритму. **

Нижній рівень рівня інфраструктури – це обчислювальна потужність, і це також місце, яке наразі стикається з найбільш прямим вузьким місцем.Тепер на графічні процесори Nvidia та AMD накладено ембарго в Китаї. Huawei Kunpeng, лідер вітчизняної обчислювальної потужності, також зіткнувся з проблемою відведення на плівку.У майбутньому Китай може зіткнутися зі зростаючим тиском з точки зору обчислювальної потужності високого класу. У той же час залишається проблема використання GPU.Навіть для OpenAI велика кількість інженерів Nvidia постійно працюють на місці для ручного налаштування, але використання GPU становить лише 50%-60%. Над обчислювальною потужністю знаходиться базовий рівень програмного забезпечення навколо великої моделі, такий як власне зберігання даних, передача даних, безпека даних та інші інструменти, а також платформи розробки та обслуговування даних, включаючи векторні бази даних, LLMOps, MLOps тощо.

На рівні даних може бути більше можливостей, тому що базову модель можуть розробити провідні компанії в майбутньому, і буде велика кількість базових моделей з відкритим кодом, тому немає потреби витрачати багато грошей на розробку власної базової моделі. Ми повинні зосередитися на накопиченні даних вертикальних галузей і самих підприємств, а також на тому, як формувати великомасштабні програми, за які клієнти готові платити. Зараз найбільшою проблемою великих моделей є те, як отримати високоякісні набори даних і вертикальні галузеві набори даних.Усі бачили потенціал великих моделей у галузях промисловості, науки, медицини, права, фінансів і освіти. Майбутні можливості можуть полягати в тому, як ефективно отримувати високоякісні дані, як обробляти мультимодальні дані, як ідентифікувати, як використовувати дані, як підтверджувати права, як торгувати, як захищати безпеку тощо.

Ядро рівня алгоритму лежить у структурі глибокого навчання та базовій моделі

Структуру глибокого навчання можна описати як операційну систему штучного інтелекту. Вона координує розгортання обчислювальних ресурсів вниз, бере на себе можливості побудови моделей алгоритмів штучного інтелекту вгору та надає велику кількість бібліотек операторів, бібліотек моделей і навчальних посібників документів. Це також екологічно за своєю природою та знижує поріг розвитку. На даний момент основними фреймворками глибокого навчання в світі є TensorFlow від Google і Pytorch від Meta, а в Китаї — Baidu Fei Paddle, Huawei Shengsi і Oneflow, яку раніше придбала Light Years Beyond.

Сама базова модель також має різноманітність. Наприклад, з точки зору технічних шляхів, існують CNN, RNN, GAN, Transformer і т. д. Модель Transformer можна розділити на модель автокодування, авторегресійну модель, модель кодера-декодера тощо, а за формою можна розділити на закриту та відкриту. Цей напрямок є найімовірнішим для створення компаній з ринковою вартістю в сотні мільярдів або навіть трильйонів, але це також основне поле битви з найгострішою конкуренцією.

В епоху війни 100 моделей оцінка моделей стала основним інструментом для вимірювання можливостей різних моделей. В даний час на ринку з'явилися різні інструменти оцінки традиційних малих моделей (GLUE, SuperGLUE і т.д.), великих мовних моделей (HELM, BIG-Bench і т.д.) і китайських великих мовних моделей (SuperCLUE, C- і т.д.). Подібно до SuperCLUE та C-, до їхніх наборів оцінювання додано велику кількість запитань із китайською специфікою (думка Мао Цзедуна, основні принципи мускізму тощо), китайською специфікою (ідіоми, вірші, класична китайська мова тощо) та іншими параметрами. Судячи з результатів оцінювання, за винятком GPT-4, GPT-3.5 і Claude, вітчизняні великомасштабні моделі продукції є кращими, ніж інші закордонні моделі в загальній оцінці, тому необхідність навчання китайських великомасштабних моделей є дуже високою.

Прикладний рівень можна розділити на загальні великі моделі та вертикальні промислові великі моделі. Ми зосереджуємося в основному на новому поколінні інструментів підвищення продуктивності з підтримкою ШІ в області загальних великих моделей і можливостях застосування великих моделей у різних вертикальних галузях промисловості.

до C—інструмент підвищення продуктивності на основі штучного інтелекту

В епоху епідемії інструменти підвищення продуктивності на тему співпраці, такі як Notion, Figma та Canva, зазнали змін. Подібним чином під час цієї хвилі штучного інтелекту інструменти продуктивності також стануть початком нової революції.

Тепер ми бачимо, що великі моделі різною мірою проникли в текст, код, зображення, музику, відео, 3D тощо. Різноманітні нові продукти та нові додатки з’являються один за одним, такі як чат-боти в текстовому полі та копілот офісного продукту, копілот GitHub у полі коду, Midjourney і Stable Diffusion у полі зображень, AI Stefanie Sun, який раніше був популярний у музичному полі, і runway у полі відео тощо. Такі компанії, як Baidu, Kingsoft Office, Evernote, Zhipu Huazhang тощо, також випустили подібні продукти штучного інтелекту. , різною мірою змінюють форму традиційних інструментів підвищення продуктивності, але наразі вони обмежені інструментами підвищення ефективності в процесі промислового виробництва в різних сферах і не можуть реалізувати AGI у справжньому сенсі.

У той же час можна побачити, що такі виробники, як Microsoft Office, Adobe Photoshop, Unity та Notion, також активно охоплюють цю хвилю ШІ, вбудовуючи можливості AGI у власні продукти та ланцюжки інструментів. Спочатку вважалося, що поява Midjourney і Stable Diffusion повністю замінить Photoshop, але пізніше виявилося, що AGI через проблеми з керованістю та іншими аспектами зробив Photoshop у поєднанні з можливостями генерації штучного інтелекту потужнішим і простим у використанні.

3D-поле наразі є одним із найскладніших для впровадження штучного інтелекту. Основним фактором є недостатня кількість високоякісних 3D-даних. Наразі AGI для 3D-вмісту в основному досліджується й очолюється NVIDIA, Unity, Stability.ai та науково-дослідними інститутами, але на даному етапі це все ще переважно демонстраційні інструменти та інструменти у формі розкиду, і попереду ще довгий шлях, перш ніж його можна буде застосувати в галузях промисловості, таких як спецефекти для кіно та телебачення, ігри та метавсесвіт.

до B—модель вертикальної промисловості

Наразі більшість великомасштабних моделей, що випускаються великими виробниками, є великомасштабними моделями загального призначення.Однак, коли вони стикаються з вертикальними галузями, клієнтам класу B потрібні високоточні, узгоджені та прості в розгортанні великі моделі, які можуть ефективно вирішувати конкретні сценарні проблеми з меншою кількістю даних і меншою обчислювальною потужністю. Остання велика модель Pangu 3.0, випущена Huawei, заснована на базовій великій моделі, додавши N L1 промислові великі моделі та можливості сценічної моделі X L2.

Основними ключовими моментами вертикальних промислових великих моделей є високоякісні галузеві набори даних та інженерні можливості для налаштування, стиснення та розгортання моделі. Це також є інвестиційною можливістю, так само, як і можливість контейнерів в епоху використання хмарних технологій, велика кількість малих і середніх підприємств B у традиційних галузях потребують покладатися на спеціалізованих виробників контейнерів, щоб допомогти їм стати на шлях хмарних технологій.

Наразі за кордоном було багато досліджень і практик у сфері великих моделей вертикальної промисловості, таких як BloombergGPT у сфері FinGPT. Bloomberg перетворив фінансові дані, накопичені за останні 40 років, у набір фінансових даних із 365 мільярдів токенів і об’єднав їх із загальними наборами даних для навчання власних 50 мільярдів параметрів. ed-PaLM 2, Nuance від Microsoft (інтегровано з GPT-4 і випущено голос). -підтримувана програма для створення медичних записів — DAX Express) тощо.

Нарешті, давайте поговоримо про капітальний фокус закордонного треку AGI: **З точки зору суми інвестицій, до п’ятірки лідерів входять маркетингові текстові програми, аудіо, роботи підтримки клієнтів/обслуговування клієнтів, зображення та платформи MLOps; з точки зору суми фінансування більше коштів надходить до платформ MLOps, основною цінністю яких є зниження порогу для розробки великих моделей, за якими йдуть роботи для обслуговування клієнтів, аудіо, цифрові люди, дубляж і зображення. **

Питання та відповіді

**Q1: Аутсорсингові компанії, які надають анотації даних і допомагають у розробці штучного інтелекту, останнім часом, здається, дуже добре працюють. Яка ваша інвестиційна тенденція? **

В: Зараз ми приділяємо увагу цим двом напрямкам. Поле маркування даних головним чином зосереджується на тому, як ці компанії використовують можливості великих моделей для підвищення ефективності маркування, наприклад використання GPT-4 для маркування тексту та SAM для маркування зображень. Оскільки поточна основна конкуренція у сфері маркування даних – це ефективність і валовий прибуток, хто може досягти ефективнішого маркування за допомогою великих можливостей моделі. З точки зору послуг великомасштабної моделі, це буде схоже на можливості контейнерів в епоху нативної хмари.Потрібні професійні постачальники, щоб знизити поріг для навчання, розробки та розгортання великомасштабної моделі та допомогти кожному підприємству реалізувати свободу великомасштабної моделі.

**Q2: AI тепер має дві категорії: TO C і TO B. Чи вважаєте ви, що більше можливостей для TO C або TO B? **

A: Ми приділяємо більше уваги TO B. Через те, що в галузі ТОС є занадто багато інтернет-гігантів, особливо в місцях із такою сильною внутрішньою екологією додатків APP, великим виробникам простіше вбудовувати можливості штучного інтелекту у власні додатки. Тому ми приділяємо більше уваги їхнім можливостям інтеграції даних, комерційному розумінню та інженерним можливостям.

**Q3: навіть для великих моделей із понад мільярдом параметрів, у Китаї було зареєстровано понад 80. Як щодо інвестиційної тенденції у велику модель? Як вибрати між відкритим і закритим кодом? **

Відповідь: Стосовно відкритого коду та закритого коду, необхідно подумати про те, як ефективно використовувати відкритий код і як використовувати модель відкритого коду для комерціалізації. Наприклад, LLaMA має комерційні обмеження в рамках угоди про відкритий код. Закрите джерело вимагає власної екології та підтримки, яку можуть підтримувати лише великі виробники, які мають відповідні можливості та фінансові ресурси.

**Q4: З точки зору підприємців ШІ, їх можна розділити на три категорії. Одна категорія походить від великих фабрик і вже відомих засновників. Інша категорія — це академіки, академіки та експерти з Університету Цінхуа чи інших галузей. Існує також категорія підприємців, які, як правило, є низовими. Якій із цих трьох категорій ви віддаєте перевагу? **

Відповідь: Багато з хвилі великих моделей у Китаї з’явилися після того, як Open AI випустив великі моделі, такі як ChatGPT, LLaMA та Bloom, як відкриті коди. Зараз ми дотримуємося вичікувальної позиції. Звичайно, у Китаї також є багато перспективних великих виробників і академічних стартап-компаній, які досліджували це перед цією хвилею масштабного модельного буму.

Для академічних команд найважчим є те, як досягти комерціалізації. Тому я не думаю, що в майбутньому потрібно робити це самостійно, наприклад, співпраця між OpenAI і Microsoft може надати великим виробникам можливості для масштабних моделей. Зараз ми шукаємо цілі навколо Open Source China, оскільки він має лінійку продуктів IDE і потребує копілота коду, тому ми шукаємо можливість співпраці з академічними командами. Я вважаю, що такий підхід є більш доцільним.

**Q5: Які вертикальні галузі на стороні B найімовірніше досягнуть комерційного прориву? **

A: Через узагальнення та мультимодальність можливостей великої моделі правове поле є дуже поширеним сценарієм, а попит на текстовий вміст дуже великий. Більші моделі мають саме таку можливість, хоча все ще є деякі проблеми, які потрібно вирішити з точки зору точності. Крім того, продукти персонального помічника також можна уявити, хоча цикл розробки може бути довшим.

Переглянути оригінал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити