Лань Чженчжун, професор Університету Вест-Лейк: Кілька думок про великі моделі

2023-09-19 07:47:02

19 вересня 2023 року в Шанхаї відкрився «2023 Shanghai Blockchain International Week·The Ninth Blockchain Global Summit». Лан Чженчжун, засновник West Lake Xinchen і професор Університету Вест-Лейк, прочитав лекцію під назвою «Кілька думок про великі моделі».

Для отримання додаткової інформації, будь ласка, натисніть «Основні моменти Шанхайського міжнародного тижня блокчейну 2023 (постійно оновлюється)»

Golden Finance проводив виїзне відстеження та звітування про всю зустріч. Нижче подано стислий виклад змісту виступу.

Доброго ранку усім!

Сьогодні я в основному розповім про великі моделі та штучний інтелект, а пізніше я розповім про деяку інтеграцію з Web3 і роботу, що виконується.

Я почав працювати над штучним інтелектом у 2007 році, і з того часу минуло більше десяти років. Від ери ЦП до ери ГП, від малих моделей до великих моделей, я роблю це протягом тривалого часу, і я також зробив деякий відносно репрезентативний вміст. У 2019 році велика модель, яку я створив, коли працював у Google, була найкращою великою моделлю у світі, набагато кращою за GPT2, тому ми тоді дивилися зверхньо на серію GPT, але зараз у них дуже добре.

Коли я повернувся до Китаю в 2020 році, я провів першу китайську оцінку великих моделей. Мене можна вважати глибоким учасником великих моделей. Зараз є лабораторія та компанія, які проводять дослідження, пов’язані з великими моделями.

У минулому я рідко оглядався на історію розвитку великих моделей і рідко глибоко замислювався над ними. Поки ChatGPT не став популярним, люди приходили задавати мені різні запитання. Дозвольте мені підсумувати наступні запитання:

По-перше, ви хочете, щоб модель стала більше чи менше?

По-друге, зараз багато говорять про загальні великі моделі. Отже, чи є можливості у загальних великих моделей чи у великих промислових моделей?

По-третє, чи варто мені інвестувати в NVIDIA чи великі модельні компанії та компанії-виробники програм?

По-четверте, для широкого загалу, як великі моделі можуть змінити мою роботу? Як вибрати професію.

Ці запитання дозволяють нам переглянути минулу історію. Я в основному надаю деякі минулі дані для довідки.

По-перше, перше питання, чи будуть великі моделі ставати все більшими? Озираючись назад в історію, коли комп’ютери почали розробляти в 1950 році, моделі фактично ставали все більшими і більшими. Можна сказати, що збільшення моделі є першим фактором для того, щоб модель стала розумною, тому модель ставатиме все більшою і більшою.

До 2018 року ми виявили метод, за допомогою якого модель може швидко розширюватися. Зараз вона розширюється дуже швидко. З 2018 до початку 2021 року вона фактично збільшувалася в сотні разів кожні 18 місяців. Зараз швидкість уповільнилася, але це також Швидке розширення.

(Як показано на малюнку) Це зображення є зображенням GPT4. Вертикальна вісь вказує на рівень інтелекту. Чим вищий рівень інтелекту, тим вищий рівень. Горизонтальна вісь вказує на розмір моделі та кількість тренувань . У міру того як модель стає більшою і тренованішою, рівень інтелекту стає все вище і вище. Зеленою точкою є GPT4. У цій точці все ще є схил, і він все одно буде опускатися. Тож можна очікувати, що коли ви збільшите модель, вона все одно стане розумнішою. Люди завжди прагнуть до межі, і ми неодмінно її посилимо.

Але те, що зараз усіх хвилює, так це те, що GPT4 вже є моделлю трильйонного рівня. Витрати на висновки дуже дорогі, а навчання також дуже дороге. Чи корисне підсилення?

Дивлячись на інші дані, ми знаємо, що це непотрібно, оскільки вартість навчання та висновків різко знижується. Під час навчання GPT3 у 2020 році вартість одного тренування становила 4 мільйони доларів США. У 2022 році її було знижено до 400 000 доларів США, і вартість скорочується дуже швидко.

В основному з кількох аспектів:

По-перше, продуктивність GPU різко зросла, а витрати впали, значно перевищивши закон Мура. З 2016 по 2022 рік, відповідно до закону Мура, продуктивність центрального процесора зросла у 8 разів, а графічного процесора — у 26 разів. Поліпшення дуже очевидне.

По-друге, це вдосконалення програмного забезпечення. Завдяки підвищенню ефективності навчання за допомогою програмного забезпечення щорічні витрати на навчання зменшуються приблизно на 47%. Поєднання цих двох є дуже жахливим падінням, одне - апаратне, а інше - програмне забезпечення.

По-третє, ми розширюємо обчислювальну потужність у великих масштабах. До появи ChatGPT глобальна обчислювальна потужність збільшувалася приблизно на 20%-40% щороку. Після появи ChatGPT збільшення обчислювальної потужності може подвоїтися. Коли ваша обчислювальна потужність зростає у великих масштабах і графічні процесори виробляються масово, операційні витрати також зменшуються. Взяті разом, вартість навчання та висновків різко знижується, тому ми бачимо, що за два роки вона впала в 10 разів.

У найближчі кілька років моделі трильйонного рівня, такі як GPT4, стануть відносно дешевими, і ними зможе користуватися кожен.

Підводячи підсумок, я передбачаю, що моделі продовжуватимуть ставати більшими та потужнішими, витрати на навчання та логічні висновки продовжуватимуть падати, а ітерації будуть швидкими.

(Як показано на малюнку) Це зображення про GPT1. Тоді я не мав високої думки про GPT1. Озираючись назад, я зробив велику помилку. GPT1 зробив дуже великий внесок і перетворив штучний інтелект зі спеціалізованого штучного інтелекту. Перетворення на загальний штучний інтелект.

Раніше існували сотні завдань обробки природної мови, і для кожного завдання були розроблені різні моделі, тому було багато документів. Але після виходу GPT1 я сказав вам не використовувати різні моделі. Я використовував одну модель для вирішення більшості ваших (завдань).

Останню статтю написав мій тодішній колега з Google, який інтегрував різні завдання в одну модель. Тому основний внесок цієї хвилі — універсальність. Універсальність відображається не лише в тексті, але й у зображеннях, звуках і Для різних даних, таких як послідовності, якщо ви можете перетворити дані в послідовність, їх можна в основному обробити.

Розрізати зображення на багато частин і подовжити його — це завдання, з яким тепер може впоратися модель Transformer.Вона в основному може охоплювати різноманітні завдання та є дуже універсальною.

Хоча зараз великі моделі не можуть впоратися з багатьма складними завданнями, ви можете це зробити, якщо трохи допоможете йому це зробити і трохи розділите завдання. Хоча всі вважають, що GPT4 дуже сильний, точність безпосереднього виконання 24 балів становить 7,3%, але якщо трохи розбити його, його можна покращити до 74%. Багато, здавалося б, складних завдань, якщо професіонали допоможуть йому розбити їх, Тепер моделі серії GPT або загальні великі моделі можуть допомогти вам вирішити багато завдань і досягти автоматизації.

Один полягає в тому, що модель стане більшою, а інший полягає в тому, що він універсальний і може розгадати багато складних персонажів, невелике розбирання, тому він дуже практичний. Є багато таких, які були успішно впроваджені за кордоном. Наприклад, компанія Duolingo в Піттсбурзі, її дохід зріс на 42% у першому кварталі 2023 року завдяки додаванню додатку ChatGPT.

Зараз багато програмістів використовують Copilot. Дохід OpenAI цього року оцінюється в 1,2 мільярда доларів США, що є дуже складним доходом для стартап-компанії.

Різниця між цією хвилею штучного інтелекту та попередньою полягає в тому, що вона замінює працівників розумової праці. На малюнку праворуч показаний рівень інтелекту (автоматизації) у різних галузях до початку цієї хвилі загального штучного інтелекту. Внизу — ті, хто не має диплому , за якими йдуть від «Від магістра до доктора філософії», ступінь замінності стає все нижчим і нижчим у міру просування. Зараз усе по-іншому, після появи загального штучного інтелекту розумових працівників можна легко замінити.

Підсумовуючи, впровадження великих моделей буде швидшим, ніж ми собі уявляли, звичайно, повільнішим, ніж уявляли багато фінансових працівників, оскільки реакція фондового ринку завжди швидша за технології, принаймні швидша, ніж ми собі уявляли, і це може розширити можливості для всіх верств населення життя. Вам складно розбирати кожне завдання.Якщо велика модельна компанія заглиблюється в індустрію, з’являться великі можливості.

Зараз більшість людей звертають увагу на інтелект моделі, і менше уваги приділяють "емоційному інтелекту" моделі та ступеню взаємодії з людьми. Наприклад, я задав питання, яке б задав мій коханий, і ChatGPT дав мені таку відповідь. Існує метод для цієї відповіді, але його немає. Емоції, здається, вказують на те, що наша взаємодія з моделлю є холодною та не має уваги до користувачів. Це відображення раннього розвитку галузі.

Ви можете порівняти пошукові системи. Коли вони вперше були запущені, персоналізація була рідкістю. Але тепер кожен використовує Baidu та Google по-різному, тому що багато інформації буде персоналізовано, щоб зробити пошук точнішим, але більшість із них Моделі ще не можуть це зробити.

Деякі люди також почали це робити, наприклад компанія під назвою Character.ai, яку також заснував мій колега з Google. Він додав персоналізацію моделі, що може значно скоротити час взаємодії між моделлю та людьми. Дані за травень: середній час взаємодії OpenAI становить 4 хвилини, а середній час взаємодії цієї компанії – 28 хвилин, що в кілька разів перевищує час взаємодії. Сторінка виглядає так, що еквівалентно розділенню великої моделі на різні капітали та агентів (агентів) для досягнення персоналізованого напрямку, який є більш емоційним і люди готові з ним взаємодіяти. З розробкою великих моделей зараз станеться великий прорив у взаємодії людини з комп’ютером.

Наша компанія та лабораторія в основному досліджують загальні великі моделі з високим IQ та високим EQ, головним чином мультимодальні великі моделі. У минулому, щоб покращити емоційний інтелект моделей, було розроблено низку можливостей для покращення пам’яті, персоналізації та емоційного сприйняття.

Модель було запущено відносно рано, тому що я працював над загальною великою моделлю в Google протягом тривалого часу. До появи ChatGPT у середині 2020 року у нас була наша власна загальна велика модель. На той час здатність писати модель була на рівні 3,5, і це була серйозна професія.

Він існує в Інтернеті більше року і має понад 200 користувачів зі сторони C і понад 100 користувачів зі сторони B, включаючи Starbucks і Alipay.

Одним із найбільш типових додатків є співпраця з Tom Cat. Tom Cat — супутній продукт із 400 мільйонами активних користувачів у всьому світі. У минулому він переважно копіював мову людей і копіював слова за допомогою зміни голосу. Ми додаємо до нього можливості мультимодальної взаємодії та можливості діалогу.

Повернемося до Web3, пов’язаного з конференцією. Це моє приблизне розуміння. Я думаю, що велика модель і Web3 відповідають продуктивності та виробничим відносинам відповідно. Велика модель значно підвищує рівень продуктивності, але якщо вона хоче працювати добре, вона повинна мають відповідні виробничі відносини, щоб відповідати. Я резюмував, що існує кілька проблем у реалізації великих моделей:

По-перше, вартість навчання дуже висока. Немає стимулів для компаній-початківців відкривати свої моделі. Моделі, навчання яких коштує мільйони доларів, є відкритими, але тоді вони не мають нічого спільного зі мною. Це важко щоб вони відкривали їх. Але відкритий код дуже важливий для моделей. Багато з поточних моделей є чорними ящиками. Багато дослідницьких установ не можуть дозволити собі навчати власні моделі. Якщо всі навчаються, то всі винаходять колесо. Тому відкритий код дуже важливий, але потребує відповідних заходів.

По-друге, вартість міркування висока. Поточна вартість міркування однієї розмови в GPT4 становить 60 центів, що набагато дорожче, ніж мій виступ. Вартість міркування дуже висока, і її дуже важко реалізувати. GPT4 можна використовувати в багатьох місцях, але вартість недоступна.

По-третє, це конфіденційність даних. Раніше OpenAI витік даних Samsung викликав багато галасу. Дані, які ми зараз завантажуємо у велику модель, є конфіденційними даними. Багато компаній не бажають завантажувати власні дані. Як вирішити ці проблеми? Я сподіваюся, що Web3 допоможе нам вирішити ці проблеми.

Я щойно почув, як вчитель Цао сказав, що є ще багато труднощів, але ми сподіваємося, що завдяки дослідженням ми зможемо вирішити ці проблеми. Наприклад, у нас є публічний ланцюжок, і кожен може завантажувати моделі з відкритим кодом. Навіть якщо ви відкриваєте модель і завантажувати їх у загальнодоступний ланцюг, буде відповідний механізм заохочення. Наприклад, якщо користувачі завантажуватимуть дані, якщо нам буде дозволено навчатися, будуть відповідні заохочення.

Існують також проблеми з комп’ютером. Тепер кожен має дуже потужну відеокарту на своєму мобільному телефоні. Якщо мобільний телефон кожного може сприяти висновкам, тоді ми можемо значно зменшити вартість висновків. Ми сподіваємося, що наші ідеали можна справді втілити в життя завдяки потужності Web3. Ми сподіваємося, що великі моделі зможуть розширити можливості для всіх верств суспільства, супроводжувати всіх і справді стати помічниками чи компаньйонами кожного.

Дякую вам всім!

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Поділіться

Прокоментувати

0/400

Немає коментарів

Тема
1/3
1Simple Earn Annual Rate 24.4%
22k Популярність
2Gate Launchpad List IKA
30k Популярність
3ETH Trading Volume Surges
23k Популярність
4Gate ETH 10th Anniversary Celebration
21k Популярність
5Trump’s AI Strategy
18k Популярність

Закріпити

карта сайту