Щодо великої моделі я один раз поспілкувався з професіоналом

2023-07-04 06:35:01

Джерело: White Horse Business Review

Джерело зображення: створено Unbounded AI‌

«Це майже стає червоним морем». Коли я побалакав з підприємцем про велику модель, він прямо кинув мені це речення.

У листопаді минулого року OpenAI випустив ChatGPT на основі GPT-3.5, що миттєво викликало пожвавлення великих моделей. Понад півроку в Китаї йде «війна сотень моделей» Провідні інтернет-компанії, такі як BAT і компанії штучного інтелекту, в основному анонсували власні масштабні моделі.

На початку травня Чжоу Хуні, голова 360, сказав зовнішньому світу: «Якщо ви не пройшли через два роки імітації та плагіату, якщо ви прийшли й сказали, що можете перевершити це, це було б хвальби. "Є дворічний розрив між великою моделлю та зарубіжними країнами, я візьму це назад, сьогодні це близько до міжнародного рівня".

Деякі люди вважають, що знадобилося півроку, щоб наздогнати ChatGPT, і здається, що велика модель не складна.

Отже, які основні перешкоди для великих моделей? Який рівень великої моделі Китаю? Які ризики несе велика модель для людського суспільства?

З цією метою ми поспілкувалися з Шень Веєм (псевдонім), відомим професором університету 985, який багато років займався дослідженнями машинного навчання, щоб розкрити туман великої моделі.

Шлях GPT пройшов, тому існує «війна сотень моделей»

**White Horse Business Review: чи можете ви пояснити велику модель найпопулярнішою та простою мовою, що таке велика модель? Чим він відрізняється від попередніх моделей AI? **

Шень Вей: Так звана велика модель стосується великої кількості параметрів у моделі, але в академічних колах немає чіткого та чіткого визначення того, наскільки великий параметр називається «великим». Це все ще на стадії швидких досліджень і розробок. Загалом, кількість параметрів великої моделі досягає 1. понад 100 мільйонів.

Насправді розвиток глибинного навчання приблизно пройшов три етапи. Перший етап – з 2012 по 2017 рік, представлений невеликими моделями, орієнтованими на предметну область, такими як сегментація зображень yolo та класифікація зображень ResNet, тому кількість параметрів займає максимум кілька сотень МБ пам’яті.

У 2017 році поява Transformer уможливила глибоке навчання для розпаралелювання обчислень, що є більш ефективним, що означає можливість виконання великомасштабних операцій з моделлю, і згодом створено великі моделі природної мови, такі як OpenAI GPT і Google Bert. На цьому етапі народилася велика модель конкретного завдання, параметри якої перевищили 100 мільйонів.

Приблизно у 2020 році глибоке навчання увійде на стадію загальної моделі. Його вхідними даними є речення з пробілами, а роль моделі полягає в тому, щоб «заповнити пробіли». це модель адаптації додатків нижче. Моделі на цьому етапі включають GPT 3.5 і GPT 4 у полі природної мови та Clip, DALLE, Stable Diffusion, Midjourney тощо в полі зображення. На цьому етапі параметри моделі можуть досягати десятків мільярдів і сотень мільярдів.

**White Horse Business Review: чи знаєте ви, яка компанія чи установа першою почала вивчати масштабні моделі? Які результати? **

Шень Вей: Спочатку університети та науково-дослідні установи проводили відповідні дослідження. Я знаю, що Ву Дао з Пекінського науково-дослідного інституту штучного інтелекту Чжиюань і мізки лабораторії Pengcheng є першими. Зараз дослідження в галузі також дуже синхронізовані. Дослідження в академічних колах дають певні результати, але продуктивність не така вражаюча, як у ChatGPT.

**White Horse Business Review: Лише за кілька місяців у Китаї відбулася «війна сотень моделей», і кількість компаній, які випустили великомасштабні моделі, вже надто велика, щоб порахувати. Що ви думаєте про це явище? **

Шень Вей: Великі моделі – це безумовно тренд, і люди досліджують їх. У минулому багато компаній могли інвестувати в невелику територію та проводити деякі дослідження; тепер, коли раптово з’явився хороший продукт, такий як ChatGPT, усі побачили чіткий бізнес-напрямок, тому вони почали збільшувати інвестиції.

З іншого боку, багато компаній стикаються з тиском комерційної конкуренції, і вони можуть відстати, якщо не створюватимуть великомасштабні моделі, тому необхідно запускати масштабні модельні проекти.

White Horse Business Review: Чжоу Хун'ї нещодавно сказав, що він скасував речення "розрив між вітчизняними великомасштабними моделями та іноземними країнами становить два роки". Він вважає, що сьогодні це близько до міжнародного рівня. Минуло лише кілька місяців, а велика модель начебто не складна. Як ви думаєте, яка різниця?

Шен Вей: Різниця залежить від того, з ким порівнюється. Я ще не стикався з продуктами 360 Smart Brain, тому я не дуже добре їх оцінюю. Однак у Китаї є деякі генеративні продукти штучного інтелекту. Зі свого досвіду я вважаю, що з ChatGPT все ще є прогалина. Великі вітчизняні моделі все ще потребують наполегливої роботи.

За умов великих капіталовкладень лише провідні компанії мають можливість?

**White Horse Business Review: які основні перешкоди для розробки великих моделей? **

Шен Вей: Основні бар’єри великих моделей включають дані, обчислювальну потужність і алгоритми.

З точки зору обчислювальної потужності, для навчання генеративного штучного інтелекту, такого як ChatGPT, потрібно щонайменше 10 000 відеокарт Nvidia A100. Ціна однієї відеокарти зараз становить 60 000–70 000 юанів, а ціна одиниці V100 з кращою продуктивністю становить 80 000 юанів. Інвестиції повинні досягти щонайменше шести-семи мільярдів юанів, і лише кілька провідних компаній та установ можуть собі це дозволити. Для комерційних організацій витрати сотень мільйонів на придбання купи графічних карт можуть не обов’язково дати результат. Це питання, яке слід розглянути.

Далі — дані й алгоритми. Алгоритми легші для розуміння, наприклад фреймворки розробки й алгоритми оптимізації. З точки зору даних, у Китаї немає дефіциту даних, і навіть більше Інтернет-даних, ніж у Сполучених Штатах, але які дані вибрати для навчання та як їх обробляти, є основними перешкодами.

**Baima Business Review: Ви зазвичай спілкуєтеся з компаніями? Яка різниця між некомерційними дослідницькими установами та корпораціями в дослідженнях? **

Шень Вей: Ми будемо обмінюватися інформацією з дослідницьким відділом компанії. Спілкуючись із підприємствами, ми краще розуміємо реальні потреби бізнесу. Іноді в академічних дослідженнях, які ми проводимо, більше уваги приділяється перспективним технологіям, а вимоги до впровадження не такі високі; але підприємства загалом приділяють більше уваги впровадженню.

**Baima Business Review: Ви коли-небудь вивчали вітчизняні великомасштабні моделі? Який тобі подобається найбільше? **

Шень Вей: Можливо, провідні компанії зможуть вийти. По-перше, це значні капіталовкладення, і тільки провідні компанії мають силу; по-друге, даних у руках кількох провідних компаній більше; по-третє, що був період накопичення технологій у сфері штучного інтелекту.

**White Horse Business Review: яке ваше найбільш перспективне застосування великомасштабної моделі? **

Шен Вей: З технічної точки зору, перша програма має бути в області обробки природної мови та зображень, а розпізнавання мовлення може бути пізніше.

Ви бачите, що все частіше chatGPT використовується для написання копірайтингу. З’являється все більше програм для створення такого вмісту. Я вважаю, що інші програми, такі як інтелектуальне обслуговування клієнтів, мають бути швидшими. Деякі з поточних інтелектуальних служб обслуговування клієнтів часто не можуть зрозуміти потреби користувачів і не можуть вирішити практичні проблеми. Якщо користувачі не можуть розрізнити, людина це чи робот, досвід буде значно покращений; включаючи NPC у грі, попередній діалог жорстко закодований, тепер він поступово інтерактивний, і досвід гравця стане кращим.

**White Horse Business Review: Ви колись були головним аналітиком провідної брокерської фірми. З точки зору інвестицій, які, на вашу думку, можливості мають великі моделі? **

Шен Вей: Логіка капітального ажіотажу полягає від застосування до алгоритмів, моделей, а потім до обчислювальної потужності; логіка галузі протилежна, і обчислювальна потужність має чітке очікування зростання, тому Nvidia нещодавно стрімко та значно зросла. Тепер інвестори також розуміють, що все ще потрібно перевірити, чи можна реалізувати та реалізувати велику модель, але більшість збільшених капіталовкладень було інвестовано в обчислювальну потужність. Після повторного ажіотажу загальний підйом на ринку мав би закінчитися, а потім потрібна логічна перевірка та виконання продуктивності.

Спочатку я в основному розглядав медіа та інтернет-індустрію, як-от відносно потужний ігровий сектор деякий час тому. Логіка капіталу полягає в тому, щоб, по-перше, застосовувати великі моделі для підвищення ефективності досліджень і розробок і зменшити витрати; по-друге, великі моделі приносять кращий досвід, а NPC персонажі розумніші Збільшення в'язкості, збільшення значення UP. Звичайно, з часом може знадобитися перевірка продуктивності.

Люди не можуть керувати штучним інтелектом або навіть своєю власною долею

**White Horse Business Review: ми бачили, що Альтман і Маск висловлювали занепокоєння щодо безпеки штучного інтелекту. Зараз ми знаємо лише те, що є інтелектуальні результати завдяки навчанню великих моделей, але процес навчання схожий на чорний ящик. Насправді це так досить страшно. Як ви ставитеся до питань безпеки? **

Шень Вей: З точки зору безпеки, перш за все, я спостерігав кілька аномальних явищ. Першим був відкритий лист, підписаний у березні понад 1000 людей, включаючи Маска та співзасновника Apple Стіва Возняка, із закликом до мораторію на навчання систем ШІ, потужніших за GPT-4.

По-друге, у травні цього року Джеффрі Хінтон, головний науковий співробітник Google і 75-річний «хрещений батько штучного інтелекту», пішов у відставку. , і навіть пошкодував про роботу, якою займався все життя.

По-третє, за останні два роки широкомасштабна модель навчання в академічній сфері додала етичних дискусій.

Наразі я думаю, що великою моделлю все ще можна керувати, і немає серйозних проблем; але технологія розвивається надто швидко. Лише за кілька місяців після її випуску GPT пройшов кілька ітерацій, і швидкість розробки надто висока. Коли ми стаємо дедалі розумнішими, чи зможемо ми розвинути самосвідомість, перестанемо слухати людські «команди» і вийдемо з-під контролю? Це питання хвилює всіх.

**White Horse Business Review: чи вважаєте ви, що ШІ спричинить масове безробіття? Як звичайні люди можуть зберегти роботу в умовах ШІ? **

Шень Вей: З точки зору макроекономіки, я не думаю, що штучний інтелект спричинить велике безробіття. Люди завжди матимуть роботу. Просто зміст робочих місць людей зміниться. Звичайно, з індивідуальної точки зору, структурне безробіття точно буде, і нам залишається лише продовжувати вчитися.

**White Horse Business Review: багато людей раніше казали, що машини не мають емоцій, бракують уяви та не можуть замінити людей; тепер, коли людський мозок можна змоделювати за допомогою штучного інтелекту, чи можна змоделювати людську хіть і сексуальне бажання в майбутньому? Гормони , дофамін тощо. Це біологічний механізм винагороди. **

Шень Вей: Сучасне припущення, що машини не мають емоцій. Штучний інтелект наближається до способу мислення людини. Чи буде він виробляти «емоції», подібні до людських? Просто вони живуть в іншому космічному вимірі, ніж люди, так само, як донька Ту Хен'ю в "Мандрівній Землі". Штучний інтелект може створити свій власний світ із біологічно подібними механізмами винагороди до людських.

**White Horse Business Review: якщо все можна прорахувати, спланувати та встановити, чи не було б це трохи нудно? **

Шень Вей: Поведінка штучного інтелекту не передбачена і спланована людьми, а є результатом її самозміцнення та самонавчання. Рішення MOSS у «Блукаючій Землі» приймається само собою, а не підпорядковується інструкціям. дані людьми.

**White Horse Business Review: чи є заміна вуглецевої цивілізації на кремнієву цивілізацію детерміністським напрямком? **

Шень Вей: Це питання виходить за рамки. Відповідно до поточної тенденції розвитку, це може бути так, як і в «Блукаючій Землі», саме МОХ, а не люди, справді домінують над долею людства; але насправді також можливо, що технології стагнують на певний етап і не може його пройти Адже технологічний розвиток не є лінійним.

Переглянути оригінал

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

1 лайків