Оприлюднено перші результати дослідження Маском xAI! Члени-засновники Янг і Яо клас спільно працювали

Джерело: Qubits

xAI Маска, перший публічний результат дослідження тут!

Однією з поширених робіт є Грег Янг, член-засновник xAI та учень Яу Чентуна.

Раніше Янге публічно заявляв, що його дослідницький напрямок в xAI – «Математика для ШІ» та «ШІ для математики».

Одним із важливих моментів є продовження його попередніх досліджень:

Tensor Programs, уніфікована мова програмування, що описує архітектури нейронних мереж – пов'язані досягнення, вже доступні в GPT-4.

Ця нова стаття, яка належить до серії, присвячена тому, «як тренувати нескінченні глибокі мережі».

З цією метою сам Янге також спеціально проводив пряму трансляцію на X.

Давайте подивимося, який чудовий контент вартий уваги ~

Навчання нескінченних глибоких нейронних мереж

Говорячи простою мовою, в даній роботі досліджується розширення залишкових мереж (ResNet) в напрямку глибини.

Ми знаємо, що залишкові мережі вирішують проблему зниження продуктивності глибоких згорткових нейронних мереж зі збільшенням глибини. Але оскільки мережа продовжує поглиблюватися, навчити хорошу глибоку залишкову мережу все ще залишається непростим завданням:

Коли мережа поглиблюється, масштаб функцій продовжуватиме збільшуватися, що призведе до нестабільності мережі. Після поглиблення мережі необхідно переналаштувати гіперпараметри, що є не малим обсягом роботи ...

Ідея Янгера і його друзів полягала в тому, щоб знайти глибокий параметричний метод, який міг би як вивчати особливості, так і досягати передачі гіперпараметрів.

Спочатку вони придумали дві межі для нескінченно широких нейронних мереж: або машин з ядром, або учнів функцій. Для останніх оптимальні гіперпараметри не змінюються з шириною.

Тут вони проаналізували межі нескінченної широкої мережі за допомогою фреймворку Tensor Programs.

Як згадувалося раніше, тензорні програми є однією з довгострокових дослідницьких цілей Янгера: побудувати базову мову програмування, яка може описувати та аналізувати архітектури нейронних мереж математичною мовою.

Зокрема, тензорні програми складаються з функцій множення та активації матриць. Янг виявив, що якщо функції нейронних мереж можуть бути виражені на цій мові, то вони можуть бути автоматично і повністю ініціалізовані для аналізу.

Частина математичного виведення, без специфічного розширення, тут ми відчуваємо стиль живопису поверхнево...

На основі цих похідних аналізів автори пропонують метод Depth-μP, який може реалізувати перенесення гіперпараметрів у напрямку глибини та значно спростити коригування гіперпараметрів на різних глибинах.

Глибина-мкП містить наступні моменти:

  • Коефіцієнт a/sqrt(L) обернено пропорційний квадратному кореню кожної залишкової гілки та глибині L.
  • Швидкість навчання кожної вагової матриці зменшується зі збільшенням глибини L, залежно від типу алгоритму оптимізації. Для SGD швидкість навчання займає постійну η, а для алгоритмів адаптивної оптимізації, таких як Adam, швидкість навчання займає η/sqrt(L).

Варто зазначити, що авторами встановлено, що коли залишкова глибина блоку дорівнює 1, Depth-μP є оптимальним способом параметризації глибини, який може забезпечити зближення гіперпараметрів зі збільшенням глибини та реалізувати перенесення гіперпараметра у напрямку глибини.

Однак, коли залишкова глибина блоку ≥ 2, збій міграції гіперпараметрів і зниження продуктивності навчання все одно відбудуться.

Крім того, у статті досліджується концепція «різноманіття функцій» як ключова роль у глибоких мережах.

Ще одним співавтором статті є Дінглі Ю з Прінстона. Він закінчив клас Цінхуа Яо зі ступенем бакалавра і зараз здобуває ступінь доктора філософії в галузі комп'ютерних наук у Прінстоні.

**Що сказав Янгер у прямому ефірі? **

Під час прямого ефіру Янге також відповідав на запитання, що цікавлять глядачів. Не змінюючи початкового значення, кубіти розібралися з деякими проблемами.

Питання: Для багатьох з нас [зміст статті] може бути поза нашим розумінням. Але цікаво, чим модель, про яку ви згадали, відрізняється від технології ChatGPT та OpenAI, які ми можемо випробувати? Які суттєві відмінності чи інновації між цією статтею та результатами OpenAI?

Молодший: Дозвольте мені зробити короткий коментар, і я хотів би сказати, що ці властивості не пов'язані безпосередньо з практичним застосуванням на даний момент, а більше схожі на дослідження в природі.

Звичайно, кінцева мета всього цього – зробити модель кращою, безпечнішою, а потім і принести користь людству. Те, що ми зараз робимо, – це опис передбачуваного ефекту, який не обов'язково має прямий вплив.

Тепер, коли ми знаходимося в одному човні, ми робимо все можливе, будь то короткострокова робота або довгострокові прикладні дослідження, щоб змусити це працювати на благо всіх.

Питання: Звучить так, ніби ви створюєте штучний комп'ютерний мозок, здатний міркувати, то чи це те, над чим ви працюєте? Крім того, я мама, і мій 7-річний син дуже цікавиться математикою, чи є у вас якісь поради, які можуть підтримувати його інтерес і ентузіазм у сфері штучного інтелекту?

Молодший: «Нова мережа» відноситься до штучних нейронних мереж, які, на мою думку, є основою багатьох сучасних технологій, включаючи Google, Facebook, Instagram і т.д., якими ви користуєтеся щодня, і ці сервіси використовують ці штучні нейронні мережі. Ці мережі з'явилися на світ близько шістдесяти-сімдесяти років тому, натхненні реальними нейронними мережами тварин і людей, але вони відійшли від справжньої нейронауки.

Ці мережі, по суті, є математичними проблемами, тому ми можемо глибоко зрозуміти ці нейронні мережі після того, як осягнемо ці нові математичні проблеми та проведемо багато аналізу.

Хоча ми ще не знаємо точно, як нейрони з'єднуються, за допомогою математичних досліджень ми можемо оптимізувати ці штучні нейронні мережі, щоб допомогти технологічним компаніям покращити життя людей.

Що стосується вашого другого питання, то приємно чути, що ваш син дуже цікавиться математикою. Це фундамент для створення великих досягнень у сфері технологій та покращення життя кожного.

Порада, яку я хотів би дати, полягає в тому, що, перш за все, ви підтримуєте пристрасть сина до математики, що дуже важливо. Як тільки ви втрачаєте цю пристрасть, вам стає важко продовжувати навчання.

Також зверніть увагу на спостереження за тим, що йому подобається, роблячи процес навчання цікавим і додатково стимулюючи його інтерес. У той же час необхідно також виховувати в ньому цікавість до принципу того, як все влаштовано, і намагатися культивувати наукове мислення, яке керується цікавістю до вивчення. Це все одно, що розбирати речі і намагатися зрозуміти, як вони працюють.

Якщо людина втрачає ентузіазм до вивчення математичних істин Всесвіту, їй може бути важко набрати обертів. Загалом, я рекомендую вам виховувати у сина глибокий інтерес і цікавість до світу, особливо до природи математики та природничих наук.

Питання: У мене більш абстрактне питання. У вас була ідея, що глибина наближається до нескінченності, і тоді ви написали цю статтю на основі цієї ідеї. Чи розглядали ви нейронні мережі з різною архітектурою? Не стандартна архітектура з нейронами і незліченною кількістю шарів, а щось зовсім інше. Наприклад, ці нейрони пов'язані абсолютно по-різному, може бути якийсь квадрат?

Молодший: Насправді, розуміння нелінійності та кількості шарів у нашій роботі є дуже рудиментарними дослідженнями. Безумовно, є багато питань, які можна дослідити про те, що таке відповідна структура, або якою вона має бути.

Наприклад, команда Meta раніше вивчала, що відбувається з випадково з'єднаними нейронами, і отримала цікаві результати. Отже, тут, безперечно, є чим зайнятися. Зараз у мене дійсно немає конкретної відповіді, щоб сказати, що було б правильним або краще структурованим.

Про Jange

Ян Ге народився в провінції Хунань, після закінчення початкової школи вирушив до Сполучених Штатів, де навчався в Гарварді під керівництвом професора Чентун Яу.

△ Ян Ге та Яу Чентун, джерело: Twitter Yang Ge

У 2017 році Янге закінчив Гарвард, а потім вступив до Microsoft за рекомендацією Шень Сян'яна.

У Microsoft Ян Ге був високо оцінений Шень Сян'яном. Кілька місяців тому на форумі під назвою «Фундаментальна наука та штучний інтелект» Шень Сян'ян публічно заявив:

Microsoft Research зазвичай набирає лише докторантів, і Янге вступив до Microsoft Research як випускник бакалаврату. Не тільки увійшов до Microsoft Research, але й досяг надзвичайно хороших результатів за останні п'ять років, особливо в розробку GPT зробив вирішальний внесок.

Варто згадати, що він сам визнав, що GPT-4 використовує його метод μTransfer (серія тензорних програм).

Дослідження Янгера щодо тензорних програм існує з самого початку, і «Tensor Programs I» було опубліковано в 2019 році, і він продовжував глибоко досліджувати їх, коли працював у Microsoft. Він вважає, що практично будь-які обчислення в глибокому навчанні можуть бути представлені у вигляді тензорних програм.

У липні цього року Маск оголосив про створення нової компанії xAI, а Янг покинув Microsoft, щоб приєднатися до команди засновників xAI і стати математиком xAI.

Приєднавшись до xAI, Янг не раз розповідав, що довгострокова мета проекту Tensor Programs — розробити «теорію всього» масштабного глибокого навчання, тобто знайти теоретичне правило, яке може по-справжньому зрозуміти поведінку великих моделей ШІ.

Він також заявив:

штучний інтелект дозволить кожному зрозуміти наш математичний всесвіт способами, які раніше неможливо було уявити.

Посилання на папір:

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити