Опубликованы первые результаты исследований Маска в области xAI! Члены-основатели Янг и Яо, выпускники классов совместно работали

Источник: Кубиты

xAI Маска, первый публичный результат исследования, уже здесь!

Одной из наиболее распространенных работ является Грег Янг, один из основателей xAI и ученик Яу Чэнтуна.

Ранее Янге публично заявлял, что его исследовательское направление в xAI — «Математика для ИИ» и «ИИ для математики».

Одним из основных моментов является продолжение его предыдущего исследования:

Tensor Programs, унифицированный язык программирования, описывающий архитектуры нейронных сетей – связанные с ним достижения, уже доступные в GPT-4.

Эта новая статья, принадлежащая к этой серии, посвящена тому, «как обучать бесконечные глубокие сети».

С этой целью сам Янге также специально провел прямую трансляцию на X.

Давайте посмотрим, какой замечательный контент стоит отметить~

Обучение бесконечных глубоких нейронных сетей

Говоря простым языком, в данной работе исследуется расширение остаточных сетей (ResNet) в направлении глубины.

Мы знаем, что остаточные сети решают проблему снижения производительности глубоких сверточных нейронных сетей по мере увеличения глубины. Но по мере того, как сеть продолжает углубляться, обучение хорошей глубокой остаточной сети по-прежнему остается непростой задачей:

Когда сеть углубляется, масштаб объектов будет продолжать увеличиваться, что приведет к нестабильности сети. После углубления сети необходимо перенастроить гиперпараметры, а это не малый объем работы...

Идея Янгера и его друзей заключалась в том, чтобы найти глубокий параметрический метод, который мог бы как изучать признаки, так и достигать передачи гиперпараметров.

Сначала они придумали два предела для бесконечно широких нейронных сетей: либо машины ядра, либо изучающие функции. Для последних оптимальные гиперпараметры не изменяются с шириной.

Здесь они проанализировали пределы бесконечно широкой сети с помощью фреймворка Tensor Programs.

Как упоминалось ранее, тензорные программы являются одной из долгосрочных исследовательских целей Янгера: создать базовый язык программирования, который может описывать и анализировать архитектуры нейронных сетей на математическом языке.

В частности, тензорные программы состоят из функций умножения и активации матриц. Янг обнаружил, что если бы функции нейронных сетей могли быть выражены на этом языке, они могли бы быть автоматически и полностью инициализированы для анализа.

Часть математического вывода, без специального расширения, здесь мы чувствуем стиль живописи поверхностно...

На основе этого производного анализа предложен метод Depth-μP, который позволяет реализовать перенос гиперпараметров в направлении глубины и значительно упростить настройку гиперпараметров на разных глубинах.

Depth-μP содержит следующие точки:

  • Коэффициент a/sqrt(L) обратно пропорционален квадратному корню из каждой остаточной ветви и глубине L.
  • Скорость обучения каждой матрицы весов уменьшается по мере увеличения глубины L, в зависимости от типа алгоритма оптимизации. Для SGD скорость обучения принимает постоянную η, а для алгоритмов адаптивной оптимизации, таких как Adam, скорость обучения составляет η/sqrt(L).

Стоит отметить, что авторами установлено, что при остаточной глубине блока, равной 1, Depth-μP является оптимальным способом параметризации глубины, который может обеспечить сходимость гиперпараметров с увеличением глубины и реализовать перенос гиперпараметров в направлении глубины.

Однако, если остаточная глубина блока ≥ 2, сбой переноса гиперпараметров и снижение производительности обучения все равно будут происходить.

Кроме того, в статье исследуется концепция «функционального разнообразия» как ключевая роль в глубоких сетях.

Еще одним соавтором статьи является Дингли Ю (Dingli Yu) из Принстона. Он окончил Университет Цинхуа Яо со степенью бакалавра и в настоящее время работает над докторской диссертацией в области компьютерных наук в Принстоне.

**Что сказал Янгер в прямом эфире? **

Во время прямого эфира Янге также ответил на интересующие зрителей вопросы. Не меняя первоначального смысла, кубиты разобрались с некоторыми проблемами.

Вопрос: Для многих из нас [содержание документа] может быть за пределами нашего понимания. Но мне интересно, чем упомянутая вами модель отличается от технологии ChatGPT и OpenAI, которую мы можем испытать? Каковы существенные различия или инновации между этой статьей и результатами OpenAI?

Янгер: Позвольте мне сделать небольшой комментарий, и я хотел бы сказать, что эти свойства не имеют прямого отношения к практическому применению на данный момент, а больше похожи на исследования в природе.

Конечно, конечная цель всего этого – сделать модель лучше, безопаснее, а затем принести пользу человечеству. То, что мы сейчас делаем, — это описание предполагаемого эффекта, который не обязательно имеет прямое воздействие.

Теперь, когда мы находимся в одной лодке, мы делаем все, что в наших силах, будь то краткосрочная работа или долгосрочные прикладные исследования, чтобы это работало на благо всех.

Вопрос: Похоже, вы создаете искусственный компьютерный мозг, способный рассуждать, так это то, над чем вы работаете? Кроме того, я мама, и мой 7-летний сын очень интересуется математикой, есть ли у вас какие-нибудь советы, которые могут поддержать его интерес и энтузиазм в области ИИ?

Янгер: «Новый интернет» относится к искусственным нейронным сетям, которые, на мой взгляд, являются основой многих современных технологий, включая Google, Facebook, Instagram и т.д., которые вы используете каждый день. Эти сети родились около шестидесяти или семидесяти лет назад, вдохновленные реальными нейронными сетями животных и людей, но они отклонились от реальной нейробиологии.

Эти сети, по сути, являются математическими задачами, поэтому мы можем глубоко понять эти нейронные сети после того, как разберемся в этих новых математических задачах и проведем большой анализ.

Хотя мы еще не знаем точно, как нейроны соединяются, с помощью математических исследований мы можем оптимизировать эти искусственные нейронные сети, чтобы помочь технологическим компаниям улучшить жизнь людей.

Что касается вашего второго вопроса, приятно слышать, что ваш сын очень интересуется математикой. Это фундамент для создания больших достижений в области технологий и улучшения жизни каждого человека.

Совет, который я хотел бы дать, заключается в том, чтобы, во-первых, поддерживать в сыне страсть к математике, что очень важно. Как только вы теряете эту страсть, становится трудно продолжать обучение.

Также обращайте внимание на то, чтобы наблюдать за тем, что ему нравится, делая процесс обучения интересным и дополнительно стимулируя его интерес. В то же время необходимо также культивировать его любопытство к принципу того, как все устроено, и стараться культивировать научное мышление, которое движимо любопытством к изучению. Это все равно, что разбирать вещи и пытаться понять, как они работают.

Если кто-то потеряет свой энтузиазм в исследовании математических истин Вселенной, ему может быть трудно набрать обороты. В целом, я рекомендую вам развивать в вашем сыне глубокий интерес и любопытство к миру, особенно к природе математики и естественных наук.

Вопрос: У меня более абстрактный вопрос. У вас была идея о том, что глубина стремится к бесконечности, и вы написали эту статью, основанную на этой идее. Рассматривали ли вы нейронные сети с разной архитектурой? Не стандартная архитектура с нейронами и бесчисленными слоями, а нечто совершенно иное. Например, эти нейроны соединены совершенно по-разному, может быть, какой-то квадрат?

Янгер: На самом деле, понимание нелинейности и количества слоев в нашей работе является очень рудиментарным исследованием. Конечно, есть много вопросов, которые можно исследовать о том, что такое подходящая структура, или какой она должна быть.

Например, команда Meta ранее изучала, что происходит со случайно связанными нейронами, и получила несколько интересных результатов. Так что здесь определенно есть чем заняться. Сейчас у меня действительно нет конкретного ответа, чтобы сказать, что было бы правильно или лучше структурировано.

О Джанге

Ян Гэ родился в провинции Хунань, после окончания начальной школы уехал в США, где учился в Гарварде у профессора Ченгтун Яу.

△ Ян Гэ и Яу Чэнтун, источник: Ян Гэ Twitter

В 2017 году Янге окончил Гарвард, а затем поступил в Microsoft по рекомендации Шэнь Сянъяна.

В Microsoft Ян Гэ был высоко оценен Шэнь Сянъяном. Несколько месяцев назад на форуме под названием «Фундаментальная наука и искусственный интеллект» Шэнь Сянъян публично заявил:

Microsoft Research обычно набирает только докторантов, и Янге поступил в Microsoft Research в качестве выпускника бакалавриата. Не только поступил в Microsoft Research, но и добился крайне неплохих результатов за последние пять лет, особенно в развитие GPT внес решающий вклад.

Стоит отметить, что он сам признался, что GPT-4 использует его метод μTransfer (Tensor Programs series).

Исследования Янгера о тензорных программах ведутся с самого начала, и в 2019 году была опубликована книга «Тензорные программы I», и он продолжал углубленно изучать ее, когда работал в Microsoft. Он считает, что практически любые вычисления в глубоком обучении могут быть представлены в виде тензорных программ.

В июле этого года Маск объявил о создании новой компании xAI, а Янг покинул Microsoft, чтобы присоединиться к команде основателей xAI и стать математиком xAI.

Присоединившись к xAI, Янг не раз раскрывал, что долгосрочной целью проекта Tensor Programs является разработка «теории всего» крупномасштабного глубокого обучения, то есть найти теоретическое правило, способное по-настоящему понять поведение больших моделей ИИ.

Он также заявил:

ИИ позволит каждому понять нашу математическую вселенную способами, которые ранее были невообразимы.

Ссылка на статью:

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить