マスク氏のxAI初の研究成果を公開! 創設メンバーのヤング&ヤオクラスの卒業生は共同で働きました

ソース: 量子ビット

マスクのxAI、最初の公開研究結果はこちら!

一般的な作品の1つは、xAIの創設メンバーであり、ヤウ・チェントンの弟子であるグレッグ・ヤンです。

以前、ヤンゲはxAIにおける彼の研究の方向性は「AIのための数学」と「数学のためのAI」であると公に述べました。

ハイライトの1つは、彼の以前の研究を続けることです。

Tensor Programsは、ニューラルネットワークアーキテクチャを記述する統一プログラミング言語であり、関連する成果であり、GPT-4ですでに利用可能です。

シリーズに属するこの新しい論文は、「無限のディープネットワークを訓練する方法」に焦点を当てています。

この目的のために、ヤンゲ自身もXでライブ放送共有を特別に実施しました。

どんな素晴らしいコンテンツがマークに値するのか見てみましょう~

無限ディープニューラルネットワークのトレーニング

簡単に言えば、この論文では、残差ネットワーク(ResNet)の深さ方向への拡大について研究しています。

残差ネットワークは、深さが増すにつれて深い畳み込みニューラルネットワークのパフォーマンスが低下する問題を解決することがわかっています。 しかし、ネットワークが深まり続けるにつれて、優れた深い残留ネットワークをトレーニングすることは依然として簡単な作業ではありません。

ネットワークが深くなると、フィーチャの規模は拡大し続け、ネットワークが不安定になります。 ネットワークを深めた後、ハイパーパラメータを再調整する必要がありますが、これは少なからず作業です...

ヤンガーと彼の友人たちのアイデアは、特徴を学習し、ハイパーパラメータ転送を実現できる深いパラメトリック手法を見つけることでした。

彼らはまず、無限に広いニューラルネットワークに対して、カーネルマシンと特徴学習器の2つの制限を考えました。 後者の場合、最適なハイパーパラメータは幅によって変化しません。

ここでは、Tensorプログラムフレームワークを使用して無限のワイドネットワークの限界を分析しました。

前述のように、Tensor Programは、数学言語でニューラルネットワークアーキテクチャを記述および分析できる基盤となるプログラミング言語を構築するという、Youngerの長期的な研究目標の1つです。

具体的には、テンソルプログラムは行列乗算関数と活性化関数で構成されています。 ヤングは、ニューラルネットワーク関数をこの言語で表現できれば、分析のために自動的かつ完全に初期化できることを発見しました。

数学的導出の部分は、ここでは特定の拡張なしで、絵画のスタイルを浅く感じることができます...

これらの微分解析に基づいて、著者らは、深さ方向のハイパーパラメータ転送を実現し、異なる深さでのハイパーパラメータ調整を大幅に簡素化できるDepth-μP法を提案しています。

深さμPには以下の点があります。

  • 係数 a/sqrt(L) は、各残差分岐の平方根と深さ L に反比例します。
  • 各重み行列の学習率は、最適化アルゴリズムのタイプに応じて、深さLが増加するにつれて減少します。 SGD の場合、学習率は一定のηを取り、Adam などの適応最適化アルゴリズムの場合、学習率は η/sqrt(L) を取ります。

著者らは、残差ブロック深度が1の場合、深度パラメータ化に最適な方法であるDepth-μPが、深度の増加にハイパーパラメータが収束し、深度方向へのハイパーパラメータ転送を確実に実現できることを発見したことは注目に値します。

ただし、残差ブロック深度が2≥場合、ハイパーパラメータ移行の失敗やトレーニングのパフォーマンス低下は依然として発生します。

さらに、深層ネットワークにおける重要な役割としての「特徴量の多様性」の概念についても検討します。

この論文のもう一人の共著者は、プリンストン大学のDingli Yuです。 彼は清華八尾クラスで学士号を取得し、現在はプリンストン大学でコンピューターサイエンスの博士号を取得しています。

**ヤンガーは生放送で何と言いましたか? **

生放送中、ヤンゲは視聴者の興味のある質問にも答えました。 元の意味を変えることなく、量子ビットはいくつかの問題を解決しました。

Q:私たちの多くにとって、[論文の内容]は私たちの理解を超えている可能性があります。 しかし、あなたが言及したモデルは、私たちが体験できるChatGPTやOpenAIテクノロジーとどう違うのだろうか? この論文とOpenAIの結果の大きな違いや革新は何ですか?

ヤンガー:簡単にコメントさせてください、そして、これらの特性は現時点では実用化に直接関係しているのではなく、本質的に研究のようなものであると言いたいです。

もちろん、これらすべてを行うことの最終的な目標は、モデルをより良く、より安全にし、そして人類に利益をもたらすことです。 私たちが今やっていることは、意図された効果を説明することであり、必ずしも直接的な影響を与えるわけではありません。

私たちは同じ船に乗っているので、短期的な仕事であろうと長期的な応用研究であろうと、それがすべての人の利益のために機能するようにできることをしています。

Q:推論できる人工コンピューター脳を構築しているようですが、これはあなたが取り組んでいることですか? さらに、私は母親であり、7歳の息子は数学に非常に興味がありますが、AIの分野に興味を持ち、熱心に保つことができるアドバイスはありますか?

ヤンガー:「新しいウェブ」とは人工ニューラルネットワークを指し、Google、Facebook、Instagramなど、毎日使用する多くの最新テクノロジーのバックボーンであり、これらのサービスはこれらの人工ニューラルネットワークをその下に置いています。 これらのネットワークは、動物や人間の実際のニューラルネットワークに触発されて約60〜70年前に生まれましたが、実際の神経科学から逸脱しています。

これらのネットワークは本質的に数学的な問題であるため、これらの新しい数学的問題を把握し、多くの分析を行うことで、これらのニューラルネットワークを深く理解することができます。

ニューロンがどのように接続するかはまだ正確にはわかりませんが、数学的研究を通じて、これらの人工ニューラルネットワークを最適化して、テクノロジー企業が人々の生活を向上させるのに役立ちます。

あなたの2番目の質問に関して、あなたの息子が数学に非常に興味を持っていると聞いてうれしいです。 これは、テクノロジーの分野で大きな成果を生み出し、すべての人の生活を向上させるための基盤です。

私がアドバイスしたいのは、まず第一に、息子の数学への情熱を維持することです。 この情熱を失うと、学び続けることが難しくなります。

また、彼が好きなものを観察し、学習プロセスを面白くし、さらに彼の興味を刺激することに注意を払います。 同時に、物事がどのように機能するかの原理についての彼の好奇心を養い、勉強への好奇心によって動かされる科学的思考を育むことを試みることも必要です。 それは、物事を分解し、それらがどのように機能するかを理解しようとするようなものです。

宇宙の数学的真理を探求する熱意を失うと、勢いを得るのが難しいかもしれません。 一般的に、私はあなたがあなたの息子の世界、特に数学と科学の性質に対する深い興味と好奇心を養うことを勧めます。

Q:もっと抽象的な質問があります。 奥行きが無限に近づくという考えがあり、その考えに基づいてこの論文を書いたのですね。 異なるアーキテクチャのニューラルネットワークを検討しましたか? ニューロンと無数のレイヤーを備えた標準的なアーキテクチャではなく、まったく異なるものです。 たとえば、これらのニューロンはまったく異なる方法で接続されています。

ヤンガー:実際、私たちの研究における非線形性と層の数に関する洞察は、非常に初歩的な研究です。 適切な構造とは何か、どのような構造であるべきかについては、確かに多くの質問があります。

たとえば、Metaチームは以前にランダムに接続されたニューロンに何が起こるかを研究し、いくつかの興味深い結果を得ました。 ですから、ここでやるべきことは間違いなくもっとたくさんあります。 今、私は本当に正しいか、またはよりよく構造化されるかを言うための具体的な答えを持っていません。

ジャンゲについて

湖南省で生まれたヤン・ゲは、小学校を卒業した後、米国に渡り、ハーバード大学でチェントン・ヤウ教授に師事しました。

△ヤン・ゲとヤウ・チェントン、出典:ヤン・ゲツイッター

2017年、ヤンゲはハーバード大学を卒業し、シェンシャンヤンの推薦でマイクロソフトに入社しました。

マイクロソフトでは、Yang Geはシェン・シャンヤンから高く評価されました。 数ヶ月前、「基礎科学と人工知能」と呼ばれるフォーラムで、シェン・シャンヤンは公に次のように述べました。

マイクロソフトリサーチ>通常、博士課程の学生のみを募集し、ヤンゲは学部卒業生としてマイクロソフトリサーチに入学しました。 マイクロソフトリサーチに参入しただけでなく、過去5年間、特にGPTの開発において非常にうまくいったことは、決定的な貢献をしました。

彼自身がGPT-4が彼のμTransfer(テンソルプログラムシリーズ)法を使用していることを認めていることは言及する価値があります。

Younger の Tensor プログラムに関する研究は非常に早い段階から行われており、2019 年に "Tensor Program I" が出版され、マイクロソフトで働いていたときにも深く探求し続けました。 彼は、ディープラーニングのほとんどすべての計算はテンソルプログラムとして表すことができると信じています。

今年7月、マスクは新会社xAIの設立を発表し、ヤングはマイクロソフトを離れてxAI創設チームに加わり、xAIの数学者になりました。

xAIに参加した後、ヤングは、Tensor Programsプロジェクトの長期的な目標は、大規模な深層学習の「すべての理論」を開発すること、つまりAI大規模モデルの動作を真に理解できる理論的ルールを見つけることであることを何度も明らかにしました。

彼はまた述べました:

AIは、誰もが以前は想像もできなかった方法で私たちの数学的宇宙を理解することを可能にします。

論文リンク:

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)