OpenAIの「死は言うまでもない」GPT-4トレーニングの詳細が公開、これは私の解釈です

2023-07-17 05:58:58

出典: マイノリティ

画像ソース: Unbounded AI によって生成

数日前までは普通の朝でした。日々レンガを動かしていたところ、突然「早よ、GPT-4モデルの構造が流出、また国産大型モデルがそれを超えるぞ！」とあらゆる情報が押し寄せてきた。

ソーシャルメディアをオンにすると、英語を話す必要がなく、国内の人々はすでにオンラインに移行しており、このスピードには本当に納得しています。しかし、情報源をたどってその情報の信頼性を確認すると、突然、自分がエンターテイメントの世界からテクノロジーの世界に迷い込んでしまったように感じました。

「フェイクニュース」が飛び交うインターネットの現状を鑑み、このニュースを見た私がまずしたことは、そのソースを辿ることだった。

▍インとアウト

私の情報マイニングの出発点は、Thread Reader を介して抽出された Hacker News で共有されたツイートのスレッドでした (7 月 11 日アーカイブ)。クリックして開くと、次の 2 つの文があります。

GPT-4の詳細が漏洩。もう終わりです。

このヘッドパーティーのレベルは中国に劣らない。

周知のとおり、OpenAI は GPT-4 のリリース中にオープンという約束を破り、重量や技術的な詳細を一切開示せず、業界から広く批判されました。おそらくこれが、ブロガーが「陰謀逆転」の劇的な効果を表現するために「It is over 茎」を使用する理由です。

内容を改めて見てみると、OpenAIの口が堅いGPT-4トレーニングの詳細です。この情報については多くの憶測が飛び交っていますが、公式は明らかにしておらず、言及されても非常に曖昧です（原文は比較的曖昧で、略語や専門用語が多用されており、一部については後で説明します）。 :

モデルパラメータの量: 1.8 兆、GPT-3.5 (1,750 億) の約 10 倍。
モデル層の深さ: 120 層。
モデルアーキテクチャ: 混合エキスパートモデル (MoE、説明については以下を参照)、合計 16 人の「エキスパート」、それぞれが 1,110 億のパラメータを持つ。推論の前方パス (トークン出力の生成) ごとに 2 人のエキスパートが選択されます。
トレーニングデータ: 合計 13T (13 兆) のトークンデータ。テキストデータは 2 回、コードデータは 4 回再トレーニングされます。このデータは実際には非常に重要であり、後ほど詳しく分析します。
並列戦略: 8 方向のテンソル並列処理 + 16 方向のパイプライン並列処理。異なるデータセンターに複数の GPU クラスターがあり、同時にトレーニングを行っており、各クラスターには 128 個の GPU があります。
トレーニング前のコンテキスト: 8K。 32K バージョンは 8K から微調整されています。
トレーニングコスト: 約 2.15e25 フロップのレートで、約 25,000 個の A100 で 90 ～ 100 日間の継続的なトレーニング。 A100 時間あたり 1 ドルとすると、約 6,300 万ドルの費用がかかります。 (現在、約 8,192 台の H100 を使用して約 55 日で実行でき、推定コストは 2,150 万ドルです。)

問題は、この情報がどのようにして得られたのか、また信頼できるのかということです。

つるをたどって「メロン」に触れると、この一連のツイートの発行者であるヤム・ペレグを見つけました。

私はこのおじいさんのアカウントはフォローしていませんが、過去の記事は読んでいます。彼はイスラエルの「スタートアップ企業」の CEO です (ただし、設立して 15 年が経過しており、スタートアップ企業と呼ぶのは適切ではないかもしれません); 私は豊富なエンジニアリング経験があり、大きな言語モデルを理解しています。 GPT-4 および ChatGPT コードインタプリタをリバースクラックします。今年6月にOpenAIメンバーがイスラエルを訪問した際、ペレグ氏もディスカッションやコミュニケーションに参加し、CEOのサム・アルトマン氏と写真も撮った。

この老人の記事を読んでいると、私はイスラエルで出会った学生連絡担当官のトムのことを思わずにはいられません。彼は何か言えば血が沸騰するような人です。

左から: Sam Altman、Yam Peleg (出典: @Yampeleg)

このおっちゃんはOpenAIの研究をしていて、OpenAI内部の知り合いも多いことを考えると、内部情報が得られれば、実は信憑性はかなり高いのではないかと思う。

しかし、夜に彼の投稿を注意深く調べようとしたとき、突然、彼が以前の投稿をすべて削除していることに気づきました。最初は OpenAI の対象になっているのかと思いましたが、ファイルを保存しておいてよかったと思いました。よく見てみると、OpenAIから削除要請があったわけではなく、同じく有料欄から通報され、著作権侵害の訴えを受けたためだった。

この元のソースは SemiAnalysis と呼ばれるサブスタックのコラムで、以前に GPT-4 アーキテクチャ、インフラストラクチャ、トレーニングデータセット、コスト、ビジョン、MoE というタイトルの記事がペイウォールの後ろで公開されました。

調べてみたところ、次のことが分かりました。

SemiAnalysis は、化学原料から工場、知財や戦略の設計に至るまでの半導体サプライチェーンに焦点を当てた専門的な半導体研究およびコンサルティング会社です。同社は、半導体業界で長年の経験を持つアナリスト兼エンジニアの Dylan Patel によって設立されました。パテルは、Intel、AMD、Qualcomm などで設計エンジニアからマーケティングマネージャーまで幅広い役職を歴任してきました。 SemiAnalysis のチームには、専門の半導体アナリストやコンサルタントも多数含まれています。 AI、クラウドコンピューティング、ネットワーキング、ストレージ、電気自動車、無線周波数、モノのインターネットなど、それぞれが異なる専門分野を持っています。同社は、化学原料から工場、知財や戦略の設計に至るまで、包括的な半導体サプライチェーン分析とコンサルティングサービスを顧客に提供しています。

これに先立ち、SemiAnalysis は、Google のエンジニアが社内コミュニケーションで「We Have No Moat, And Noither Does OpenAI」(We Have No Moat, And Noither Does OpenAI) と発言したことを明らかにする記事も掲載し、多くの議論を巻き起こしました。この記事は後に真実であることが確認されました。

この観点から見ると、ディラン・パテル兄弟には確かに何人かの内部関係者がいる可能性があり、彼らが提供した情報の信頼性は依然として許容できるはずです。

なぜ彼らがブラザー・ヤムにツイートを削除させようとしたのかというと、これらの「内部情報」は確かに価値があり、セミアナリシスの有料記事の購読料は年間500ドルだからである。 Brother Yam のエリートバージョンのサブスクリプションの料金は 1,000 ドルです。

▍カード分析

この詳細を踏まえると、この噂にはまだある程度の信頼性があるというのが私の意見です。以下は、この情報に基づいた私の分析の一部であり、議論のために提案します。

プライベートモデルの競争は並列処理に焦点を当てます

この噂によると、GPT-4 の競技者をトレーニングしたい場合、約 8,192 個の H100 チップを使用し、1 時間あたり 2 ドルの料金で、事前トレーニングは約 55 日で完了できると推定されており、コストは約2,150万ドル（1億5,000万人民元）。

このコストは、現在の混乱している LLM 市場にとって実際には大きすぎるものではありません。現在の国内の主力選手は、簡単に数回のトレーニングを行うことができます。したがって、正直に言うと、今回、半年後にモデル機能 (少なくともパラメータースケール) で GPT-4 のベンチマークを行うことは、あまり自慢にはならないかもしれません。

トレーニングコストが問題ではない場合、トレーニングデータが問題になりますか?私もそうは思いません。 GPT-4の学習データには合計13T（13兆）のトークンがあると噂されています。比較のために、CommonCrawl と RefinedWeb の両方の公開データセットには 5T トークンがあり、残りは Twitter、Reddit、YouTube から来ているという噂があり、OpenAI が LibGen や SciHub などの「シャドウライブラリ」からの海賊版データを使用したと主張する訴訟もあります。

したがって、このデータの規模は達成できないものではないと思いますし、中国自体にも多くのリソースが蓄積されているため、学習データは大きな問題にはならないはずです。

事前トレーニング、微調整、中国語のエンコードとデコードなどのその他の問題については、実際のところ、技術的な秘密はそれほど多くなく、その方法は比較的オープンです。十分なリソースがあれば、半年以内に解決されるはずです。

したがって、最後に残ったしきい値は並列処理です。実際、この噂には関連する内容を紹介するために膨大なスペースが割かれており、専門的なレベルはまだ比較的高いため、ここでは表面的な説明しかできません。

大まかに言えば、いわゆる並列問題とは、大規模なモデルがあり、それを最も低いコストで最も多くの人が同時に使用できるようにするにはどうすればよいかということです。これには専門的な設計上の問題が多く含まれますが、固定のコンピューティングリソースの場合、異なるリンクにコンピューティングリソースをどのように割り当てるか?同時実行をどのように処理するか?メモリを管理するにはどうすればよいですか?

並列処理の能力は、ユーザーエクスペリエンスに直接影響します。現時点では、ChatGPT と GPT-3.5 ベースの API は比較的スムーズで、非常に強力です。ここにいる人は皆、私が経験した他の国内 LLM やクロードの方が GPT-3.5 よりも速いと言うかもしれません。 GPT-3.5 はこれほど高い同時実行性でこれだけのパフォーマンスを発揮しており、他のメーカーが OpenAI の能力に匹敵しなければ、OpenAI 市場を掴むことはできません。

したがって、並列機能は、さまざまな OpenAI 競合他社にとって競争の重要なポイントの 1 つになる可能性があります。

GPT-5 はマルチモダリティに焦点を当てています

前述したように、GPT-4 は 16 のエキスパートモデルで構成される「専門家の混合」(MoE) モデルであると噂されています。ここでは、「エキスパートミキシング」とは何かについて簡単に説明します。これは、ユーザーの「問題」をいくつかのサブ問題に分割し、各サブ問題をより小さなモデル (つまり、「エキスパート」) に引き渡して、解決し、「ルーティングモデル」を選択して結合し、ユーザーに出力します。

噂ではさらに、GPT-4 の各「エキスパート」には GPT-3 に相当する 1,110 億個のパラメーターがあると主張されています (これは、サムアルトマンが以前に述べた GPT-4 パラメーターは GPT-3.5 よりもさらに小さいと一致しています)。 550億個のパラメータが共有されます。推論の各前方パス (トークン出力の生成) では 2 人の「エキスパート」が使用され、実質的に約 2,800 億のパラメーターが消費されます。この数値は、MoE なしで必要な数値よりも大幅に小さく、また、初期段階での多くの学者の予測と同様です。

GPT-4トレーニングに使用されたテキストとコードデータが再利用されているという噂があることは注目に値します。 MoE フレームワークを使用するという選択と組み合わせると、現時点で簡単に取得できる高品質のテキストデータが枯渇に近いか、データ量を無制限に増やすことによる LLM のパフォーマンスの向上がすでに非常に困難であると個人的に推測します。限定。

しかし、どのような状況であっても、GPT-5 が大きなパフォーマンスの進歩を遂げたいのであれば、既存の大量のビデオ、画像、音声データを最大限に活用できなければなりません。マルチモーダル」モデル。

問題は、この噂によると、OpenAI の現在のビジュアルマルチモダリティには、あまり提供できるものがないということです。これは、事前トレーニングの入力としてテキストを使用し、微調整に約 2 兆のトークンを使用する独立したビジュアルエンコーダーです。このトレーニング方法では、既存のビデオ、画像、音声データを十分に活用できないことは明らかです。

したがって、OpenAI は常に、GPT-5 はトレーニングされておらず、その可能性は真実であることを強調してきました。 GPT-5 をトレーニングする前に、モデルがオーディオデータとビデオデータを最大限に活用できるように、より優れたマルチモーダルモデルアーキテクチャを見つける必要がありました。これらの高品質な学習データを利用できることによってのみ、GPT-5 は十分な能力向上を得ることができます。（同時に、GPT-5がこれらの音声データや映像データを本当に使いこなすことができるのであれば、AGIにせよ、OpenAIが最近提案している「超知能体」にせよ、それはそう遠くないように思えます。）

OpenAI が意図的にこの噂を流した可能性があります

この推測は完全に個人的な推測です。事実だけでは十分ではありません。ただ見てください。

私の理解では、OpenAI は GPT-4 の堀が深くないことを十分に認識しており、今日の流行の中で競合他社が追いつくのは難しくありません。そして、上で分析したように、現在のマルチモーダル大規模モデル構造は最終決定されるべきではなく、現時点で新しいプレーヤーが現れてマルチモーダルから突破すれば、OpenAI がその曲線に追い抜かれる可能性も非常に高くなります。。

したがって、これは戦争を遅らせるための OpenAI の計画である可能性があります。私はあなたに GPT-4 の情報をいくつか公開し、トッププレイヤーに最初に GPT-4 の再現作業をさせ、OpenAI がすでに歩いてきた道を歩ませます。

このプロセス中に、OpenAI が GPT-5 のトレーニングの基礎を築き、マルチモーダル大規模モデルの予備研究を完了していれば、たとえ GPT-4 が他の大規模言語モデルに追い越されたとしても、OpenAI はパニックに陥りません。個人的には、マルチモダリティは人間が関与する最後の世代になる可能性が高く、AGI が将来のモデル開発と進化の主力となる可能性があると考えています。つまり今回勝てば最後まで勝てるかもしれない。

原文表示

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.