これに先立ち、SemiAnalysis は、Google のエンジニアが社内コミュニケーションで「We Have No Moat, And Noither Does OpenAI」(We Have No Moat, And Noither Does OpenAI) と発言したことを明らかにする記事も掲載し、多くの議論を巻き起こしました。この記事は後に真実であることが確認されました。
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
OpenAIの「死は言うまでもない」GPT-4トレーニングの詳細が公開、これは私の解釈です
出典: マイノリティ
数日前までは普通の朝でした。日々レンガを動かしていたところ、突然「早よ、GPT-4モデルの構造が流出、また国産大型モデルがそれを超えるぞ!」とあらゆる情報が押し寄せてきた。
ソーシャルメディアをオンにすると、英語を話す必要がなく、国内の人々はすでにオンラインに移行しており、このスピードには本当に納得しています。しかし、情報源をたどってその情報の信頼性を確認すると、突然、自分がエンターテイメントの世界からテクノロジーの世界に迷い込んでしまったように感じました。
「フェイクニュース」が飛び交うインターネットの現状を鑑み、このニュースを見た私がまずしたことは、そのソースを辿ることだった。
▍インとアウト
私の情報マイニングの出発点は、Thread Reader を介して抽出された Hacker News で共有されたツイートのスレッドでした (7 月 11 日アーカイブ)。クリックして開くと、次の 2 つの文があります。
このヘッドパーティーのレベルは中国に劣らない。
周知のとおり、OpenAI は GPT-4 のリリース中にオープンという約束を破り、重量や技術的な詳細を一切開示せず、業界から広く批判されました。おそらくこれが、ブロガーが「陰謀逆転」の劇的な効果を表現するために「It is over 茎」を使用する理由です。
内容を改めて見てみると、OpenAIの口が堅いGPT-4トレーニングの詳細です。この情報については多くの憶測が飛び交っていますが、公式は明らかにしておらず、言及されても非常に曖昧です(原文は比較的曖昧で、略語や専門用語が多用されており、一部については後で説明します)。 :
問題は、この情報がどのようにして得られたのか、また信頼できるのかということです。
つるをたどって「メロン」に触れると、この一連のツイートの発行者であるヤム・ペレグを見つけました。
この老人の記事を読んでいると、私はイスラエルで出会った学生連絡担当官のトムのことを思わずにはいられません。彼は何か言えば血が沸騰するような人です。
このおっちゃんはOpenAIの研究をしていて、OpenAI内部の知り合いも多いことを考えると、内部情報が得られれば、実は信憑性はかなり高いのではないかと思う。
しかし、夜に彼の投稿を注意深く調べようとしたとき、突然、彼が以前の投稿をすべて削除していることに気づきました。最初は OpenAI の対象になっているのかと思いましたが、ファイルを保存しておいてよかったと思いました。よく見てみると、OpenAIから削除要請があったわけではなく、同じく有料欄から通報され、著作権侵害の訴えを受けたためだった。
調べてみたところ、次のことが分かりました。
これに先立ち、SemiAnalysis は、Google のエンジニアが社内コミュニケーションで「We Have No Moat, And Noither Does OpenAI」(We Have No Moat, And Noither Does OpenAI) と発言したことを明らかにする記事も掲載し、多くの議論を巻き起こしました。この記事は後に真実であることが確認されました。
この観点から見ると、ディラン・パテル兄弟には確かに何人かの内部関係者がいる可能性があり、彼らが提供した情報の信頼性は依然として許容できるはずです。
なぜ彼らがブラザー・ヤムにツイートを削除させようとしたのかというと、これらの「内部情報」は確かに価値があり、セミアナリシスの有料記事の購読料は年間500ドルだからである。 Brother Yam のエリート バージョンのサブスクリプションの料金は 1,000 ドルです。
▍カード分析
この詳細を踏まえると、この噂にはまだある程度の信頼性があるというのが私の意見です。以下は、この情報に基づいた私の分析の一部であり、議論のために提案します。
プライベート モデルの競争は並列処理に焦点を当てます
この噂によると、GPT-4 の競技者をトレーニングしたい場合、約 8,192 個の H100 チップを使用し、1 時間あたり 2 ドルの料金で、事前トレーニングは約 55 日で完了できると推定されており、コストは約2,150万ドル(1億5,000万人民元)。
このコストは、現在の混乱している LLM 市場にとって実際には大きすぎるものではありません。現在の国内の主力選手は、簡単に数回のトレーニングを行うことができます。したがって、正直に言うと、今回、半年後にモデル機能 (少なくともパラメーター スケール) で GPT-4 のベンチマークを行うことは、あまり自慢にはならないかもしれません。
トレーニングコストが問題ではない場合、トレーニングデータが問題になりますか?私もそうは思いません。 GPT-4の学習データには合計13T(13兆)のトークンがあると噂されています。比較のために、CommonCrawl と RefinedWeb の両方の公開データセットには 5T トークンがあり、残りは Twitter、Reddit、YouTube から来ているという噂があり、OpenAI が LibGen や SciHub などの「シャドウ ライブラリ」からの海賊版データを使用したと主張する訴訟もあります。
したがって、このデータの規模は達成できないものではないと思いますし、中国自体にも多くのリソースが蓄積されているため、学習データは大きな問題にはならないはずです。
事前トレーニング、微調整、中国語のエンコードとデコードなどのその他の問題については、実際のところ、技術的な秘密はそれほど多くなく、その方法は比較的オープンです。十分なリソースがあれば、半年以内に解決されるはずです。
したがって、最後に残ったしきい値は並列処理です。実際、この噂には関連する内容を紹介するために膨大なスペースが割かれており、専門的なレベルはまだ比較的高いため、ここでは表面的な説明しかできません。
大まかに言えば、いわゆる並列問題とは、大規模なモデルがあり、それを最も低いコストで最も多くの人が同時に使用できるようにするにはどうすればよいかということです。これには専門的な設計上の問題が多く含まれますが、固定のコンピューティング リソースの場合、異なるリンクにコンピューティング リソースをどのように割り当てるか?同時実行をどのように処理するか?メモリを管理するにはどうすればよいですか?
並列処理の能力は、ユーザー エクスペリエンスに直接影響します。現時点では、ChatGPT と GPT-3.5 ベースの API は比較的スムーズで、非常に強力です。ここにいる人は皆、私が経験した他の国内 LLM やクロードの方が GPT-3.5 よりも速いと言うかもしれません。 GPT-3.5 はこれほど高い同時実行性でこれだけのパフォーマンスを発揮しており、他のメーカーが OpenAI の能力に匹敵しなければ、OpenAI 市場を掴むことはできません。
したがって、並列機能は、さまざまな OpenAI 競合他社にとって競争の重要なポイントの 1 つになる可能性があります。
GPT-5 はマルチモダリティに焦点を当てています
前述したように、GPT-4 は 16 のエキスパート モデルで構成される「専門家の混合」(MoE) モデルであると噂されています。ここでは、「エキスパート ミキシング」とは何かについて簡単に説明します。これは、ユーザーの「問題」をいくつかのサブ問題に分割し、各サブ問題をより小さなモデル (つまり、「エキスパート」) に引き渡して、解決し、「ルーティング モデル」を選択して結合し、ユーザーに出力します。
噂ではさらに、GPT-4 の各「エキスパート」には GPT-3 に相当する 1,110 億個のパラメーターがあると主張されています (これは、サム アルトマンが以前に述べた GPT-4 パラメーターは GPT-3.5 よりもさらに小さいと一致しています)。 550億個のパラメータが共有されます。推論の各前方パス (トークン出力の生成) では 2 人の「エキスパート」が使用され、実質的に約 2,800 億のパラメーターが消費されます。この数値は、MoE なしで必要な数値よりも大幅に小さく、また、初期段階での多くの学者の予測と同様です。
GPT-4トレーニングに使用されたテキストとコードデータが再利用されているという噂があることは注目に値します。 MoE フレームワークを使用するという選択と組み合わせると、現時点で簡単に取得できる高品質のテキスト データが枯渇に近いか、データ量を無制限に増やすことによる LLM のパフォーマンスの向上がすでに非常に困難であると個人的に推測します。限定。
しかし、どのような状況であっても、GPT-5 が大きなパフォーマンスの進歩を遂げたいのであれば、既存の大量のビデオ、画像、音声データを最大限に活用できなければなりません。マルチモーダル」モデル。
問題は、この噂によると、OpenAI の現在のビジュアル マルチモダリティには、あまり提供できるものがないということです。これは、事前トレーニングの入力としてテキストを使用し、微調整に約 2 兆のトークンを使用する独立したビジュアル エンコーダーです。このトレーニング方法では、既存のビデオ、画像、音声データを十分に活用できないことは明らかです。
したがって、OpenAI は常に、GPT-5 はトレーニングされておらず、その可能性は真実であることを強調してきました。 GPT-5 をトレーニングする前に、モデルがオーディオ データとビデオ データを最大限に活用できるように、より優れたマルチモーダル モデル アーキテクチャを見つける必要がありました。これらの高品質な学習データを利用できることによってのみ、GPT-5 は十分な能力向上を得ることができます。 (同時に、GPT-5がこれらの音声データや映像データを本当に使いこなすことができるのであれば、AGIにせよ、OpenAIが最近提案している「超知能体」にせよ、それはそう遠くないように思えます。)
OpenAI が意図的にこの噂を流した可能性があります
この推測は完全に個人的な推測です。事実だけでは十分ではありません。ただ見てください。
私の理解では、OpenAI は GPT-4 の堀が深くないことを十分に認識しており、今日の流行の中で競合他社が追いつくのは難しくありません。そして、上で分析したように、現在のマルチモーダル大規模モデル構造は最終決定されるべきではなく、現時点で新しいプレーヤーが現れてマルチモーダルから突破すれば、OpenAI がその曲線に追い抜かれる可能性も非常に高くなります。 。
したがって、これは戦争を遅らせるための OpenAI の計画である可能性があります。私はあなたに GPT-4 の情報をいくつか公開し、トッププレイヤーに最初に GPT-4 の再現作業をさせ、OpenAI がすでに歩いてきた道を歩ませます。
このプロセス中に、OpenAI が GPT-5 のトレーニングの基礎を築き、マルチモーダル大規模モデルの予備研究を完了していれば、たとえ GPT-4 が他の大規模言語モデルに追い越されたとしても、OpenAI はパニックに陥りません。個人的には、マルチモダリティは人間が関与する最後の世代になる可能性が高く、AGI が将来のモデル開発と進化の主力となる可能性があると考えています。つまり今回勝てば最後まで勝てるかもしれない。