出典:新志源
画像ソース: Unbounded AIによって生成
GPT-3.5は200億個のパラメータしかありませんか?
今日、大きなモデルサークルはMicrosoftの論文のスクリーンショットによって爆破されましたが、何が起こっているのでしょうか?
つい数日前、MicrosoftはarXivに関する論文を発表し、わずか75Mのパラメータを持つ小規模な拡散モデルであるCodeFusionを提案しました。
パフォーマンスの面では、CodeFusionの7,500万個のパラメータは、トップ1の精度指標の点で最先端の350M-175Bモデルに匹敵します。
住所:
この論文の仕事は非常に興味深いものですが、誰もが特に注目しているのは、
筆者がChatGPT(gpt-3.5-turbo)を比較すると、パラメータの公称数はわずか20B!
これ以前は、GPT-3.5のパラメータ数は1,750億個で、ほぼ10倍の削減に相当します。
この論文の暴露によると、ネチズンはウィキペディアにも行き、GPT-3.5の導入を更新し、パラメータサイズを直接20Bに変更しました。
ニュースが出るやいなや、Zhihuのホット検索に直接登場し、ネチズンは爆発しました。
何人かの人々は、急いで戻って、私の以前のモデル蒸留のブログ記事を取り出してレビューし、レビューしなさいと言いました。
## **「ウーロン茶」なのか「事実」なのか? **
ネチズンの暴露が明らかになるやいなや、彼らはすぐに白熱した議論を巻き起こしました。
これまでに68万人以上が視聴に来ています。
お兄さんによると、論文の著者数人もツイッターを使っており、直接説明してくれる日もそう遠くないとみられるとのこと。
この謎の「20B」については、ネチズンの間でも意見が分かれています。
これは作者の間違いではないかと推測する人もいます。 例えば、もともとは120Bとか200Bとか。
現実のさまざまな評価と合わせると、Mistral-7BのようにChatGPTと同様の結果を達成できる小さなモデルが確かにたくさんあります。
おそらく、これはGPT-3.5が本当に大きくないことの副次的な確認でもあります。
多くのネチズンは、20Bのパラメータが正確かもしれないとも考えており、ため息をついています。
「想像を絶する! Falcon-180BもLlama2-70Bも20Bモデルには勝てない。
一部のネチズンは、GPT-3.5-TurboがGPT-3.5の改良版であると信じています。
そして、このパラメータの「リーク」は、GPT-3.5-Turboが古いGPT-3.5ほど良くないという噂を裏付けるものです。
ただし、OpenAIの公式ドキュメントによると、使用されなくなったtext-davinciとcode-davinciを除いて、GPT-3.5ファミリーのすべてのメンバーはgpt-3.5-turboをベースにしています。
## MicrosoftがCodeFusionをリリース
GPT3.5には20Bのパラメータしかないことを明らかにしたMicrosoftの論文は、コード生成のための拡散モデルを導入したいと考えています。
研究者は、Bash、Python、Microsoft Excelの条件付き書式(CF)ルールの自然言語のコードを生成するタスクのモデルであるCodeFusionを評価しました。
実験によると、CodeFusion(パラメータは75Mのみ)は、トップ1の精度の点で最先端のLLM(350M-175Bパラメータ)に匹敵し、トップ3およびトップ5の精度の点で優れたパフォーマンスとパラメータ比を備えていることが示されています。
モデル アーキテクチャ
CODEFUSION はコード生成タスクに使用され、そのトレーニングは 2 つのフェーズに分かれており、第 1 段階は教師なし事前トレーニング、第 2 段階は教師あり微調整です。
最初のフェーズでは、CODEFUSION はラベル付けされていないコードスニペットを使用して、デノイザーとデコーダーをトレーニングします。 また、トレーニング可能な埋め込みレイヤー L を使用して、コード スニペットを連続したスペースに埋め込みます。
第 2 フェーズでは、CODEFUSION はテキストとコードのペアのデータを使用して、教師ありの微調整を実行します。 この段階では、エンコーダー、デノイザー、およびデコーダーはすべて、タスクをより適切に実行するように調整されます。
さらに、CODEFUSIONは、テキスト拡散に関する以前の研究を利用して、デコーダーからの隠れ表現Dをモデルに融合します。 これは、モデルのパフォーマンスを向上させるためです。 トレーニング プロセス中、さまざまなステップで、モデルはノイズを導入し、損失関数を計算して、生成されたコード スニペットが予想される標準により一致していることを確認します。
要約すると、CODEFUSIONはコード生成作業を実行する小さなモデルであり、トレーニングとノイズ取り込みの2つのフェーズを通じてパフォーマンスを継続的に向上させます。 このモデルは、テキスト拡散の研究に触発され、デコーダーの隠れた表現を融合して高品質のコードスニペットをより適切に生成することで、損失関数を改善します。
次の表は、CODEFUSION モデルと、上位 1、上位 3、上位 5 の設定における各ベースラインモデルのパフォーマンスをまとめたものです。
トップ1では、CODEFUSIONのパフォーマンスは、特にGPT-3(175B)のみがCODEFUSION(75M)よりもわずかに優れたパフォーマンスを発揮するPythonタスクで、同等であり、場合によってはさらに優れています。 しかし、トップ3とトップ5に関しては、CODEFUSIONはすべてのベースラインモデルを大幅に上回りました。
以下の表は、各ベンチマークタスクにおけるCODEFUSIONと自己回帰モデル(T5、CodeT5、StarCoder、CodeGen、GPT-3を含む)の平均ダイバーシティ結果を示し、各モデルの最初の5世代で生成された結果を調べたものです。
自己回帰モデルと比較して、CODEFUSION はより多様な結果を生成し、パフォーマンスが向上します。
アブレーション実験では、ノイズ除去プロセスを停止し、時間ステップt∈[0, T]の範囲で現在の状態のコードスニペットを生成しました。 文字列編集距離の正規化は、各時間ステップで得られた結果(100ステップごとの増分)を測定するために使用されます。
このアプローチは、次の図に示すように、CODEFUSION モデルの段階的な進行状況を要約して示すのに役立ちます。
そうは言っても、GPT-3.5のパラメータ数は正確にはいくつですか? GPT-4とGPT-3.5の技術的およびその他の関係は何ですか?
GPT-3.5は小規模なエキスパートモデルの集合体なのか、それともジェネラリストモデルなのか? より大きなモデルで抽出されているのか、それともより大きなデータでトレーニングされているのか。
これらの質問に対する答えは、真にオープンソースである場合にのみ明らかになります。
リソース:
13210 人気度
166649 人気度
20773 人気度
93777 人気度
81516 人気度
Microsoftの論文のスクリーンショットは、GPT-3.5には200億個のパラメータしかないことが明らかになりましたか? AIサークルは衝撃を受け、ネチズンは「とんでもない!」と叫びました。
出典:新志源
GPT-3.5は200億個のパラメータしかありませんか?
今日、大きなモデルサークルはMicrosoftの論文のスクリーンショットによって爆破されましたが、何が起こっているのでしょうか?
つい数日前、MicrosoftはarXivに関する論文を発表し、わずか75Mのパラメータを持つ小規模な拡散モデルであるCodeFusionを提案しました。
パフォーマンスの面では、CodeFusionの7,500万個のパラメータは、トップ1の精度指標の点で最先端の350M-175Bモデルに匹敵します。
この論文の仕事は非常に興味深いものですが、誰もが特に注目しているのは、
筆者がChatGPT(gpt-3.5-turbo)を比較すると、パラメータの公称数はわずか20B!
ニュースが出るやいなや、Zhihuのホット検索に直接登場し、ネチズンは爆発しました。
ネチズンの暴露が明らかになるやいなや、彼らはすぐに白熱した議論を巻き起こしました。
これまでに68万人以上が視聴に来ています。
「想像を絶する! Falcon-180BもLlama2-70Bも20Bモデルには勝てない。
そして、このパラメータの「リーク」は、GPT-3.5-Turboが古いGPT-3.5ほど良くないという噂を裏付けるものです。
GPT3.5には20Bのパラメータしかないことを明らかにしたMicrosoftの論文は、コード生成のための拡散モデルを導入したいと考えています。
研究者は、Bash、Python、Microsoft Excelの条件付き書式(CF)ルールの自然言語のコードを生成するタスクのモデルであるCodeFusionを評価しました。
実験によると、CodeFusion(パラメータは75Mのみ)は、トップ1の精度の点で最先端のLLM(350M-175Bパラメータ)に匹敵し、トップ3およびトップ5の精度の点で優れたパフォーマンスとパラメータ比を備えていることが示されています。
CODEFUSION はコード生成タスクに使用され、そのトレーニングは 2 つのフェーズに分かれており、第 1 段階は教師なし事前トレーニング、第 2 段階は教師あり微調整です。
第 2 フェーズでは、CODEFUSION はテキストとコードのペアのデータを使用して、教師ありの微調整を実行します。 この段階では、エンコーダー、デノイザー、およびデコーダーはすべて、タスクをより適切に実行するように調整されます。
さらに、CODEFUSIONは、テキスト拡散に関する以前の研究を利用して、デコーダーからの隠れ表現Dをモデルに融合します。 これは、モデルのパフォーマンスを向上させるためです。 トレーニング プロセス中、さまざまなステップで、モデルはノイズを導入し、損失関数を計算して、生成されたコード スニペットが予想される標準により一致していることを確認します。
要約すると、CODEFUSIONはコード生成作業を実行する小さなモデルであり、トレーニングとノイズ取り込みの2つのフェーズを通じてパフォーマンスを継続的に向上させます。 このモデルは、テキスト拡散の研究に触発され、デコーダーの隠れた表現を融合して高品質のコードスニペットをより適切に生成することで、損失関数を改善します。
評価結果
次の表は、CODEFUSION モデルと、上位 1、上位 3、上位 5 の設定における各ベースラインモデルのパフォーマンスをまとめたものです。
トップ1では、CODEFUSIONのパフォーマンスは、特にGPT-3(175B)のみがCODEFUSION(75M)よりもわずかに優れたパフォーマンスを発揮するPythonタスクで、同等であり、場合によってはさらに優れています。 しかし、トップ3とトップ5に関しては、CODEFUSIONはすべてのベースラインモデルを大幅に上回りました。
自己回帰モデルと比較して、CODEFUSION はより多様な結果を生成し、パフォーマンスが向上します。
このアプローチは、次の図に示すように、CODEFUSION モデルの段階的な進行状況を要約して示すのに役立ちます。
GPT-3.5は小規模なエキスパートモデルの集合体なのか、それともジェネラリストモデルなのか? より大きなモデルで抽出されているのか、それともより大きなデータでトレーニングされているのか。
これらの質問に対する答えは、真にオープンソースである場合にのみ明らかになります。
リソース: