トレーニングと推論のコストに関する統計は不足しています。 Google の David Patterson は、機械学習における Google のエネルギー使用について議論するブログ投稿を公開しました。詳細な分析の結果、過去 3 年間、Google はリソースの 5 分の 3 を推論に、5 分の 2 をトレーニングに費やしました。上記は Google のデータであり、何十億ものユーザーにモデルを提供しています。
以前、バッチサイズか何かを調査した Google の論文があったことを覚えています。この論文にはおそらく数百万ドルの費用がかかり、コミュニティ全体に多大な利益をもたらします。今では、私たちは皆、そこから学び、大金を掛けずにお金を節約できるようになりました。したがって、Mosaic では、実験的研究を通じて、データや事前トレーニング アーキテクチャなどについて深い洞察を獲得しており、それがお客様に当社を選ばれる理由です。
ジョナサン: オープン性は AI コミュニティにとって非常に重要です。ある意味、私たちに閉店する理由はありません。私たちは顧客のモデルのトレーニングを支援することで収入を得ています。その結果をコミュニティと共有することに損失はありません。結局のところ、カスタマイズされたモデルと優れたインフラストラクチャを通じて収入を得る必要があります。これらの側面を統合することが、私たちの会社を MosaicML と名付けた理由です。
AI エコシステムについて政策立案者と議論するとき、常に共通の懸念が浮上します。それは、オープン性の欠如がイノベーションのペースを妨げるということです。私はこの問題を何年も強調してきましたが、ついに現実になりました。私はオープンソースを支持しますが、誰もが自分の成果を共有するとは思いません。私たちはかつてオープンソースを当然のことだと考えていましたが、今はそうではありません。
公平を期すために言うと、これについては私たちはほぼすべて間違っているので、自分自身を完全に責めることはできません。そうでなければ、私が行動するずっと前に、Google、Facebook、Microsoft Research がキラー言語のメガモデルをリリースしていたでしょう。私は非常に奇妙な賭けをしましたが、それが正しいことが判明しました。拡散モデルは、やや愚かではありますが、驚くほど美しい画像を生成しました。
Abhinav: 大規模なチャットボットに関しては、何億人もの人々が AI モデルと大規模な会話を行うまでには長い時間がかかると思います。現在、非常に多くのスタートアップや企業が ChatGPT だけでなく、キャラクター作成などの他のプロジェクトを使用しているため、実際にこれらの AI モデルと感情的なつながりを築いている人がどれだけいるかは驚くべきことです。去年の9月や10月にはそんなことは予想できなかったと思います。過去 6 か月間に起こった変曲点は、まさに予想外でした。
Swyx: 精神的なサポートなど、何に使用されると思いますか?
アビナブ: 彼らの中には、精神的なサポートを目的としていたり、単なる友達として来たりする人もいます。孤独とメンタルヘルスの問題はホットなテーマです。それらのコミュニティのサブレディットに行くと、人々は AI の友人やこれらのキャラクターについて話したり考えたりしています。それはまるで SF の世界のようなものですが、私はそんなことが起こるとは予想していませんでした。
しかし、私たちはまだ一般的な知性を構築できておらず、個人的にはその目標には程遠いです。したがって、平和的で科学に従うことが重要であり、それがモザイク AI が目指していることです。私たちは人間にとって役立つことに焦点を当て、より良い世界を創造したいと考えています。私たちは最善を尽くしますが、最も重要なことは、科学に従い、データに基づいて、美辞麗句ではなく実際の結果を通じてこの目標を達成することです。
アビナブ: オープンなコミュニティで研究を行うことに勝るものはないと思います。コミュニティでは、多くの人がモデルに注目するだけでなく、モデルの問題点や改善方法について意見を述べることもあります。この種のオープンな研究は、モデルを安全に保つためと、これらの AI モデルが現実世界に与える影響と結果を詳しく調べるために、前進するための道となります。
原文表示
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
大規模モデルの無限のコンテキストとデータセット構成の技術
出典 | 潜在空間
OneFlow コンパイル
翻訳|Jia Chuan、Yang Ting、Wan Zilin
コンテキストの長さは、GPT-3 の最大の制限の 1 つでした。 GPT-3 は最大 4000 トークン (3000 ワード、6 ページ) までしか受け入れることができません。それ以外の場合はエラーが報告されます。したがって、長い文書やプロンプト()を扱うには、LangChainなどの他の検索技術を導入する必要があります。しかし、MosaicML (Databricks が約 13 億ドルで買収) は、5 月初旬に 84,000 トークン (63,000 ワード、126 ページ) の長さの MPT-7B コンテキストをオープンし、処理できるテキストの範囲を大幅に拡大しました。 , Anthronpic が開発した Claude モデルでは、コンテキストの長さが 100,000 トークンに拡張されました。
MosaicML は、微調整用にベース MPT-7B に基づいた 3 つの MPT-7B-Instruct、MPT-7B-Chat、MPT-7B-StoryWriter-65k+ モデルもリリースしました。
モデルは dolly_hhrlhf で微調整されています。 dolly_hhrlhf データセットは、「dolly-5k」データセットの上に構築されます。
モデルは、ShareGPT-Vicuna、HC3、Alpaca、Helpful and Harmless、および Evol-Instruct データセットで微調整されています。
このモデルの微調整データセットは、コンテキスト長が 65k の書籍 3 の小説のフィルター処理されたサブセットです。公表されたサイズは 65,000 トークンでしたが、チームは単一ノードの A100-80GB GPU で実行した場合、84,000 トークンの応答を取得することができました。その鍵となるテクノロジーが「ALiBi」です。 『華麗なるギャツビー』には当初約 68,000 トークンしかなかったため、チームは MPT-7B-StoryWriter-65k+ モデルを使用して小説の新しいエンディングを作成しました。
MosaicML の主任研究員 Jonathan Frankle と研究科学者 Abhinav Venigalla は MPT-7B の責任者であり、MPT-7B の訓練プロセス全体を指揮しています。 Latent Space の最新のポッドキャストでは、Swyx と Decibel Partners の主要パートナーである Alessio が、MPT-7B トレーニング プロセスの革新性について話し合い、LLM データセットの組み合わせが重要かつ謎に満ちた技術である理由を説明しました。また、従来の複数選択ベンチマークの中には、構築中のテクノロジーにとってあまり役に立たないものもありますが、その背後にある理由も調査します。
(以下のコンテンツは、承認後に OneFlow によってコンパイルおよびリリースされます。出典: https://
MPT-7B モデルの構築
**Swyx: MPT-7B を開発した理由は何ですか? **
Abhinav: MPT-7B プロジェクトには約 6 ~ 12 か月かかりました。私たちは昨年の夏に言語モデルに取り組み始め、言語モデルを分析したブログ投稿を公開しました。その結果、トレーニングのコストは実際には人々が考えているよりもはるかに低い可能性があることがわかりました。またそれ以来、Meta AI によってリリースされた LLaMA モデルや他の多くのオープンソース作品に触発されて、MPT の起源である 70 億のパラメーターを備えた非常に優れたモデルの作成に着手しました。
Alessio: あなたはポッドキャストの 1 つでこう言いました: Mosaic にはモデルを構築してリリースする計画はありません。しかし、最終的にはモデルをリリースしましたが、考えを変えた理由は何ですか?
ジョナサン: いくつかの要因があると思います。私たちにはまだ一流のモデルが不足しています。お客様が独自のモデルを作成することを中心に当社のビジネスが展開する OpenAI とは異なり、当社は主にお客様にツールを提供しており、それらのツールを効果的に機能させるためには、まず独自のモデルを作成する必要があります。
私たちのクライアントが素晴らしいことを達成できれば、私たちも素晴らしいことを達成できるということを明確にする必要があります。 Twitter 上では、モザイクが示した数字の信憑性を疑問視する人がたくさんいました。ロス ホワイトマンが「実際の結果を見てみましょう」と言っていたように、私はこう言いました。「ロス、これはどう思いますか? ?」 200,000 ドルのコストをかけて 9.5 日でモデルを開発したので、あなたもそれを行うことができます。
**Swyx: **昨年リリースしたデータを参照すると、GPT-3 のトレーニングのコストは当初 450,000 ドル未満と見積もられていましたが、その後 100,000 ドルに削減され、安定拡散のコストも 160,000 ドルから削減されました。 50,000ドル未満まで。
ジョナサン: 私は 100,000 ドルという数字についてはまだ非常に慎重です。それはまだ達成されていませんが、私たちはその方向に向かっており、それはアビにとって大きな課題です。
Swyx: MPT-7B モデルには 3 つのバリエーションがあり、そのうちの 1 つはコンテキストの長さの点で SOTA を実現しています。これらのモデルのトレーニング プロセスは何ですか?
アビナフ氏: 私たちの基本モデルは LLaMA-7B を再作成したもので、70 億のパラメーターと 1 兆のトークンのトレーニング データを備えており、過剰な介入を行わずに微調整モデルの効率的なトレーニングの開始点を提供します。モデルの微調整も非常に興味深いもので、MPT-7B-StoryWriter-65k+ はストーリーの執筆に使用でき、コンテキスト ウィンドウの長さは 65,000 で、既知のコンテンツに基づいて執筆を続けることもできます。
もちろん、これは私たちが考える方向性の 1 つにすぎません。MPT-7B ベース モデルを使用して、長いコンテキスト コード モデルや特定の言語モデルなど、さまざまなニーズに合わせたカスタム モデルを構築できます。したがって、基本モデルに基づいて、MPT-7B-Instruct、MPT-7B-Chat、および MPT-7B-StoryWriter-65k+ の 3 つのバリアントが構築され、それぞれ短い指示に従う、チャットダイアログを作成する、およびストーリーを作成するために使用されます。
Alessio: モデルをトレーニングするときに使用するトークンとパラメーターの数はどのように決定しますか? 70 億と 30 億のモデル パラメーターは、現在流行している 2 つの魔法の数字のようです。
Abhinav: トレーニング モデルの場合、スケーリング則により、トレーニング コンピューティング リソースを最も効率的に使用する方法がわかります。例えば、予算が 20 万ドルであれば、規模の法則に従って、最も効果的な研修プログラムを提供することができます。
その中でも私たちがよく従うのがチンチラの法則です。 MPT-7B モデルとその関連バリアントについては、モデルが個人使用に適しており、優れた推論パフォーマンスを備えていることを保証したいため、これらの法則は厳密には遵守されていません。そのため、チンチラ ポイントを超えてオーバートレーニングされています (データを参照)レベルはトークンで測定されます)。インターネット上の一部の人々は、トレーニング時間が非常に長いため、これらのモデルを冗談でロンボイと呼んでいます。7B モデルを例に取ると、チンチラ ポイントは 1,400 億トークンである可能性がありますが、実際には 1 兆トークンをトレーニングしたため、トレーニング時間はほぼ 7 です。通常よりも何倍も長い。
**Swyx: ロンボイはトレーニング方法について言及しているのですか? **
ジョナサン: ロンボイは単なる内輪のジョークで、チンチラの法則で定められているよりも多くのトークンを使用するトレーニング方法を指します。 Llongboi の先頭には L が 2 つ付いており、これは LLaMA への敬意を表すために使用されていることがわかります。当社の CEO は、このモデルを「ロンボーイ」と呼んで、その名前を Twitter で公表したことがあります。時々、早期に漏洩しないように彼のツイッターのパスワードを知りたくなることがありますが、今では全世界がその名前を知っています。
建築、ALiBi、コンテキストについて
**Alessio:**Flash Attender と Faster Transformer はモデル構築の 2 つの中心要素ですが、それらの利点は何ですか?
**Abhinav:**フラッシュ アテンションは、スタンフォード大学のヘイジー研究所によって開発されたフル アテンションの高速実装です。昨年 9 月に Flash アテンションをライブラリに統合し、トレーニングと推論の速度に大きな役割を果たしました。他の Hugging Face モデルと比較して、このモデルは非常に特殊で、一般的なトーチ アテンションと GPU 向けに特別に設計されたフラッシュ アテンションを切り替えることができ、モデルのトレーニング速度が約 2 倍、推論速度が 50 倍向上します。 -100%。
**Swyx: ALiBi 位置エンコーディングを選択した動機は何ですか? **
Abhinav: ALiBi 位置エンコーディング、Flash Attendance、トレーニングの安定性を興味深い方法で組み合わせました。 ALiBi は、モデル内の位置埋め込みの必要性を排除できます。以前は、トークンの位置が 1 の場合、特定の位置の埋め込みを追加する必要があり、最大位置 (通常は 2000) を超えることはできませんでした。しかし、ALiBi を使えば、この問題は解決されます。アテンション マップに傾きのようなバイアス (バイアス) を追加するだけで済みます。推論にさらに長い範囲の位置が必要な場合は、この傾きをより長い数の位置に拡張します。このアプローチは、傾きが連続的で解釈できるため機能します。
興味深いことに、フラッシュ アテンションにより、モデルは多くのメモリを節約し、パフォーマンスが向上しました。そのため、昨年、非常に長いコンテキスト (最大 65k) を持つモデルでパフォーマンス テストを実行し始めましたが、同時に、テストを実行するのは非常に困難でした。安定したトレーニング。その後、ALiBi をモデルに統合することを試みたところ、モデルの安定性が大幅に向上しました。非常に長いコンテキストでストーリー作成モデルを安定してトレーニングできるようになり、それらの効率的な使用が保証されます。
ジョナサン: コンテキストの長さは技術的には無制限です。十分なメモリが与えられている限り、対話は無限に継続できます。私たちは、モデルが処理できる最長の数値は 84K であると考えています。これは、人間が実際に快適に処理できる最長のコンテキスト長です。ただし、実際には 84K を超えるコンテキスト長も試しており、より長い長さの処理も可能です。
**Swyx:**たとえば、小説「華麗なるギャツビー」をモデルに入力し、入力テキストに基づいてモデルに小説を書き続けさせ、最終的にモデルは非常にエキサイティングなコンテンツを出力します。
ジョナサン: モザイクには、物語の終わりの非常に優れたバージョンがたくさんあります。あるバージョンでは、ギャツビーの葬儀の様子が描かれており、ニックはギャツビーの幽霊と話し始め、ギャツビーの父親も現れ、その後ニックとトムが警察署に現れる。このバージョンでは、次に何が起こるかを説明するプロットに重点が置かれています。また、多くのバージョンには非常にフィッツジェラルド風の結末があり、それらは美しく書かれています。したがって、モデルが入力を処理し、意味のある出力を生成しているように見えるのは興味深いことです。このコンテキストの長さで多くのことができます。
Alessio: メモリはモデルの制約の 1 つになり始めていますが、パラメーターのサイズとコンテキストの長さはどのように選択すべきでしょうか?
ジョナサン: 最近、ロングコンテキストに関する研究が大きな注目を集めており、関連する論文が次々に出ています。ただし、これらの論文は完全に正確というわけではなく、特に注意メカニズムに関しては、非 2 次注意メカニズム (近似的、階層的注意など) と明示的で正しい 2 次注意メカニズムをある程度比較しています。 。私は近似手法に関しては強気なので、これらの論文を掘り下げるのが待ちきれません。
論文を書いたり読んだりすることで、自分でデータを作成するまではデータを信頼してはいけないという重要な教訓を学びました。 Mosaic では、最初は有望に見えた論文でも、実装後に論文がデータを操作していたことが判明したため、何度も実装に失望しました。そのため、私は常にデータに懐疑的であり、再実装されて検証されるまでは結果を信頼しません。全体として、実践は成果を上げましたが、多くの場合、理論が実際には期待どおりに機能しませんでした。
MPT-7Bの特長
**Swyx: MPT-7B の具体的な機能は何ですか? **
アビナフ: これを 2 つの部分に分けて考えます。最初の部分はトレーニングの安定性です。この質問は 3 つの部分に分けることができます。まず、モデルはトレーニング中の損失のスパイクを回避する必要があります。これが最初の防御線です。私の意見では、70 億パラメータのトレーニング サイズでは、損失の急増は大きな問題ではありません。ただし、トレーニング時間が長くなると、損失のスパイクを回避することが難しくなります。私たちは、損失の急増を防ぐために初期化メソッド、オプティマイザー、アーキテクチャなどを調整する方法を見つけるのに長い時間を費やしました。トレーニング中も、注意深く観察すると小さな断続的なピークがまだいくつか見つかりますが、これらのピークは数百ステップ以内に正常に戻り、ピークの損失から自然に回復する非常に不思議な現象です。
決定論と賢明な回復戦略は、私たちの第 2 の防衛線です。致命的なエラーが発生した場合は、障害が発生する前のいくつかのバッチに何らかの介入を適用して、トレーニングをすぐに再開できます。起こり得るトラブルに備えて、さまざまな準備を行っております。しかし、MPT-7Bの訓練では、こうしたバックアップ手段を全く使用しなかったのは、ある種の幸運と言わざるを得ません。
適切なトレーニング インフラストラクチャは第 3 の防御線です。数百の GPU でモデルをトレーニングしようとすると、多くの場合、ハードウェア障害が発生します。たとえば、512 個の GPU を備えた大規模なクラスターでモデルをトレーニングする場合、トレーニングはほぼ 2 日ごとに失敗します。失敗の理由はネットワーク障害である可能性があります。
通常、こうした障害に対処するために、人々は 24 時間年中無休のオンコール チームを立ち上げます。障害が発生すると、チームはクラスターの確認、壊れたノードの削除、再起動などを試みますが、これは非常に面倒な作業です。以前は手動でエラーをチェックするのに数か月を費やしていましたが、現在はモデル トレーニング プロセスのすべてのノードを自動化するプラットフォームを構築しています。
モデルの実行に問題が発生すると、自動監視システムがジョブを停止し、壊れたノードがないかテストおよびチェックし、再起動します。ソフトウェアの決定的で高速な回復機能のおかげで、モデルは引き続き正常に動作します。その結果、午前 2 時にモデルに障害が発生した後、チーム メンバーによる手動介入なしで数分以内にモデルが復旧して実行されていることがモデル ログで確認できることがあります。
ジョナサン: これを行うのは本当に簡単なことではありません。数か月前にモデルでハードウェア障害が発生した場合、チーム メンバーは原因を確認するために午前 2 時に起きなければなりません。ノードに障害が発生したため、ジョブを再起動します。以前は、70 億パラメータのトレーニング規模であっても、壊滅的な損失スパイクに遭遇することが多く、これらの問題はモデルのトレーニングに深刻な影響を与えていました。
現在、段階的な改善を通じてこれらの問題に対処しています。アビナブ氏が述べたように、モデルが失敗してトレーニングが中断されることを心配することなく、オフィスに座って複数のモデルをトレーニングできるようになりました。
データの選択と繰り返し、および LLM の評価の課題
**Swyx: データの選択に重点を置いていますが、それについて詳しく説明してもらえますか? **
ジョナサン: 実際にモデルをトレーニングする代わりに、すべての GPU をデータ処理に使用しようとしたとき、アビのせいで命を落としそうになりました。モデルのトレーニングには大量のデータが必要であることはわかっていますが、多くの不確実性もあります。
1 つは、どの種類の異なるデータ ソースが重要であるか、もう 1 つは重複の重要性です。その中で、重複に関する問題は、さらに質と量のトレードオフに分類できます。世界で最高の 100 億の語彙データがあるとします。それを 100 回再トレーニングする方が良いでしょうか、それとも 1 兆の低品質の最新の語彙データを使用する方が良いでしょうか?もちろん妥協点はあるかもしれないが、高品質なデータをどう判断するかという問題もあり、まだ明確な答えはない。もし私が今学術界に戻るとしたら、それについてまだ何も知らないので、間違いなくそれについて論文を書くと思います。
Swyx: これに関する研究論文は今のところ見たことがありません。
ジョナサン: 論文研究の中心的な問題は、「どのような種類のデータセットの組み合わせを使用すべきか」ということです。
モデルを作成する過程で、私は教えていたジョージタウン ロー スクールに戻り、法学生のグループと座ってそれについて話し合いました。私は彼らに高品質のデータセット、データの混合方法、所有するトークンの数を与え、モデルに最適なデータセットを作成させます。
彼らは、入力データが動作に影響を与えるということ以外、LLM について何も知りません。私は彼らに、さまざまなトレードオフをすべてカバーするハイブリッドを作成するように言います。最初はインターネット経由で入手できる大量の英語コーパスが必要になる可能性がありますが、多言語モデルにしたい場合は英語コーパスが大幅に削減され、さらにコードを含めるかどうかも考慮されます。それ。
コードによってモデルの論理的推論のパフォーマンスが向上すると考える人もいますが、私はこの考えを裏付ける証拠を見たことがありません。私たちは確かに優れたコード モデルを開発しましたが、そのコード モデルが思考連鎖推論能力の向上につながるかどうかは、さらなる研究が必要です。
GPT-3 のバージョンは小説「ダ ヴィンチ コード」からトレーニングされたと言われているため、これが役立つのではないかと考える人もいますが、証拠はありません;) はモデルのトレーニングに役立ちますが、証拠の欠如。
したがって、多くの異なるデータ混合物を実験したところ、一部のデータ混合物は他のデータ混合物よりもうまく機能することもあれば、うまく機能しないことも判明しました。たとえば、「The Pile」は非常に安定したデータ ミックスですが、評価指標によれば、より優れたデータ ミックスは他にもあります。次に、評価の問題についても触れたいと思いますが、これは非常に重要です。
T5 モデルはもともと C4 データセットでトレーニングされており、非常に優れたパフォーマンスを発揮しました。私がこれについてツイートしたとき、EleutherAI の Stella Beaterman を含む他の人がこれについて言及しました。 T5 モデルに関する元の論文では、C4 データセットの前処理方法が奇妙に見え、著者らは Java 関連の警告を出したくないため、「Java」という単語を含むすべてのものをデータセットから削除しました。また、Java を含めたくなかったため、中括弧の組み込みを削除しました。
彼らは悪い言葉のリストを調べ、悪い言葉を含むコンテンツを削除しました。ただし、悪い単語のリストには、実際には悪くない単語 (「ゲイ」など) も含まれています。しかし、このクリーニング プロセスのおかげで、結果として得られるデータセットは比類のないものになっているようです。この時点から、データについては何もわかりません。
実際、MC4 と呼ばれるデータ セットも使用しました。MC4 と C4 は同じ前処理をしていましたが、より多くの Web 呼び出し (Web コール) を追加しました。しかし、C4 と比較すると、理由は不明ですが、MC4 の英語部分が劣っていることが多くあります。
このために、私は 2 つの基準を設定しました。
まず、英語パートは少なくとも MC4 と同等以上である必要があります。他の利用可能なデータセットと比較して、MC4 の英語部分は優れています。 2 番目に、データの多様性を最大限に重視し、データセットにコード、科学論文、ウィキペディアなどのものが含まれていることを確認します。これは、人々がさまざまなタスクにモデルを使用することになるためです。
しかし、最も重要なことは、モデルの良し悪しは評価指標の良し悪しにあると私は考えています。アビ氏はこの点については同意しないかもしれない。生成モデルが特定のタスクを実行するように求められた場合、生成モデルを正確に評価する方法がわかりません。場合によっては、私たち自身の評価では私たちが本当に重視していることさえ測れていないことを認めなければならないため、合理的な選択しかできません。
Swyx: MMLU (Massive Multitask Language Understanding) や BIG ベンチなどの評価方法は十分に説得力がないと思いますか?
ジョナサン: これらのメソッドは間違いなく 2 種類のタスクを実行します。 1 つは多肢選択タスクで、これには 1 つの正解が含まれており、これによりモデルは A、B、C、D などのオプションを生成し、次の困惑度を計算してモデルが生成する可能性が最も高い答えを選択します。それぞれの可能な答えをご紹介します。ただし、モデルに多肢選択式の質問を行うよう依頼する代わりに、要約などの 2 番目の種類のオープンエンドの生成タスクを実行します。 BLEU や ROUGE などの指標を使用して比較することは十分に正確ではありませんが、優れた論文抄録やオープンな生成方法が数多くあります。対照的に、手動はより信頼性の高い評価基準ですが、手動による評価は非常に時間と労力がかかり、将来的には可能になるかもしれないモデルとリアルタイムで比較することはできません。
Abhinav: 当社には、新しい指標の構築を支援してくれる優れた評価チームがいます。
ジョナサン: しかし、LLM を評価するのは難しく、これらの指標のいずれも、実際のモデルに期待されるものを実際には反映していないと思います。
モデルトレーニングのコスト削減と効率化
Swyx: 現在、モデルをトレーニングするには 3 ~ 10 日かかりますが、その時間をどれくらい短縮したいですか?
Abhinav: 今年はおそらく、生モデルのトレーニング効率の向上という点で最もエキサイティングな年の 1 つです。今年はハードウェアとソフトウェアの両方がそれに応じてアップグレードされており、その 1 つ目は Nvidia の新世代ハードウェア H100 で、これだけでパフォーマンスが少なくとも 2 倍向上します。 2 番目に、新しい浮動小数点数形式 FP8 があり、これを単独で使用しても同じパフォーマンスの向上を達成できます。
数年前、私たちは 32 ビット精度の使用を開始し、その後 Nvidia が 16 ビット精度を導入しました。数年間の開発を経て、要件の継続的な改善により、私たちは 16 ビットのトレーニング スキルを徐々に習得してきました。
今年の FP8 ではスループットを 2 倍にできるため、コストを 3 倍にできることになります。同時に、H100 で FP8 を使用した LLM トレーニングのプロファイリングを開始し、急速に進歩しています。つまり、ハードウェアを改良するだけで大幅にコストを削減できるのです。
さらに、建築への応用に関する研究も数多く行われています。私たちはある程度のスパース性を導入する方法を模索していますが、完全にランダムなスパース性を導入するわけではありません。これを実現するためのゲート メカニズムまたは MoE スタイルのアーキテクチャ方法はありますか?
私たちの当初の目標は、GPT-J モデルのトレーニングにかかるコストを 50 万ドルから 10 万ドルに削減することでした。年末までにそれを達成できれば、それは大きな成果となります。
ジョナサン: このアイデアは空中の城ではありません。まだその段階には達していませんが、この目標は 2023 年までに達成される可能性があります。
トレーニングと推論のコストに関する統計は不足しています。 Google の David Patterson は、機械学習における Google のエネルギー使用について議論するブログ投稿を公開しました。詳細な分析の結果、過去 3 年間、Google はリソースの 5 分の 3 を推論に、5 分の 2 をトレーニングに費やしました。上記は Google のデータであり、何十億ものユーザーにモデルを提供しています。
おそらく、世界で最も推論負荷が大きいのは Google でしょう。これはトレーニングに対するリソースの割り当てにすぎず、推論が 5 分の 3 を占め、トレーニングが 5 分の 2 を占めます。ハードウェアはより高価であり、ハードウェアのネットワーク構造はより複雑である可能性があるため、トレーニングと推論が半分に分割される可能性があります。上記はGoogleの配分比率ですが、他社の場合はトレーニングの比重が高くなる可能性があります。
AI 研究におけるオープン性の重要性
Alessio: 前回の学習コストが非常に高く、十分な実験ができず、データセットの選択などで多くの問題がありました。
ジョナサン: 大学院の頃、友人には GPU が搭載されているのに、私のラップトップには GPU が搭載されていなかったため、モデルをトレーニングできなかったため、友人をうらやましく思っていました。私は宝くじに当選して K80 GPU を所有できることを空想しました。
心の底では、私は今でも科学の熱心な学生です。私は、科学的研究を行い、これらのシステムを本当に理解し、それらをうまく機能させる方法や、その動作、安全性、信頼性の要素を理解したいのであれば、実際に科学的な研究を行うことができるように、トレーニングのコストを削減する必要があると強く信じています。リサーチ。たとえば、生物学的実験では、薬が効果があることを確認するために複数の細胞培養と実験を行う必要があり、何かを本当に理解するまでに多くの科学的研究が必要です。
**Abhinav:**MosaicML にはモデルをトレーニングしようとしている顧客が多数いるため、同社には科学研究に多くのリソースと時間を費やすインセンティブがあります。モデルをどのようにトレーニングすべきかを真に理解することによってのみ、より多くの人を助けることができます。したがって、私たちにとって、この集計プロセスは非常に重要です。
以前、バッチサイズか何かを調査した Google の論文があったことを覚えています。この論文にはおそらく数百万ドルの費用がかかり、コミュニティ全体に多大な利益をもたらします。今では、私たちは皆、そこから学び、大金を掛けずにお金を節約できるようになりました。したがって、Mosaic では、実験的研究を通じて、データや事前トレーニング アーキテクチャなどについて深い洞察を獲得しており、それがお客様に当社を選ばれる理由です。
ジョナサン: オープン性は AI コミュニティにとって非常に重要です。ある意味、私たちに閉店する理由はありません。私たちは顧客のモデルのトレーニングを支援することで収入を得ています。その結果をコミュニティと共有することに損失はありません。結局のところ、カスタマイズされたモデルと優れたインフラストラクチャを通じて収入を得る必要があります。これらの側面を統合することが、私たちの会社を MosaicML と名付けた理由です。
私たちは常にオープンな姿勢を維持し、達成した成果を隠すつもりはありません。しかし今では、私たちが業界最大のオープンソース ラボの 1 つになっていることがわかりました。これは悲しい事実です。なぜなら、MosaicML は業界全体から見るとそれほど大きくなく、研究者は約 15 人しかおらず、他にも多くの研究者がいます。研究室は閉鎖され、多くのコンテンツを公に公開しなくなりました。しかし、MosaicML はコミュニティとのコミュニケーションと共有を継続し、オープンリサーチの先駆者となるよう最善を尽くします。私たちの研究の規模と量は大規模な研究室に匹敵するものではありませんが、コミュニティのためのリソースを作成するために、学んだことを引き続き共有していきます。
AI エコシステムについて政策立案者と議論するとき、常に共通の懸念が浮上します。それは、オープン性の欠如がイノベーションのペースを妨げるということです。私はこの問題を何年も強調してきましたが、ついに現実になりました。私はオープンソースを支持しますが、誰もが自分の成果を共有するとは思いません。私たちはかつてオープンソースを当然のことだと考えていましたが、今はそうではありません。
それは私たちの開発を遅らせることになると思います。多くの場合、各研究室には一枚岩の文化があり、コミュニケーションは科学の進歩の重要な原動力です。したがって、オープンソースは、オープンソース コミュニティや学術界において不可欠であるだけでなく、テクノロジーの進歩にとっても不可欠です。私たちは活気に満ちたオープンソース研究コミュニティを必要としています。
今後の動向
Swyx: 多くのものは長くは続かず、簡単に置き換えられるとおっしゃいましたが、Transformer は今後も存続します。
ジョナサン: トランスフォーマーは常に存在します。畳み込みニューラル ネットワーク (CNN) は現在でも使用されており、Visual Transformer が CNN に取って代わるものではありません。リカレント ニューラル ネットワーク (RNN) に注目してください。これは何十年も前から存在していますが、今でも多くの分野で活躍しています。その結果、大規模なインフラ改善の実施は困難になります。
Abhinav: あなたの賭けは、何が注目と定義されるかによって大きく左右されると思います。 QK 行列の乗算などの演算が同様の方法に置き換えられた場合、結果にどのような影響がありますか?
ジョナサン: 最終的には、これは完全に接続されたフィードフォワード ネットワークであり、単純なアテンション メカニズムを備えた Transformer です。したがって、状況は変わるかもしれませんが、私たちは Ashish Vaswani (Transformer 著者) が 6 年前に思い描いたとおりに Transformer を使い続けており、おそらく将来もそうし続けるでしょう。
Abhinav: MLP (多層パーセプトロン) に似たものになると思います。これが現時点で唯一の選択肢です。なぜなら、アーキテクチャが大幅に簡素化され、いくつかの線形層、残りの接続だけが残っているからです。 、ドット乗算演算。
Jonathan: あなたの仮定は、アーキテクチャがよりシンプルになるということですが、現実はその逆で、アーキテクチャはより複雑になる可能性があります。
Swyx: 「創発現象」に関する最近の議論についてどう思いますか?
Abhinav: 同様の論文を見たことがありますが、これらはおそらく対数スケーリングや評価メトリクスなどの評価手法の単なる副産物であり、現在私たちが行っているのはメッシュの精度です。これは厳密に二値的な判断です。より細かい連続的な差異を考慮せずに、結果を真または偽として分類します。
しかし、ジョナサンの評価に関する指摘と同様に、評価指標の多様性にも問題があります。チャット モデルやコマンド モデルであっても、これらのモデルをリリースすると、人々はそれをさまざまなタスクに使用することがよくあります。事前に各次元を正確に測定して評価することはほとんど不可能であり、70 億の規模であっても、これらのモデルはいくつかの非常に困難な MMLU タスクでは依然としてパフォーマンスが不十分です。特に非常に難しいタスクを扱う場合には、ランダムな確率をわずかに上回るスコアを獲得することがあります。
したがって、これらの問題の一部は、より高品質のモデルを追求する際に、より役立つ可能性があります。ただし、モデルが最終的にどのように動作するかを完全には理解していなかったので、私たちは MPT-7B を少し盲目的に開発しました。これは、少数の一般的な知覚推論タスクに対してのみ開発でき、パフォーマンスは、これらのメトリクスを他のオープンソース モデルと比較することによって評価されます。
Alessio: 高速な推論とトレーニングが目標の 1 つであると思います。そのため、最も困難なタスクを解決することと、他のタスクを高速に実行することの間にはトレードオフがあります。
アビナブ: はい。 70 億のデータ規模であっても、人々はそれを自宅の CPU で実行しようとしたり、携帯電話に移植しようとしたりします。主な理由は、小規模なアプリケーションが人々にこのテクノロジーの採用を促すためであり、これは世界における重要な傾向です。瞬間。
Alessio: AI の中で、予想よりもはるかに速く進んでいることは何ですか?
ジョナサン: GPT-2 がリリースされたとき、あまり興奮しなかったのを覚えていますが、その時点ですでに 15 億のパラメーターがありました。モデルのサイズが拡大すると、パフォーマンスは向上し続けることができなくなります。その後 GPT-3 が登場し、テキストの生成が少しだけ良くなったと思ったのですが、何度も間違いでした。モデルをスケールアップすると、次のトークンを予測することにより、非常に有用なモデルを生成できます。
公平を期すために言うと、これについては私たちはほぼすべて間違っているので、自分自身を完全に責めることはできません。そうでなければ、私が行動するずっと前に、Google、Facebook、Microsoft Research がキラー言語のメガモデルをリリースしていたでしょう。私は非常に奇妙な賭けをしましたが、それが正しいことが判明しました。拡散モデルは、やや愚かではありますが、驚くほど美しい画像を生成しました。
Abhinav: 大規模なチャットボットに関しては、何億人もの人々が AI モデルと大規模な会話を行うまでには長い時間がかかると思います。現在、非常に多くのスタートアップや企業が ChatGPT だけでなく、キャラクター作成などの他のプロジェクトを使用しているため、実際にこれらの AI モデルと感情的なつながりを築いている人がどれだけいるかは驚くべきことです。去年の9月や10月にはそんなことは予想できなかったと思います。過去 6 か月間に起こった変曲点は、まさに予想外でした。
Swyx: 精神的なサポートなど、何に使用されると思いますか?
アビナブ: 彼らの中には、精神的なサポートを目的としていたり、単なる友達として来たりする人もいます。孤独とメンタルヘルスの問題はホットなテーマです。それらのコミュニティのサブレディットに行くと、人々は AI の友人やこれらのキャラクターについて話したり考えたりしています。それはまるで SF の世界のようなものですが、私はそんなことが起こるとは予想していませんでした。
Swyx: AI における最も興味深い未解決の問題は何ですか?
Abhinav: 精度や BF16/FP16 のような点でどこまでできるかに興味があります。
モデルのサイズが大きくなるにつれて、これらの問題は扱いやすくなるのだろうか。関連論文では、規模が大きくなるにつれて量子化と枝刈りが容易になる可能性があることを示しています。したがって、今後数年間のスケールアップの自然な結果として、4 ビットまたは 2 ビット、さらにはバイナリの重みの使用に移行する可能性があります。
ジョナサン: どれだけ小さなモデルを実現できるか、そして同等のパフォーマンスを持つモデルをどれだけ効率的に開発できるかを別の方法で確認したかったのです。これは私が博士課程を通じて取り組んだ問題であり、ある意味モザイク社でも同様でした。 OpenAI は、この驚くべき機能への 1 つのルート、つまりスケーリングを示してくれました。しかし、これが唯一の方法ではないことを願っています。より良いモデリング方法やより良いアルゴリズムなどを通じて、これを達成する他の方法もたくさんあることを願っています。
私は神経科学の比喩が好きではありませんが、ある意味、私たちの存在と脳は、何兆ものパラメーターや天文学的なパラメーターを使用せずに、この驚くべき能力を達成する少なくとも別の方法があることを証明しています。それで、私はどのくらい小さなモデルを達成できるのか非常に興味があります?現在のパスに従う必要のない、これらの機能への別のパスはありますか? Mosaic が存在する場合は、Mosaic で答えを見つけられることを願っています。
Swyx: まさに、私が最も興味を持っていることの 1 つは、人間の脳が消費する電力はわずか 30 ワットであり、モデルはそこから桁違いに離れているという事実です。
Abhinav: 単一の GPU や他のツールだけでこれを達成する方法はないと思います。
Alessio: 現在、人工知能について人々はどう考えるべきかなど、多くの情報が飛び交っています。彼らは何に焦点を当てるべきでしょうか?
ジョナサン: 落ち着いてください。誇大宣伝を真剣に受け止めすぎる人もいれば、非常に悲観的で、それに強く反応したり、ある程度否定したりする人もいます。安心して、私たちが非常に便利なツールを構築したことを知ってください。
しかし、私たちはまだ一般的な知性を構築できておらず、個人的にはその目標には程遠いです。したがって、平和的で科学に従うことが重要であり、それがモザイク AI が目指していることです。私たちは人間にとって役立つことに焦点を当て、より良い世界を創造したいと考えています。私たちは最善を尽くしますが、最も重要なことは、科学に従い、データに基づいて、美辞麗句ではなく実際の結果を通じてこの目標を達成することです。
アビナブ: オープンなコミュニティで研究を行うことに勝るものはないと思います。コミュニティでは、多くの人がモデルに注目するだけでなく、モデルの問題点や改善方法について意見を述べることもあります。この種のオープンな研究は、モデルを安全に保つためと、これらの AI モデルが現実世界に与える影響と結果を詳しく調べるために、前進するための道となります。