オープンソースで市販されているため、300 億パラメータの MPT-30B 大型モデルのコストは GPT-3 のほんの一部です

AI 大規模モデル開発会社 MosaicML は最近、300 億パラメータを備えた新しい商用利用可能なオープンソース大規模言語モデル MPT-30B をリリースしました。これは、前世代の MPT-7B 言語モデル (70 億パラメータ) よりも大幅に強力であり、そのパフォーマンスはGPT-3よりも優れています。

画像ソース: Unbounded AI によって生成

さらに、MPT-30B-Instruct と MPT-30B-Chat の 2 つの微調整モデルをリリースしました。これらは MPT-30B をベースにしており、それぞれシングルターンの命令追跡とマルチターンの対話に優れています。

MPT-30Bモデルの特長:

  • トレーニング中の 8k トークンのコンテキスト ウィンドウ
  • ALiBi によるより長いコンテキストのサポート
  • FlashAttend を通じて効率的な推論とトレーニングのパフォーマンスを実現
  • MPT-30B シリーズは、事前トレーニングされたデータ ミックスにより強力なエンコード機能も備えています。

このモデルは NVIDIA H100 上の 8k トークン コンテキスト ウィンドウに拡張されており、H100 上でトレーニングされた最初の LLM となっています。

MPT-30B は GPT-3 より強力ですか?

MPT-30B は商用 Apache 2.0 ライセンスのオープン ソース ベース モデルで、オリジナルの GPT-3 よりも強力で、LLaMa-30B や Falcon-40B などの他のオープン ソース モデルと競合します。

(上) 9 つの文脈学習 (ICL) タスクにおける MPT-30B と GPT-3 のゼロショット精度。 MPT-30B は、9 つの指標のうち 6 つで GPT-3 よりも優れています。

MosaicML は、Nvidia の H100 GPU クラスターをトレーニングに使用して、MPT-30B を 2 か月間トレーニングしました。

以下の図に示すように、MPT-30B の学習データは次のとおりです。

MPT-30B はデータ混合によって事前トレーニングされており、10 個の異なるオープンソース テキスト コーパスから 1T の事前トレーニング データ トークンが収集され、テキストは EleutherAI GPT-NeoX-20B トークナイザーを使用してセグメント化され、上記の比率に従ってサンプリングされます。 。

MPT-7BとMPT-30Bの比較

MPT-30B トレーニング費用

MosaicML の CEO 兼共同創設者である Naveen Rao 氏は、MPT-30B のトレーニング費用は 70 万米ドル (約 502 億 4,400 万元) であり、GPT などの同様の製品に必要な数千万ドルよりもはるかに低いと述べました。 3.

カスタム MPT-30B モデルをトレーニングするにはどれくらいの時間と費用がかかりますか?まずは基本モデルから始めましょう。

上の図は、A100 または H100 GPU を使用して MPT-30B を最初から事前トレーニングする場合の時間とコストを示しています。 MosaicML インフラストラクチャを使用すると、1T トークンを使用して独自のカスタム MPT-30B を 2 週間で最初からトレーニングできます。

ゼロからトレーニングするのではなく、既存のモデルを微調整するだけの場合はどうすればよいでしょうか?

以下の図は、1B トークンごとに MPT-30B を微調整する時間とコストを詳しく示しています。 MosaicML インフラストラクチャを使用すると、システム メモリの制約を気にすることなく、わずか数百ドルで MPT-30B モデルを完全に微調整できます。

MosaicMLは、モデルを300億パラメータに拡張するのは最初のステップにすぎず、その後コスト削減を前提に、より大規模で高品質なモデルを立ち上げる予定だと述べた。

参考文献:

原文表示
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)