This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
オープンソースで市販されているため、300 億パラメータの MPT-30B 大型モデルのコストは GPT-3 のほんの一部です
AI 大規模モデル開発会社 MosaicML は最近、300 億パラメータを備えた新しい商用利用可能なオープンソース大規模言語モデル MPT-30B をリリースしました。これは、前世代の MPT-7B 言語モデル (70 億パラメータ) よりも大幅に強力であり、そのパフォーマンスはGPT-3よりも優れています。
さらに、MPT-30B-Instruct と MPT-30B-Chat の 2 つの微調整モデルをリリースしました。これらは MPT-30B をベースにしており、それぞれシングルターンの命令追跡とマルチターンの対話に優れています。
MPT-30Bモデルの特長:
このモデルは NVIDIA H100 上の 8k トークン コンテキスト ウィンドウに拡張されており、H100 上でトレーニングされた最初の LLM となっています。
MPT-30B は GPT-3 より強力ですか?
MPT-30B は商用 Apache 2.0 ライセンスのオープン ソース ベース モデルで、オリジナルの GPT-3 よりも強力で、LLaMa-30B や Falcon-40B などの他のオープン ソース モデルと競合します。
MosaicML は、Nvidia の H100 GPU クラスターをトレーニングに使用して、MPT-30B を 2 か月間トレーニングしました。
以下の図に示すように、MPT-30B の学習データは次のとおりです。
MPT-30B トレーニング費用
MosaicML の CEO 兼共同創設者である Naveen Rao 氏は、MPT-30B のトレーニング費用は 70 万米ドル (約 502 億 4,400 万元) であり、GPT などの同様の製品に必要な数千万ドルよりもはるかに低いと述べました。 3.
カスタム MPT-30B モデルをトレーニングするにはどれくらいの時間と費用がかかりますか?まずは基本モデルから始めましょう。
ゼロからトレーニングするのではなく、既存のモデルを微調整するだけの場合はどうすればよいでしょうか?
以下の図は、1B トークンごとに MPT-30B を微調整する時間とコストを詳しく示しています。 MosaicML インフラストラクチャを使用すると、システム メモリの制約を気にすることなく、わずか数百ドルで MPT-30B モデルを完全に微調整できます。
参考文献: