携帯電話でも実行でき、1 兆のトレーニングデータが含まれています。 StableLM-3B-4E1Tはこちら

2023-10-03 09:58:18

**出典: **AIGC オープンコミュニティ

東部時間 10 月 2 日、有名なオープンソースプラットフォーム Stability.ai は、公式 Web サイトで、オープンソースの大規模言語モデル StableLM-3B-4E1T のリリースを発表しました。 (オープンソースのアドレス:

Stable LM 3B は、主に携帯電話やノートブックなどのモバイル機器向けの基本的な大規模言語モデルであり、パフォーマンスを確保しながらコンピューティングリソースの要件を大幅に削減することが報告されています。

安定版 LM 3B は、テキスト/コードの生成、概要の要約、データの微調整、常識的推論、数学の問題の解決などの機能をサポートしており、グローバルコンテキストの長さは 4096 です。 (「安定型 LM 3B」と呼びます)

ChatGPTの普及により、世界中で「大規模モデル開発ブーム」が盛り上がっています。ただし、ほとんどのモデルでは、事前トレーニングと微調整に大量のコンピューティングリソースが必要であり、開発された生成 AI アプリケーションの動作環境にも高い要件があります。クアルコムは、コンピューティング能力の問題を解決するために、モバイルデバイス専用の生成 AI チップもリリースしました。

Stability.ai は、Stable LM 3B をオープンソースにして、膨大なコンピューティングリソースを持たない開発者がモバイルデバイス上で安全かつ安定して実行できる小型でコンパクトな生成 AI 製品を作成できるようにしたいと考えています。

安定した LM 3B トレーニングデータセット

このモデルには 30 億のパラメーターしかありませんが、テキスト、コード、Wikipedia、ArXiv、書籍、C4、その他のデータを含む 1 兆トークンの巨大なトレーニングデータセットが使用されます。

このデータセットは、Falcon RefinedWeb、RedPajama-Data、The Pile、StarCoder などの複数のオープンソースの大規模データセットからフィルタリングされ、混合されています。

これにより、Stable LM 3B は、より少ないリソースで同じサイズのモデルを超えることが可能になり、70 億または 100 億のパラメータを持つ一部の大型モデルよりもさらに強力になります。

安定した LM 3B トレーニングプロセス

Stable LM 3B は、972k の bfloat16 精度トレーニングから始まり、グローバルコンテキスト長は、StableLM-Alpha v2 のような 2048 から 4096 への多段階の改善ではなく、4096 です。

Stability.ai はパフォーマンスの最適化に AdamW を使用し、最初の 4800 ステップでは線形ウォームアップを使用し、その後コサイン減衰スケジュールを使用して学習率をピークの 4% に下げました。

初期の不安定性は、高学習率領域に長期間留まったことに起因すると考えられます。モデルが比較的小さいため、ドロップアウトは使用されません。

トレーニングプロセス中に、Stability.ai は自然言語ベンチマークを評価し、学習率減衰スケジュールの終了時にトレーニングによる着実な改善を観察します。このため、開発者は、より良いパフォーマンスを達成することを期待して、Zhai らが行ったのと同様に、学習率を 0 まで線形に下げることにしました。

さらに、事前トレーニングの最初の段階は、フラッシュアテンション API とその三角因果マスキングのすぐに使用できるサポートに依存しています。これにより、モデルはパックされたシーケンス内の異なるドキュメントを同様の方法で処理するようになります。

クールダウンフェーズ中、Stability.ai は、同時実験でサンプル品質の向上 (重複の減少) を経験的に観察した後、すべてのパックされたシーケンスの EOD マーカーで位置 ID とアテンションマスクをリセットします。

ハードウェアに関しては、StableLM-3B は Stability AI のコンピューティングクラスターでトレーニングされています。クラスターには 256 枚の NVIDIA A100 40GB グラフィックスカードが含まれています。トレーニングは 2023 年 8 月 23 日に開始され、完了までに約 30 日かかりました。