ChatGPTの普及により、世界中で「大規模モデル開発ブーム」が盛り上がっています。ただし、ほとんどのモデルでは、事前トレーニングと微調整に大量のコンピューティング リソースが必要であり、開発された生成 AI アプリケーションの動作環境にも高い要件があります。クアルコムは、コンピューティング能力の問題を解決するために、モバイルデバイス専用の生成 AI チップもリリースしました。
Stability.ai は、Stable LM 3B をオープンソースにして、膨大なコンピューティング リソースを持たない開発者がモバイル デバイス上で安全かつ安定して実行できる小型でコンパクトな生成 AI 製品を作成できるようにしたいと考えています。
携帯電話でも実行でき、1 兆のトレーニング データが含まれています。 StableLM-3B-4E1Tはこちら
**出典: **AIGC オープン コミュニティ
東部時間 10 月 2 日、有名なオープンソース プラットフォーム Stability.ai は、公式 Web サイトで、オープンソースの大規模言語モデル StableLM-3B-4E1T のリリースを発表しました。 (オープンソースのアドレス:
Stable LM 3B は、主に携帯電話やノートブックなどのモバイル機器向けの基本的な大規模言語モデルであり、パフォーマンスを確保しながらコンピューティング リソースの要件を大幅に削減することが報告されています。
安定版 LM 3B は、テキスト/コードの生成、概要の要約、データの微調整、常識的推論、数学の問題の解決などの機能をサポートしており、グローバル コンテキストの長さは 4096 です。 (「安定型 LM 3B」と呼びます)
Stability.ai は、Stable LM 3B をオープンソースにして、膨大なコンピューティング リソースを持たない開発者がモバイル デバイス上で安全かつ安定して実行できる小型でコンパクトな生成 AI 製品を作成できるようにしたいと考えています。
安定した LM 3B トレーニング データ セット
このモデルには 30 億のパラメーターしかありませんが、テキスト、コード、Wikipedia、ArXiv、書籍、C4、その他のデータを含む 1 兆トークンの巨大なトレーニング データ セットが使用されます。
このデータ セットは、Falcon RefinedWeb、RedPajama-Data、The Pile、StarCoder などの複数のオープン ソースの大規模データ セットからフィルタリングされ、混合されています。
これにより、Stable LM 3B は、より少ないリソースで同じサイズのモデルを超えることが可能になり、70 億または 100 億のパラメータを持つ一部の大型モデルよりもさらに強力になります。
安定した LM 3B トレーニング プロセス
Stable LM 3B は、972k の bfloat16 精度トレーニングから始まり、グローバル コンテキスト長は、StableLM-Alpha v2 のような 2048 から 4096 への多段階の改善ではなく、4096 です。
Stability.ai はパフォーマンスの最適化に AdamW を使用し、最初の 4800 ステップでは線形ウォームアップを使用し、その後コサイン減衰スケジュールを使用して学習率をピークの 4% に下げました。
初期の不安定性は、高学習率領域に長期間留まったことに起因すると考えられます。モデルが比較的小さいため、ドロップアウトは使用されません。
さらに、事前トレーニングの最初の段階は、フラッシュ アテンション API とその三角因果マスキングのすぐに使用できるサポートに依存しています。これにより、モデルはパックされたシーケンス内の異なるドキュメントを同様の方法で処理するようになります。
クールダウンフェーズ中、Stability.ai は、同時実験でサンプル品質の向上 (重複の減少) を経験的に観察した後、すべてのパックされたシーケンスの EOD マーカーで位置 ID とアテンション マスクをリセットします。
性能テストに関しては、StableLM-3B はゼロサンプル照射ハーネス評価フレームワークでテストされました。結果は、パフォーマンスが 70 億のパラメータを持つモデルと比べて劣らず、100 億のパラメータを持つ一部のモデルよりもさらに強力であることを示しています。