研究者らはテストで、このアプローチが未調整モデルのコンテキスト サイズのスケーリングにおいて PI よりも優れていることを発見しました。ただし、この方法には大きな欠点があります。これは単なる補間スキームではないため、一部の次元が一部の「外部」値に外挿されるため、NTK 対応補間を使用した微調整は PI ほど効果的ではありません。
さらに、「外部」値が存在するため、理論的な拡張係数はコンテキストの拡張の真の程度を正確に記述することができません。実際には、特定のコンテキスト長拡張の場合、拡張値 s は、予想される拡張値よりわずかに大きく設定する必要があります。
ローカル相対距離の損失 - 部分的な NTK 補間
RoPE 埋め込みについては、興味深い観察があります。コンテキスト サイズ L が与えられると、波長 λ が事前トレーニング段階 (λ > L) で見られる最大コンテキスト長よりも長い次元 d がいくつかあります。これは、埋め込みを示しています。いくつかの次元の場合、回転領域内で不均一に分布している可能性があります。
PI および NTK 対応の内挿では、すべての RoPE 隠れディメンションが平等に扱われます (あたかもネットワークに対して同じ効果があるかのように)。しかし、研究者らは実験を通じて、インターネットでは一部の次元が他の次元とは異なる方法で扱われることを発見しました。前に述べたように、コンテキスト長 L が与えられると、いくつかの次元の波長 λ は L 以上になります。隠れ次元の波長が L 以上の場合、すべての位置ペアが特定の距離をエンコードするため、研究者らは絶対的な位置情報が保持されると仮説を立てていますが、波長が短い場合、ネットワークは相対的な位置情報しか取得できません。位置の情報をお知らせします。
すべての RoPE 次元が拡大率 s またはベース変更値 b' を使用して引き伸ばされると、より小さい量だけ回転された 2 つのベクトルの内積が大きくなるため、すべてのトークンが互いに近づきます。この拡張により、LLM の内部埋め込み間のローカルな小さな関係を理解する能力が著しく損なわれる可能性があります。研究者らは、この圧縮によりモデルが近くのトークンの位置順序について混乱し、それによってモデルの能力が損なわれるのではないかと推測しています。
コンテキスト拡張機能を使用した場合のモデルのパフォーマンスの低下をテストするために、Hugging Face Open LLM Leaderboard スイートを使用してモデルを評価し、LLaMA 2 ベースライン モデルおよび公開されている PI および NTK 対応モデルの既存のスコアと比較しました。表 3 に実験結果をまとめます。
大規模なモデルに _ 内のより多くの例を学習させたい場合、この方法ではより多くの文字を入力できます。
Transformer ベースの大規模言語モデル (LLM) は、文脈学習 (ICL) を実行する強力な機能を実証しており、多くの自然言語処理 (NLP) タスクにとってほぼ唯一の選択肢となっています。 Transformer のセルフアテンション メカニズムにより、トレーニングを高度に並列化できるため、長いシーケンスを分散方式で処理できます。 LLM トレーニングに使用されるシーケンスの長さは、コンテキスト ウィンドウと呼ばれます。
Transformer のコンテキスト ウィンドウは、例を提供できるスペースの量を直接決定するため、ICL 機能が制限されます。
言語自体の性質上、トークンの位置は効果的なモデリングにとって重要であり、self-attention はその並列性により位置情報を直接エンコードしません。 Transformer アーキテクチャでは、この問題を解決するために位置エンコーディングを導入しています。
元の Transformer アーキテクチャでは絶対正弦波位置エンコーディングが使用されていましたが、これは後に学習可能な絶対位置エンコーディングに改良されました。それ以来、相対位置エンコード方式により、Transformer のパフォーマンスがさらに向上しました。現在、最も一般的な相対位置エンコーディングは、T5 Relative Bias、RoPE、XPos、および ALiBi です。
位置エンコーディングには、トレーニング中に表示されるコンテキスト ウィンドウに一般化できないという繰り返しの制限があります。 ALiBi などの一部のメソッドは、限定的な一般化を行う機能を備えていますが、事前にトレーニングされた長さよりも大幅に長いシーケンスに一般化できるメソッドはまだありません。
これらの限界を克服しようとするいくつかの研究努力が現れています。たとえば、一部の研究では、位置補間 (PI) を通じて RoPE をわずかに変更し、少量のデータを微調整してコンテキストの長さを延長することを提案しています。
2 か月前、Nous Research の Bowen Peng 氏は、高周波損失を組み込むことで「NTK 対応補間」を実装するというソリューションを Reddit で共有しました。ここでの NTK は、ニューラル タンジェント カーネルを指します。
最近、彼と他の 3 人の共同研究者による関連論文が発表されました。
このペーパーでは、NTK 対応補間に対して、さまざまな側面に焦点を当てた 2 つの改良を加えました。
同研究者によると、この論文が生まれる前に、研究者らはすでに一部のオープンソースモデルでNTK対応補間と動的NTK補間を使用していたという。例には、Code Llama (NTK 対応補間を使用) や Qwen 7B (動的 NTK 補間を使用) が含まれます。
この論文では、研究者らは、NTK認識補間、動的NTK補間、および部分NTK補間に関するこれまでの研究結果に基づいて、回転位置埋め込み(Rotary Position)の使用を効率的に拡張できる方法であるYaRN(Yet another RoPE extensioN Method)を提案しました。 Embeddings / RoPE) モデル コンテキスト ウィンドウ メソッドは、LLaMA、GPT-NeoX、および PaLM シリーズ モデルに使用できます。この調査では、YaRN は微調整に元のモデルの事前トレーニング データ サイズの約 0.1% の代表サンプルのみを使用するだけで、現時点で最高のコンテキスト ウィンドウ拡張パフォーマンスを達成できることがわかりました。
方法
回転位置エンベディング (RoPE) は、論文「RoFormer: 回転位置エンベディングによる強化されたトランスフォーマー」で初めて紹介され、YaRN の基礎でもあります。
簡単に言えば、RoPE は次のように記述できます。
高周波情報損失 - NTK 対応補間
RoPE を情報エンコーディングの観点からのみ見た場合、ニューラル タンジェント カーネル (NTK) 理論によれば、入力次元が低く、対応する埋め込みに高周波成分が欠けている場合、ディープ ニューラル ネットワークが高周波情報を学習します。
RoPE に補間を埋め込むときに高周波情報が失われる問題を解決するために、Bowen Peng は上記 Reddit 投稿で NTK 対応補間を提案しました。このアプローチでは、RoPE の各次元を均等に拡張するのではなく、高周波を少なく拡張し、低周波数を多く拡張することで、補間圧力を複数の次元に分散します。
研究者らはテストで、このアプローチが未調整モデルのコンテキスト サイズのスケーリングにおいて PI よりも優れていることを発見しました。ただし、この方法には大きな欠点があります。これは単なる補間スキームではないため、一部の次元が一部の「外部」値に外挿されるため、NTK 対応補間を使用した微調整は PI ほど効果的ではありません。
さらに、「外部」値が存在するため、理論的な拡張係数はコンテキストの拡張の真の程度を正確に記述することができません。実際には、特定のコンテキスト長拡張の場合、拡張値 s は、予想される拡張値よりわずかに大きく設定する必要があります。
ローカル相対距離の損失 - 部分的な NTK 補間
RoPE 埋め込みについては、興味深い観察があります。コンテキスト サイズ L が与えられると、波長 λ が事前トレーニング段階 (λ > L) で見られる最大コンテキスト長よりも長い次元 d がいくつかあります。これは、埋め込みを示しています。いくつかの次元の場合、回転領域内で不均一に分布している可能性があります。
PI および NTK 対応の内挿では、すべての RoPE 隠れディメンションが平等に扱われます (あたかもネットワークに対して同じ効果があるかのように)。しかし、研究者らは実験を通じて、インターネットでは一部の次元が他の次元とは異なる方法で扱われることを発見しました。前に述べたように、コンテキスト長 L が与えられると、いくつかの次元の波長 λ は L 以上になります。隠れ次元の波長が L 以上の場合、すべての位置ペアが特定の距離をエンコードするため、研究者らは絶対的な位置情報が保持されると仮説を立てていますが、波長が短い場合、ネットワークは相対的な位置情報しか取得できません。位置の情報をお知らせします。
すべての RoPE 次元が拡大率 s またはベース変更値 b' を使用して引き伸ばされると、より小さい量だけ回転された 2 つのベクトルの内積が大きくなるため、すべてのトークンが互いに近づきます。この拡張により、LLM の内部埋め込み間のローカルな小さな関係を理解する能力が著しく損なわれる可能性があります。研究者らは、この圧縮によりモデルが近くのトークンの位置順序について混乱し、それによってモデルの能力が損なわれるのではないかと推測しています。
この問題を解決するために、研究者らは観察したことに基づいて、高周波次元をまったく補間しないことを選択しました。
彼らはまた、すべての次元 d について、r < α の次元は拡張度 s に応じて線形補間され (PI と同様、外挿は回避される)、r > β の次元はまったく補間されない (常に外挿される) ことも提案しました。
このセクションで説明する手法を使用して、部分 NTK 補間と呼ばれる手法が誕生しました。この改良された方法は、以前の PI および NTK 対応の内挿方法よりも優れており、未調整モデルと微調整モデルの両方で機能します。この方法では、回転ドメインが不均一に分布している場合の次元の外挿が回避されるため、以前の方法の微調整の問題がすべて回避されます。
動的スケーリング - 動的 NTK 補間
RoPE 内挿法を使用して微調整せずにコンテキスト サイズをスケーリングする場合、スケーリング次数 s が目的の値を超えたときにコンテキスト サイズ全体にわたって完全に劣化するのではなく、コンテキスト サイズが長くなるとモデルがゆっくりと劣化することが予想されます。
動的 NTK 法では、拡張度 s が動的に計算されます。
推論中にコンテキスト サイズを超えると、拡張度 s が動的に変更され、トレーニング コンテキスト制限 L に達したときにすべてのモデルが突然クラッシュするのではなく、ゆっくりと劣化することが可能になります。
長距離の平均最小コサイン類似度を追加 - YaRN
たとえ前述の局所的な距離の問題が解決されたとしても、外挿を避けるために、閾値 α でより大きな距離を補間する必要があります。直感的には、これは問題ではないと思われます。なぜなら、グローバル ディスタンスでは、トークンの位置を区別するために高い精度が必要ないからです (つまり、ネットワークは、トークンがシーケンスの先頭、中間、または最後にあるかどうかを大まかに知る必要があるだけです)。
しかし、研究者らは、トークンの数が増加するにつれて平均最小距離が近づくため、注目ソフトマックスの分布がよりシャープになる(つまり、注目ソフトマックスの平均エントロピーが減少する)ことを発見しました。言い換えれば、長距離減衰の影響が補間によって軽減されるため、ネットワークはより多くのトークンに「より注意を払う」ことになります。この分布の変化は、LLM 出力の品質の低下につながる可能性があります。これは、前の問題とは関係のない別の問題です。
RoPE 埋め込みがより長いコンテキスト サイズに補間されると、アテンション ソフトマックス分布のエントロピーが減少するため、このエントロピーの減少を逆転させる (つまり、アテンション ロジットの「温度」を上昇させる) ことを目指します。これは、ソフトマックスを適用する前に中間アテンション行列に温度 t > 1 を乗算することで実行できますが、RoPE 埋め込みは回転行列としてエンコードされるため、RoPE 埋め込みの長さを定数係数 √t で単純に拡張することができます。 。この「長さ拡張」技術により、アテンション コードを変更せずに研究が可能になり、既存のトレーニングおよび推論プロセスとの統合が大幅に簡素化され、時間計算量はわずか O(1) になります。
この RoPE 補間スキームは RoPE 寸法を不均一に補間するため、膨張度 s に対する必要な温度比 t の解析解を計算することは困難です。幸いなことに、研究者らは実験を通じて、混乱を最小限に抑えることで、すべての LLaMA モデルがほぼ同じフィッティング曲線に従うことを発見しました。
この最終的な修正により、YaRN メソッドが誕生しました。新しいメソッドは、推論コードを変更する必要がなく、微調整されたシナリオと調整されていないシナリオの両方で、以前のすべてのメソッドよりも優れたパフォーマンスを発揮します。最初に RoPE 埋め込みを生成するために使用されるアルゴリズムのみを変更する必要があります。 YaRN は非常にシンプルであるため、Flash Attendant 2 との互換性を含め、すべての推論およびトレーニング ライブラリに簡単に実装できます。
実験
実験では、YaRN が LLM のコンテキスト ウィンドウを正常に拡張できることが示されています。さらに、わずか 400 ステップのトレーニング後にこの結果を達成しました。これは、モデルの元のトレーニング前コーパスの約 0.1% であり、以前の研究結果と比較して大幅な減少です。これは、新しい方法が計算効率が高く、追加の推論コストがかからないことを示しています。
結果のモデルを評価するために、研究者らは長い文書の複雑さを計算し、既存のベンチマークでスコアを付けたところ、新しい方法が他のすべてのコンテキスト ウィンドウ拡張方法よりも優れていることがわかりました。
まず、研究者らはコンテキスト ウィンドウを拡大したときのモデルのパフォーマンスを評価しました。表 1 に実験結果をまとめます。