大規模モデルの解釈可能性を整理できますか?レビューはこちらです。1 つの記事であなたの質問に答えます

Question

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-78b1269849-dd1a6f-6d2ef1) 画像ソース: Unbounded AI によって生成大規模な言語モデルは、自然言語処理において驚くべき推論能力を示しますが、その基礎となるメカニズムはまだ明らかになっていません。大規模な言語モデルが広く適用されているため、アプリケーションのセキュリティ、パフォーマンスの制限、および制御可能な社会的影響にとって、モデルの動作メカニズムを解明することが重要です。最近、中国と米国の多くの研究機関 (ニュージャージー工科大学、ジョンズ・ホプキンス大学、ウェイクフォレスト大学、ジョージア大学、上海交通大学、百度など) が共同で大規模モデル解釈可能性テクノロジーのレビューを発表しました。従来の微調整モデルと ing ベースの非常に大規模なモデルの解釈可能性手法を包括的にレビューし、モデル解釈の評価基準と今後の研究課題について議論します。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-229d52bfe3-dd1a6f-6d2ef1) * 論文リンク:* Github リンク:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4a108bc518-dd1a6f-6d2ef1) **大規模なモデルを解釈する際の難しさは何ですか? **大規模なモデルを解釈するのはなぜこれほど難しいのでしょうか?自然言語処理タスクにおける大規模言語モデルの驚くべきパフォーマンスは、社会から広く注目を集めています。同時に、さまざまなタスクにわたる大規模モデルの驚異的なパフォーマンスをどのように説明するかは、学術界が直面している差し迫った課題の 1 つです。従来の機械学習や深層学習モデルとは異なり、超大規模モデル アーキテクチャと大量の学習教材により、大規模モデルに強力な推論機能と一般化機能を持たせることができます。大規模言語モデル (LLM) に解釈可能性を提供する際の主な問題には、次のようなものがあります。* モデルの複雑さは高くなります。深層学習モデルや LLM 時代以前の従来の統計機械学習モデルとは異なり、LLM モデルは規模が大きく、数十億のパラメータが含まれており、その内部表現と推論プロセスは非常に複雑であり、その具体的な出力を説明するのは困難です。* 強いデータ依存性。 LLM は学習プロセス中に大規模なテキスト コーパスに依存するため、これらの学習データの偏りや誤差などがモデルに影響を与える可能性がありますが、学習データの品質がモデルに与える影響を完全に判断することは困難です。* ブラックボックスの性質。私たちは通常、Llama-2 などのオープンソース モデルであっても、LLM をブラック ボックス モデルとして考えています。その内部の推論連鎖や意思決定プロセスを明確に判断することは難しく、入力と出力に基づいて分析するしかないため、解釈が困難になります。* 出力の不確かさ。 LLM の出力は不確実であることが多く、同じ入力に対して異なる出力が生成される可能性があり、これも解釈の難しさを高めます。※評価指標が不十分。現在の対話システムの自動評価指標ではモデルの解釈可能性を十分に反映できておらず、人間の理解を考慮したさらなる評価指標が必要である。**大規模モデルのトレーニング パラダイム**大規模モデルの解釈可能性をより適切に要約するために、BERT 以上のレベルの大規模モデルのトレーニング パラダイムを 2 つのタイプに分類します: 1) 従来の微調整パラダイム、2) ing ベースのパラダイム。**従来の微調整パラダイム**従来の微調整パラダイムの場合、基本的な言語モデルはまず大規模なラベルなしテキスト ライブラリで事前トレーニングされ、次に特定のドメインのラベル付きデータ セットを通じて微調整されます。このような一般的なモデルには、BERT、RoBERTa、ELECTRA、DeBERTa などが含まれます。**ing ベースのパラダイム**ing ベースのパラダイムは、 を使用してゼロショットまたは少数ショット学習を実装します。従来の微調整パラダイムと同様、基本モデルは事前トレーニングする必要があります。ただし、ing パラダイムに基づく微調整は通常、命令チューニングとヒューマン フィードバックからの強化学習 (RLHF) によって実装されます。このような一般的なモデルには、GPT-3.5、GPT 4、Claude、LLaMA-2-Chat、Alpaca、Vicuna などが含まれます。トレーニングのプロセスは次のとおりです。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-643c1f15c1-dd1a6f-6d2ef1) **従来の微調整パラダイムに基づくモデルの説明**従来の微調整パラダイムに基づくモデルの説明には、個々の予測の説明 (ローカルな説明) と、ニューロン、ネットワーク層などのモデルの構造レベルのコンポーネントの説明 (グローバルな説明) が含まれます。**部分的な説明**局所的な説明では、単一サンプルの予測について説明します。その説明方法には、特徴の帰属、注意に基づく説明、例に基づく説明、および自然言語による説明が含まれます。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-884d4dcaef-dd1a6f-6d2ef1) 1. 特徴アトリビューションは、各入力特徴 (単語、フレーズ、テキスト範囲など) とモデル予測の関連性を測定することを目的としています。特徴の帰属方法は次のように分類できます。* 摂動の解釈に基づいて、特定の入力特徴を変更することによる出力結果への影響を観察します。* 勾配解釈に基づいて、入力に対する出力の偏微分が、対応する入力の重要度指標として使用されます。* 代替モデル。人間が理解できる単純なモデルを使用して複雑なモデルの個々の出力を適合させ、各入力の重要性を取得します。* 特徴相関スコアを線形に分解することを目的とした分解ベースの手法。2. 注意に基づく説明: 注意は入力の最も関連性の高い部分に焦点を当てる方法としてよく使用されるため、注意は予測を説明するために使用できる関連情報を学習する可能性があります。注意に関連する一般的な説明は次のとおりです。* さまざまなスケールでの注意スコアの変化を直感的に観察するための注意視覚化テクノロジー。* 出力と注意の偏導関数など、関数ベースの解釈。しかし、研究の視点としての注意の使用については、学術界で依然として議論の余地があります。3. サンプルベースの説明では、個別のケースの観点からモデルを検出して説明します。モデルは主に、敵対的なサンプルと反事実的なサンプルに分けられます。* 敵対的サンプルとは、小さな変化に非常に敏感なモデルの特性に基づいて生成されるデータです。自然言語処理では、通常、敵対的サンプルはテキストを変更することによって取得されます。人間にとって区別するのが難しいテキストの変換は、通常、システムによって異なる予測につながります。モデル。* 反事実サンプルは、否定などのテキストを変形することによって取得されます。これは、通常、モデルの因果推論能力のテストです。4. 自然言語説明では、モデルのトレーニングにオリジナルのテキストと手動でラベル付けされた説明を使用するため、モデルは自然言語説明モデルの意思決定プロセスを生成できます。**全体的な説明**大域的説明は、ニューロン、隠れ層、およびより大きなブロックを含むモデルのレベルから、大規模なモデルの動作メカニズムの高次の説明を提供することを目的としています。主に、さまざまなネットワーク コンポーネントで学習された意味論的な知識を調査します。* プローブベースの解釈 プローブ解釈技術は、主に分類器の検出に基づいており、事前にトレーニングされたモデルまたは微調整されたモデルで浅い分類器をトレーニングし、それをホールドアウト データセットで評価することで、分類器は言語の特徴を識別できます。推理力。* ニューロン活性化 従来のニューロン活性化解析では、重要なニューロンの一部のみを考慮し、ニューロンと意味的特徴の関係を学習していました。最近では GPT-4 をニューロンの説明にも使用するようになり、一部のニューロンを選択して説明するのではなく、すべてのニューロンを説明することができます。* 概念ベースの解釈では、入力を一連の概念にマッピングし、予測に対する概念の重要性を測定することでモデルを説明します。**ing パラダイムに基づくモデルの説明**ing パラダイムに基づくモデルの説明では、2 つのモデルの機能を区別し、モデル学習の道筋を探るために、基本モデルと補助モデルを別々に説明する必要があります。検討される問題には主に、少数ショット学習に関するモデルの説明を提供する利点、少数ショット学習と思考連鎖能力の起源の理解が含まれます。**基本モデルの説明*** モデル学習における説明の利点 少数ショット学習のコンテキストで、説明がモデル学習に役立つかどうかを検討します。* 状況に応じた学習では、大規模モデルにおける状況学習のメカニズムを調査し、大規模モデルと中規模モデルの状況学習の違いを区別します。* 思考連鎖 思考連鎖によってモデルのパフォーマンスが向上する理由を探ります。**アシスタントモデルの説明*** 微調整ロール アシスタント モデルは通常、一般的な意味知識を取得するために事前トレーニングされ、その後、教師あり学習と強化学習を通じてドメイン知識を取得します。アシスタント モデルの知識が主にどの段階から得られるかについては、まだ研究の余地があります。* 幻覚と不確実性の大規模モデル予測の精度と信頼性は、現在の研究において依然として重要な問題です。大規模モデルの強力な推論能力にもかかわらず、その結果はしばしば誤った情報や幻覚に悩まされます。この予測の不確実性は、その広範な適用に大きな課題をもたらします。**モデル説明の評価**モデル説明の評価指標には、妥当性、忠実性、安定性、堅牢性などが挙げられます。この論文では主に、1) 人間に対する合理性、2) モデルの内部ロジックへの忠実度という、広く関係している 2 つの側面について説明しています。従来の微調整モデルの説明の評価は、主に局所的な説明に焦点を当ててきました。妥当性を実現するには、多くの場合、設計された標準に対するモデルの解釈と人間による注釈付きの解釈の測定評価が必要です。忠実度は定量的指標のパフォーマンスにより注意を払っていますが、指標が異なればモデルやデータの異なる側面に焦点を当てているため、忠実度を測定するための統一基準がまだ不足しています。モデルの解釈に基づく評価にはさらなる研究が必要です。**将来の研究課題****1. 効果的かつ正確な説明が不足している。 **この課題は 2 つの側面から生じています: 1) 効果的な説明を設計するための基準の欠如; 2) 効果的な説明の欠如は、説明の評価に対するサポートの欠如につながります。**2. 出現現象の起源は不明です。 **大規模モデルの創発能力の探索は、モデルとデータのそれぞれの観点から行うことができます モデルの観点からは、1) 創発現象を引き起こすモデル構造、2) 最小モデル規模言語を越えたタスクで優れたパフォーマンスを発揮する複雑さ。データの観点から見ると、1) 特定の予測を決定するデータのサブセット、2) 創発的能力とモデルのトレーニングとデータ汚染との関係、3) 事前予測のそれぞれの効果に対するトレーニング データの質と量の影響。トレーニングと微調整。**3. Fine-tuning パラダイムと ing パラダイムの違い。 **配布内と配布外の 2 つのパフォーマンスの違いは、推論方法の違いを意味します。 1) データが分散している場合の推論パラダイムの違い、2) データが異なるように分散されている場合のモデルの堅牢性の違いの原因。**4. 大規模モデルのショートカット学習問題。 ** 2 つのパラダイムの下では、モデルのショートカット学習問題はさまざまな側面で存在します。大規模なモデルには豊富なデータ ソースがありますが、ショートカット学習の問題は比較的軽減されます。ショートカット学習の形成メカニズムの解明と解決策の提案は、モデルの一般化にとって依然として重要です。**5. 注意の冗長性。 **注意モジュールの冗長性の問題は両方のパラダイムに広く存在しており、注意の冗長性を研究することでモデル圧縮技術に解決策を提供できます。**6. 安全と倫理。 **大規模モデルの解釈可能性は、モデルを制御し、モデルの悪影響を制限するために重要です。偏見、不公平、情報汚染、社会操作などの問題です。説明可能な AI モデルを構築すると、上記の問題を効果的に回避し、倫理的な人工知能システムを形成できます。