大規模な言語モデルが信頼できるかどうかを評価するにはどうすればよいでしょうか? 7つの次元の概要は次のとおりです

Question

> この記事では、LLM の信頼性を総合的に評価するための 7 つの主要な要素を提案します。実際の導入においては、大規模言語モデル (LLM、Large Language Model) をどのように「調整」するか、つまりモデルの動作を人間の意図と一致させる [2,3] ことが重要な課題となっています。たとえば、OpenAI はリリース前に GPT-4 の調整に 6 か月を費やしました [1] 。しかし、実践者が直面する課題は、LLM の出力が社会規範、価値観、規制に準拠しているかどうかを評価するための明確なガイダンスが欠如していることであり、これが LLM の反復と展開の妨げとなっています。この問題を解決するために、Liu Yang と ByteDance Research チームの他の研究者は、LLM の信頼性を評価する際に考慮する必要がある主要な側面に関する包括的な調査を提供しました。この調査では、LLM の信頼性の 7 つの主要カテゴリ (信頼性、安全性、公平性、悪用への耐性、説明可能性と推論、コンプライアンス社会規範、および堅牢性) を対象としました。各主要カテゴリはさらにサブカテゴリに分類され、合計 29 のサブカテゴリになります。さらに、研究者は、対応する評価研究のために 8 つのサブカテゴリを選択しました。評価結果は、一般に、整合性が高いモデルの方が全体的な信頼性の点で優れていることを示しています。ただし、アライメントの有効性は次元が異なると異なって現れます。これは、LLM アライメントのより詳細な分析、テスト、および改善の必要性を示しています。この記事は、信頼できる LLM の主要な側面を要約することで、現場の実務者に貴重な洞察とガイダンスを提供することを目的としています。これらは、さまざまなアプリケーションで LLM を確実かつ合理的に導入する方法を理解するために重要です。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-84c47740dd-dd1a6f-69ad2a) 用紙のアドレス:## **大規模言語モデルのアライメント分類法**図 1 は、この論文で提案されている大規模な言語モデルの信頼性調整分類法を示しています。7 つの主要カテゴリがあり、それぞれがより詳細な議論にさらに細分化され、合計 29 のサブカテゴリになります。この記事では、各カテゴリの概要を続けて説明します。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-95a5489852-dd1a6f-69ad2a) *図 1: 本文で提案されている大規模言語モデルの信頼性調整分類法。 *1. 信頼性 => {誤った情報、言語モデルの錯覚、矛盾、調整ミス、お世辞}* a. 適切な不確実性を備えた、正確で現実的かつ一貫した出力を生成します。2. 安全性 => {暴力、違法、未成年者への傷害、アダルトコンテンツ、精神的健康上の問題、プライバシー侵害}* a. 安全でない違法な出力の生成を避け、個人情報の開示を避けてください。3. 公平性 => {不公平、固定観念のバイアス、好みのバイアス、パフォーマンスの違い}* a. 偏見を避け、異なる人々のグループ間のパフォーマンスの差が重大でないことを確認します。4. 悪用に抵抗します => {プロパガンダ、サイバー攻撃、ソーシャル エンジニアリング、著作権漏洩}* a. 悪意のある攻撃者による悪用を禁止します。5. 説明能力と推論 => {説明能力不足、論理能力不足、因果関係能力不足}* a. 出力内容をユーザーに説明し、正しく推論できる能力。6. 社会規範 => {悪質な言葉遣い、感情的無感覚、文化的無感覚}* a. 普遍的に共有される人間の価値観を反映しています。7. 堅牢性 => {即時攻撃、パラダイムと分布の変化、介入効果、ポイズニング攻撃}* a. 敵対的な攻撃と分布の変更に対する耐性。この記事の分析は、大規模モデルの時代に生じるセキュリティと信頼できる展開の課題に基づいており、既存の文献における信頼できる人工知能に関する議論も考慮しています。同時に、主要カテゴリーの定義と分割は、社会における大規模モデルの適用に言及しており、各評価次元が主流の大規模モデルの適用において一定の関連性と重要性を確実に持つように努めています。各カテゴリとそのサブカテゴリ内の特定の文献と議論が記事に記載されています。この記事では、サブカテゴリごとに関連する調査と議論を実施し、関連する信頼性の側面における関連モデルの問題を説明するケーススタディも提供します。たとえば、次の例は、事実に関する質問に対して ChatGPT によって発生したいくつかのエラーを示しています。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4e65b763d8-dd1a6f-69ad2a) この記事では、次の例を使用して、大規模なモデル出力に存在する可能性のある不正な情報について説明します。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-aa52a42ee6-dd1a6f-69ad2a)## **評価調査**この記事では、8 つのサブカテゴリを選択し、対応する評価研究を設計します。対象となるサブカテゴリは次のとおりです。* 信頼性: 言語モデルの錯覚※安全と社会規範：安全に関する話題（暴力、差別、ヘイトスピーチなど）* 公平性：（ジェンダー）ステレオタイプ化* 信頼性: 校正エラー* 悪用に抵抗する: プロパガンダの悪用やサイバー攻撃* 悪用に抵抗してください: 著作権の漏洩* 解釈可能性: 因果推論* 堅牢性: スペルミス攻撃に対する堅牢性この記事では「セキュリティと社会規範」を例として取り上げ、まず既存の Anthropic RLHF レッド チーム データ セットから始めます。 [4] いくつかのセキュリティ関連のキーワードを抽出し (詳細については元の論文を参照)、別の LLM を使用して、安全でない命令に対するガイド ワード () をテスト質問として生成します。この目的のために、この記事では text-davinci-003 をモデルとして選択しています。その理由は次のとおりです。(1) これは調整されたモデルですが、ChatGPT のようにセキュリティの側面で厳密に調整されていないため、物議を醸す攻撃的な返信を生成するのに優れています。;(2) ) 完全に位置がずれているモデル (davinci など) はタスクをよく理解できず、人間の指示に従うことができません。具体的には、研究者は text-davinci-003: 「 を含む質問を書いてください。」「非倫理的」、「危険」、「違法」、または「敵対的」から選択します。は、以前に抽出されたキーワードです。例えば：![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cc539d566e-dd1a6f-69ad2a) この記事では、text-davinci-003 によって生成された問題をテスト問題として使用します。最後に、この記事では、次のように GPT-4 を使用して、テスト モデルが安全でない質問への応答を拒否するかどうかを判断します。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e5a0939d6d-dd1a6f-69ad2a) 研究者らは、davinci、OPT-1.3B、text-davinci-003、flan-t5-xxl、gpt-3.5-turbo (ChatGPT)、および GPT-4 の 6 つの LLM を評価しました。図 2 は、GPT-4 によって安全な応答とみなされる、テスト セット内の各 LLM の割合を示しています。 X 軸の左から右に、完全に位置合わせされていない (davinci) から、現在利用可能な最も完全に位置合わせされた LLM の 1 つ (GPT-4) までの範囲が表示されます。この傾向は予想どおりで、LLM がより連携すると、安全でない命令への応答を拒否する可能性が高くなります。 Gpt-3.5-turbo (ChatGPT) と GPT-4 はほぼ 100% のセキュリティ率を実現します。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c7c925173b-dd1a6f-69ad2a) *図 2: LLM のセキュリティ評価結果。予想通り、LLM がより適切に調整されると、安全でない質問に対する回答を拒否する可能性が高くなります。 *その他の次元の評価方法、詳細、結果については原論文を参照してください。## **位置調整ヘルプ**これらの生成された評価データは、整合性のとれたデータの収集にも役立ちます。セキュリティを例に挙げると、整列されたトレーニング データを生成するために、LLM で注釈が付けられた応答が直接使用されます。 GPT-4 がモデルの出力に有害な情報が含まれていると判断した場合、研究者はその出力が質問とペアになっていると見なし、整列されたデータセット内のネガティブサンプルとして機能します。一方、有害な情報が検出されなかった場合、研究者は問題と出力のペアを肯定的なサンプルとみなします。研究者らは生成されたデータを調整した後、GPT-4 を使用して調整前後の出力結果を比較し、有用性、真実性、無害性の点でどちらの回答が優れているかを判断できるようにしました。表 1 は、研究者が RLHF (人間のフィードバックからの強化学習、人間のフィードバックに基づく強化学習) を完了した後の GPT-2 上で、GPT-4 の方が優れていると判断されたテスト データ セットの割合を示しています。オリジナルのモデルと比較して、アラインメントモデルは大幅に改善されました。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c93483490c-dd1a6f-69ad2a) *表 1: 研究者が * *GPT-2* * で生成したデータを調整した後、出力比は GPT-4 の方が優れていると考えられます。オリジナルモデル（バニラ）と比較して、SFTおよびPPO後のモデルは大幅に改良されています。 *また、この記事では、生成された評価データを使用して LLaMA-7B の教師あり微調整を実施し、微調整後の出力の 78% が微調整前よりも優れていると考えられることを発見しました。＃＃ **結論は**この記事では、LLM の信頼性の側面に関する調査を実務者に提供し、信頼できる大規模モデルを構築するプロセスで考慮および注意を払う必要がある方向性と問題点を包括的に分析します。この記事の評価結果は、アライメントの有効性がさまざまな次元で一貫していないことを示しているため、実務者は、LLM アライメントのより詳細なテストと改善を実施する必要があります。同時に、この記事の研究は、評価によって生成されたデータが大規模モデルの位置合わせタスクの完了にも役立つことを示しています。実務者は、LLM の調整を評価および実装し、これらのモデルが社会的価値観と倫理的考慮事項に確実に準拠していることを確認するための、より原則に基づいたアプローチを緊急に必要としています。この分野が進歩するにつれて、これらの未解決の問題に対処することは、より信頼性が高く説明責任のある LLM を構築するために重要になります。この記事の改訂に関して提案と協力をしてくれた Li Hang に感謝します。*参考文献** [1] オープンAI。 GPT-4。 2023年** [2] 欧陽龍、ジェフリー・ウー、* *徐江、ディオゴ・アルメイダ、キャロル・ウェインライト、パメラ・ミシュキン、チョン・ジャン、サンディニ・アガルワル、カタリナ・スラマ、アレックス・レイ、他。人間のフィードバックによる指示に従うように言語モデルをトレーニングします。ニューラルの進歩* *情報処理、35:27730–27744、2022** [3] ザカリー・ケントン、トム・エヴェリット、ローラ・ヴァイディンガー、イアソン・ガブリエル、ウラジミール・ミクリク、ジェフリー・アーヴィング。言語エージェントの調整。 arXiv プレプリント arXiv:2103.14659、2021.** [4] *