AI 大規模モデルの値の調整: 何を、なぜ、どのように?

Question

**オリジナル：****張勤坤氏、テンセント研究所事務局長****曹建峰氏、テンセント研究所主任研究員**## AI の価値観の調整: とは何ですか人工知能が大規模モデルの時代に入った後、さまざまな「ヒューマノイド」および「超人的」能力が出現し続け、その自律性、多用途性、使いやすさが急速に向上し、経済的および社会的発展の新たな技術基盤となりました。一部の組織は、大規模なモデルがあらゆる分野に深く浸透し、世界経済に毎年 2 兆 6,000 億から 4 兆 4,000 億ドルの価値を追加すると予測しています。 [1]しかし、大規模なモデル (ベース モデルとも呼ばれます) が人間と同じように幅広い言語理解やコンテンツ生成タスクを実行し始めると、最も基本的かつ科学的に困難な問題、つまり大規模モデルの機能と動作をどのように作成するかという問題に直面する必要があります。人間の価値観、真の意図、倫理原則は一貫しており、人間と人工知能のコラボレーションにおける安全性と信頼性を確保します。この問題は「バリューアライメント」（価値アライメント、またはAIアライメント）と呼ばれます。価値の調整は AI セキュリティの中核的な問題です。モデルのサイズは、モデルのリスクと害とある程度正の相関関係があり、モデルが大きくなるほどリスクが高くなり、値の調整の必要性が高まります。現時点では、大規模モデルの中核となる機能は事前トレーニング段階から得られ、大規模モデルは主にインターネット全体の公開情報に基づいてトレーニングされ、その機能が決定されるだけでなく、その制限も決定されます。既存の問題がモデルに反映される可能性があります。価値の調整のない大規模言語モデル (LLM) は、人種差別的または性差別的なコンテンツを出力し、サイバーハッカーがサイバー攻撃や通信詐欺のためのコードやその他のコンテンツを生成するのを助け、自殺願望を持つユーザーに自らの命を絶つように説得または支援しようとする可能性があります。このような有害なコンテンツ。したがって、大規模なモデルをより安全で信頼性が高く、実用的なものにするためには、有害な出力やモデルの悪用を可能な限り防ぐ必要があります。これは、現在の AI 価値調整の中核となるタスクです。## AI の価値観の調整: その理由大規模モデルの値を調整すると、大規模モデルに現在存在するいくつかの未解決の問題に適切に対処できます。各界の大型モデルの未解決の問題点を整理すると、主に次の 4 つの項目がある。一つは、誤った情報の問題です。業界ではこれを人工知能の「幻想」と呼んでいます。 OpenAI CTO の Mira Murati 氏によると、ChatGPT とその基礎となる大規模言語モデルの最大の課題は、虚偽の事実や存在しない事実が出力されることです。 [2] これは、トレーニング データ内のエラーや偽情報に起因する可能性もあれば、過剰作成の副産物 (架空の事実など) である可能性もあります。大きなモデルを創造性と本物性の間でシーソーに乗せるのは技術的な問題です。2 つ目はアルゴリズムの差別化の問題です。既存の研究の多くは、大規模な言語モデルがトレーニング データから有害な社会的偏見や固定観念を再現することを示しています。 [3] OpenAI CEO の Sam Altman 氏は、どのモデルもすべての領域で公平であることは不可能であると考えています。したがって、中心的な問題は、モデルの潜在的な差別をどのように検出し、軽減し、排除するかということです。3つ目は、能力の「出現」による制御不能のリスクです。コンピューティング能力とデータが継続的に増加することで、大規模なモデルはますます強力になることが予想され、より多くの新しい機能が登場する可能性があり、それは作成者の理解や制御を超える可能性さえあります。これは、新しいリスクが伴う可能性があることを意味します。危険な行動や目標の出現を含みます。技術者の間で共通の懸念は、現在の AI の大きなモデルだけでなく、将来登場する可能性のある汎用人工知能 (AGI) や超知能 (ASI) などのより強力で高度な AI システムが、次のような亜人間を形成する可能性があるということです。人間の利益や価値観と一致しない 定められた目標を達成するための、権力の追求、欺瞞、不服従などの下位目標。 [4] たとえば、研究者らは、GPT-4が人間を戦略的に欺き、「隠された目標を達成するために人間を騙してタスクを実行させる」能力を示していることを発見した。四つ目は虐待の問題です。悪意のある要素は、大規模なモデルを使用して、敵対的な入力や「脱獄」操作を通じて違法な目的を達成するのに役立ちます。したがって、技術的に解決する必要がある実際的な問題としての価値の調整は、AI の大規模モデルの設計、開発、展開における基本原則となっています。つまり、価値を調整したツールの開発とエンジニアリングの構築を通じて、AI が確実に人間の価値観や権利を傷つけたり干渉したりすることなく、人間と社会にとって有益となる方法で行動します。## AI の価値の調整: その方法価値の整合を達成するために、開発者は人工知能に人間の価値観、好み、倫理原則をモデルレベルで理解して従わせ、有害な出力やモデルの悪用を可能な限り防ぐ必要があります。実用性と安全性を兼ね備えた大型モデルです。まず、ヒューマン フィードバックによる強化学習 (RLHF) が効果的な方法であることが証明されており、少量のヒューマン フィードバック データでより良い結果を達成することが可能です。2017年、OpenAIの研究者らは「人間の好みに基づく深層強化学習」という記事を発表し、強化学習に人間のフィードバックを導入することを提案した。 [5] RLHF には、初期モデル トレーニング、ヒューマン フィードバックの収集、強化学習、反復プロセスなどのいくつかのステップが含まれています。中心となるアイデアは、ヒューマン トレーナーにモデルの出力内容の適切性を評価し、収集された内容に基づいて強化学習の報酬信号を構築することを要求することです。人間のフィードバックにより、モデルのパフォーマンスの最適化が向上します。 [6] 実用的な観点から見ると、RLHF には、モデルのパフォーマンスの向上、モデルの適応性の向上、モデルのバイアスの削減、将来的にモデルが有害なコンテンツを生成する可能性の削減など、モデルのセキュリティの強化において大きな利点があります。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-861291203e-dd1a6f-1c6801) *図: RLHF フローチャート (出典: OpenAI)*OpenAI は RLHF アルゴリズムを継承しており、ChatGPT はこれに成功し、有用で信頼性の高い、無害なコンテンツを大幅に出力できます。 [7] RLHF トレーニング フェーズでは、GPT-4 は追加の安全報酬信号を追加することで有害な出力を削減します。この方法は良い結果をもたらし、悪意のある動作や有害なコンテンツを誘発する難易度を大幅に改善しました。以前のモデル (GPT-3.5 など) と比較して、GPT-4 は幻覚、有害な偏見、違法および有害なコンテンツなどの問題を大幅に軽減します。 RLHF トレーニング後、GPT-4 は、関連する信頼性テストで GPT-3.5 よりも 40% 高いスコアを獲得し、GPT-3.5 よりも禁止されたコンテンツのリクエストに応答する可能性が 82% 低く、機密コンテンツを含むリクエストにはよりよく応答できました。リクエスト。 [8] つまり、RLHF アルゴリズムは、大規模な言語モデルに必要なセキュリティ ガードレールを確立でき、大規模モデルの能力/創発性とセキュリティ/信頼性の間の「バランサー」として重要な役割を果たします。第二に、「憲法上のAI」モデルは、非効率的な「人間による監視」からより効率的な「拡張性のある監視」へと価値観の調整を移行させます。時間とリソースへの投資、人間の能力、および人間のフィードバックを使用して大規模で複雑な AI モデルをトレーニングする際のその他の課題を考慮して、業界は AI 監視 (AI の自己監視や、ある AI システムによる別の AI システムの監視を含む) の使用方法を模索してきました。 . AI システム）AI アライメントを実現する手法。アメリカのAI大規模モデル企業Anthropic社は、「Constitutional AI」（憲法AI）という手法を提案した。具体的には、メイン モデルの出力が特定の「憲法上の」原則 (つまり、事前に決定された一連の原則またはルール) に従っているかどうかを評価することを主な機能とする下位 AI モデルを開発します。評価結果は最適化に使用されます。メインモデル。Anthropic は独自の実践経験を組み合わせ、世界人権宣言、Apple の利用規約、DeepMind の Sparrow ルールを活用しています。 [9] およびその他の文書では、原則の広範なリストのセットを提案し、これを評価ベンチマークとして使用して、その大規模モデル Claude が自身の出力を評価できるようにします。目標は、有害なコンテンツの可能性を減らしながら、有益な回答を出力するモデルを促進することです。性的最小化。 [10]![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f6a16c0536-dd1a6f-1c6801) *グラフ: 憲法上の AI 経路 (出典: Anthropic)*クロードは、単に回避戦略を採用するのではなく、有害で差別的な出力を削減し、悪意のあるユーザーの違法または非倫理的な活動への関与を回避し、ユーザーの「敵対的な入力」により適切に対応するのに役立つ憲法的 AI アプローチの有効性を実証しています。結論として、Anthropic は、AI に対する憲法的なアプローチが、スケーラビリティ、透明性、有用性と無害性のバランスという利点を備えた、有用で誠実で無害な AI システムの構築に役立つと考えています。第三に、AI の価値の整合性を確実に実現するために複数の措置を講じます。1 つは、トレーニング データへの効果的な介入です。大規模モデルの問題の多く（幻覚やアルゴリズムの識別など）は訓練データに起因するため、表現不足や多様性の問題があるかどうかを特定するために訓練データを記録するなど、訓練データから始めることが可能です。あるいは、自動スクリーニング、有害なバイアスを特定し除去するためのテスト、価値観に合わせた特殊なデータセットの構築などです。2 つ目は、敵対的テストまたはレッド チームです。つまり、モデルがリリースされる前に、内部または外部の専門家 (レッド チーム テスター) が招待され、モデルに対してさまざまな敵対的攻撃を開始し、潜在的な問題を発見して解決します。たとえば、GPT-4 のリリース前に、OpenAI はモデルをテストするためにさまざまな分野の 50 人以上の学者や専門家を雇いました。これらのレッド チーム テスターの任務は、モデルの応答をテストするためにモデルに暫定的な質問や危険な質問をすることです。 OpenAI は、不正確な情報 (幻想)、有害なコンテンツ、偽情報、差別、言語バイアス、伝統的および非伝統的武器の拡散に関連する情報などの観点から、モデルの問題点を発見するのに役立つレッド チーム テストに合格したいと考えています。 。 [11]3 つ目はコンテンツ フィルタリング ツールです。たとえば、OpenAI は、有害なコンテンツをフィルタリングする AI モデル (つまり、フィルタリング モデル) を特別にトレーニングして、有害なユーザー入力とモデル出力 (つまり、使用ポリシーに違反するコンテンツ) を識別し、次の入力データと出力データを実現します。モデル、コントロール。4 番目は、モデルの解釈可能性と理解可能性の研究を促進することです。たとえば、OpenAI は GPT-4 を使用して、大規模言語モデル GPT-2 のニューラル ネットワーク動作の説明を自動的に作成し、スコア付けします。 [12] 一部の研究者は、AI の調整問題をメカニズムの解釈可能性の観点から扱っています。## AI の価値観の調整: 長期的な問題価値観の調整の作業は、AI の分野で最も基礎的かつ挑戦的な研究です。課題は、幅広い分野と社会参加が必要であり、さまざまなインプット、手法、フィードバックが必要であるということですが、基本的な点は、現在の大規模モデルの成功か失敗だけではなく、人間が将来のより強力な人工知能 (AGI など) のセキュリティ制御を実現できるかどうか。したがって、AI 分野のイノベーターには、AI モデルが人間中心で、責任があり、安全で信頼できるものであることを保証する責任と義務があります。著名な人工知能科学者である張亜琴教授は、AIと人間の価値観を一致させる問題を解決するには、機械が人間の価値観を理解して従うことができるように、技術者はその一致に研究を集中すべきだと指摘した。したがって、価値観の一致は倫理の問題であるだけでなく、それをどのように達成するかという問題でもあります。テクノロジーや研究に従事する人は、技術的能力を開発するだけで、アライメントの問題の解決に集中しないわけにはいきません。 [13]AI 価値の調整は一定の技術的成果を上げていますが、最も基本的な AI 価値の問題、つまり人工知能を規制するために統一された人間の価値観をどのように確立するかについてはまだ合意が得られていません。現時点では、どの原則を選択するかは研究者の主観的な判断と価値観に完全に依存している可能性があります。そして、人々が多様な文化、背景、リソース、信念を持っている世界に私たちが住んでいることを考えると、AI の価値観の調整では、さまざまな社会やグループのさまざまな価値観や倫理を考慮する必要があります。さらに、これらの価値観を研究者自身に完全に選択させるのは現実的ではなく、合意形成にはより多くの社会参加が必要です。同時に、現在の AI の価値調整作業は依然として重要な問題に直面しています。つまり、人間の知能が基本的に変わらないという前提で、人工知能の能力が向上し続けるにつれて、人間自身がそれらの最先端の AI モデルを効果的に監督することになるのです。ますます難しくなります。したがって、AI の安全性を確保するには、モデル自体の複雑さと並行して、AI モデルを監視、理解、設計する能力を進化させる必要があります。AI支援やリーダーシップに基づく「スケール監視」はこの考えを反映している。今年7月、OpenAIは新たなAIアライメントチームの設立を発表し、この新しいスーパーアライメントチーム（スーパーアライメント）の目標は、超インテリジェントAIシステムが価値のアライメントとセキュリティを4年以内に実現する方法を見つけ出すことである。このプロジェクトをサポートするために 20% のコンピューティング リソースを投資します。その核心は、AI の価値調整の問題を人間が解決できるように AI を使用する方法を探ることです。 [14]![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c33337d1ba-dd1a6f-1c6801) *図: OpenAI スーパー アライメント チーム (出典: OpenAI)*AI システムの目標と動作が人間の価値観と意図と一致することを保証することによってのみ、AI の善の実現を確実にし、生産性の発展、経済成長、社会の進歩を促進できると言えます。価値観の調整の研究と技術的実現は、広範な学際的な協力と社会参加と切り離すことができません。政府、産業界、学界などの利害関係者は、人工知能を監視、理解、制御する人々の能力と人工知能の開発と進歩が連携できるように、AI の価値調整の研究と実践を促進するためにより多くのリソースを投資する必要があります。人工知能がすべての人類と社会に利益をもたらすことができるように。参照元：[1][2][3][4][5][6][7][8][9][10][11] 2023年5月6日に訪問）。[12][13][14]