Jan Leike: OpenAI は 4 年以内にどのようにしてスーパーアライメントを達成するのでしょうか?

Question

著者: ダニエル・フィラン@AXRP出典：海外ユニコーン推奨者: Cage コンパイラ: wenli、Yanxi 組版: Mengxi、ScoutOpenAIは先月初めに「Superalignment」計画を発表し、総コンピューティング能力の20％をこの新しい方向に一度に投資すると発表した。 OpenAIの共同創設者兼主席科学者のイリヤ・サツケヴァー氏と元調整チームリーダーのヤン・ライク氏は共同でこの新しいプロジェクトを主導し、人間が超知能を制御できるようにするために超知能調整の中核となる技術的課題を4年以内に解決することを目標とする。これを達成するために、OpenAI はまず「人間と同じレベルの自動アライナー」をトレーニングし、次にこの「自動アライナー」を使用して超知能によるアライメントを実現する必要があります。*スーパーアライメントの紹介* の記事によると、「自動アライナー」 「Aligner」の設計には、AIの評価と監視、説明可能性に基づいたシステムのセキュリティ検証、およびアライメントされていないモデルを使用したシステムの摂動テストの実現も含まれます。この記事は Jan Leike 氏のインタビューから編集されたもので、OpenAI がどのようにして「スーパー アライメント」を実現できるかについての Jan Leike 氏のより詳細な技術的考え方が記載されています。**以下はこの記事の目次ですので、要点と合わせて読むことをお勧めします。 ****👇**01 スーパーアライメントチーム02 モデルを「自律的に位置合わせ」させます03 スーパーアライメントスケジュール04 一般化05 スーパーアライメントについて楽観的になる## **01.スーパーアライメントチーム****ダニエル・フィラン: まず、スーパーアライメント チームについて紹介していただけますか? ****Jan Leike:** スーパーアライメント チームの目標は、今後 4 年間で超インテリジェント アライメントの問題を解決することです。 OpenAI の共同創設者兼チーフサイエンティストである Ilya Sutskever 氏もチームに加わり、私とともにこのプロジェクトを共同指揮します。さらに、OpenAI はコンピューティング リソースの 20% をこのトピックに投入します。このプロジェクトチームに参加してくれる人材も積極的に募集しています。 **私たちは、これまでアライメント研究に携わっていなかった機械学習の専門家やエンジニアを引き付けることを強く望んでおり、これらの人々はこの問題に関して大きな可能性を秘めている可能性があります。 **私たちは予備的な作業フレームワークを設計しました。中心となるアイデアは、最初に自動化された人間レベルの調整研究者 (自動化された人間レベルの調整研究者) を訓練し、その後、スーパーインテリジェンス調整の作業を完了する方法の研究を継続させることです。したがって、私たちがしなければならない重要なことの 1 つは、この自動調整装置を「調整」する方法を理解することです。**ダニエル・フィラン: この新しいチームはどれくらいの規模になりますか? ****ヤン・ライケ氏:** 現在、チームのメンバーは約 20 名ですが、今年の終わりまでに 30 名に達する可能性があります。今後 4 年間で、チームの人数はおそらく 100 名を超えることはないでしょうが、このチームが拡大する方法は次のとおりである可能性があります。何百万人もの「バーチャル ヒューマン」、または少なくとも OpenAI 従業員と同数の「バーチャル ヒューマン」を配置して調整を行います)。そういった意味でも、今後は必ず大規模に展開していきます。**Daniel Filan: OpenAI がコンピューティング能力の 20% をチームに与えるとおっしゃいましたが、この 20% は何を意味しますか? ****Jan Leike:** OpenAI にとって、コンピューティング能力の 20% をこのチームに割り当てるのは、決して小さな数字ではありません。これは間違いなく、これまでの調整における最大の投資であり、おそらく他のすべての投資を上回ります。 **この意味では、コンピューティング リソースの 20% は OpenAI にとってかなりの割合を占めます。また、この数字を極端に大きくすると、「本当にOpenAIでそんなことができるの？」という疑問が必ず出てきますが、実はOpenAIにとって、最先端のモデルを開発し続け、最先端のAIを解析し続けたいのであれば、システムは事前トレーニングされているため、大量のコンピューティング リソースが必要になります。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-91a4c8eba9-dd1a6f-6d2ef1) **Daniel Filan: その前に、OpenAI にはすでに Alignment チームがありましたが、このチームはまだ存在しますか? ****Jan Leike:** 昨年設立された調整チームは 2 つの部分に分かれており、1 つは「実践的な調整」と呼ばれ、もう 1 つは「スケーラブルな調整」と呼ばれます。プラグマティック アライメント チームは GPT-4 のアライメントに焦点を当てており、スケーラブル アライメント チームはまだ解決されていないアライメントの問題を研究することを目的としています。 ChatGPT のリリースとその後の成功により、ChatGPT の重要性と製品の規模は常に増大しており、製品の機能とエクスペリエンスが十分に完成していることを確認するために、より大量の RLHF とモデルが必要になっており、調整チームはもうこれを行うのには適していません。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e6f4d3f955-dd1a6f-6d2ef1) 先ほど述べた実際の調整作業は現在、OpenAI のさまざまなプロジェクト チームに分散され、数百人が参加しているため、すでに非常に大規模なプロジェクトとなっており、スケーラブルな調整作業は現在、スーパーアライメント チームが担当しています。やる事。私たちがスーパーアライメントという名前を選んだ理由は、現段階で私たちが研究していることは、実際にはまだ現れていない問題であり、私たちの研究は比較的前向きで未来志向であることを強調したいからです。**Daniel Filan: OpenAI 以外の人々やチームの連携に関する試みをどのように確認すればよいですか? ****Jan Leike: **OpenAI 以外にも、関連する作業、特に DeepMind と Anthropic に取り組んでいる人やチームがたくさんいます。ある程度、私たち全員が同じ問題を解決しようとしているため、最終的には似たような作業を行うことになります。それも普通です。説明可能性とスケーラブルな監視に関する研究は他にもあります。ある意味、私たちは実際に大量の作業を重複させるリスクを抱えているので、より適切に連携したり、より協力したりする方法を模索するのが理想的です。しかし、全員が同じことをやっていれば、「集団思考」を避けることができます。なぜなら、各研究室が独自にこれらの問題を解決しようとすると、当然他の研究室の結果を疑うようになり、そのマイナス面が「集団思考」を生み出すからです。 -あるいはその影響: 人々は他所で発明された技術を使いたがらず、自然と自分以外の技術は良くないと考えたり、ある種の偏見の目で見たりするようになる。つまり、現時点ではバランスが取れていません。すべてのアラインメントを持つ人々が 1 か所に集まり、何らかの方法で協力すべきだと考える理由はありますが、それが現実です。なぜなら、最先端の AI ラボにはその性質上、モチベーションがあり、多額の費用を費やしているからです。アライメント上のリソースの数。これは RLHF の成功によっても明らかになり、モデルの商業的実現可能性が高まり、そのような技術の研究への投資がより魅力的になります。**Daniel Filan: OpenAI Superalignment チームのアプローチはどのように異なりますか? ****Jan Leike:** 私たちは、さまざまなタスクを調整する方法を考えるよりも、この自動調整装置をどのように調整するかに重点を置いています。したがって、少なくともこの問題に関しては、調整税についてはそれほど心配していません。他の研究室はこのような形でこの目標や方向性を強調していないと思います。**調整税:**セキュリティ税とも呼ばれ、AI システムの整合性を確保するための追加コストを指します。この記事で言及されている RLHF に基づく調整税は、RLHF を実行するために、開発時間の増加、追加の計算、パフォーマンスの低下など、調整を達成するためにベース モデルの機能が失われることを意味します。**私たちは、すべてのスケーラブルな調整手法を試してどれが最も効果的かを確認し、それらを経験的に比較する方法を見つけることに非常に楽観的です。他の研究室は、非常に興味を持っている特定のスケーラブルな監視テクノロジーを持っており、それらのテクノロジーも使用しようとしています。また、解釈可能性に関しては、私たちは自動解釈可能手法を導入し、積極的に推進していますが、他の研究室はまだこの手法にあまり注目していません。 ****私たちが本当にやりたいもう 1 つのことは、計算を使用して調整を進めることであり、これは私たちの主な戦略の 1 つです**。特にスケーラブルな監視の観点から、送信するためにより多くの計算能力を得るにはどうすればよいかを本当に理解したいと考えています。より良い監視信号を発信できるでしょうか？私たちにはどんなチャンスがあるのでしょうか？ Critique モデルをより適切に活用するにはどうすればよいでしょうか?より多くのコンピューティング能力を使用して監視信号を強化するにはどうすればよいでしょうか?自動解釈可能性 (自動解釈可能性) は非常に単純な方法であり、この問題を解決するには大量の計算能力を投資するだけで済みます。**批評モデル:**は独立した言語モデルです。最初の AI システムの結果をレビューし、レビューを作成します。さらに、自動調整に関する研究も行われています。これが可能であれば、より多くの計算能力を投資することで、より多くの調整結果を得ることができます。しかし、私たちが本当にやりたいのは、コンピューティング能力の量をアライメント能力に変換することであるため、現在は多くのコンピューティング能力が必要です。これが、OpenAI がコンピューティング能力の 20% をアライメントに喜んで費やす理由です。これが基本的に示しているのは、この自動アライナーを実際に理解して、より多くのコンピューティング能力が必要であることが判明した場合、より多くのコンピューティング能力を使用してそれを実行できるということです。これは、コンピューティング能力を調整に変換する戦略が成功し、OpenAI によってサポートされることも意味します。## **02. モデルを「自律的に位置合わせ」させます****「オートアライナー」とは****ダニエル・フィラン: 「自動化された人間レベルの調整研究者」とは何ですか? ****Jan Leike: 私たちの目標は、可能な限り自動化システムを使用して、調整作業のタスクを細分化して分散することです。 **言語モデルやその他の AI システムに関しては、人間ができることを 100% 実現できるわけではありません。たとえば、LLM は、事実に関する質問の翻訳や回答などでは人間よりも優れているかもしれませんが、算術計算やその他のタスクではそれほど得意ではない可能性があります。 **そこで問題は、人間の研究者の限られたエネルギーを解放するには、どのタスクを AI に割り当てる必要があるのかということです。 **その結果、人間のチームは重要なタスクをより効率的に完了できるようになり、AI はより多くの補助的なタスクも引き受けるようになります。**一般に、作業に参加する AI の割合はますます高くなる一方、人間の研究者は AI に引き継がれないタスクにより多くの注意を払い、人間と機械を介して超知能調整の研究をより実践的に加速するでしょう。コラボレーション。 ****ダニエル・フィラン: つまり、AI を使用して OpenAI 連携チームの特定の人間の従業員を置き換えるのではなく、全員が行っている特定のタイプの作業を完了するために AI を使用し、それを段階的に AI に置き換えるということです。もっとタスクを? ****Jan Leike:**はい、このシステムの出力を十分に高くしたいのであれば、タスクの 99% または 99.9% を自動化して、10 倍、100 倍、さらには 1000 倍の成果を上げることができるようにする必要があると思います。研究結果の何倍にもなります。ここで言う「タスク」は大きく2つに分類できます。 1 つは、より伝統的な機械学習エンジニアリングの研究タスクで、その目的は、さまざまな ML 実験の実装や実験結果の収集など、AI システムの機能向上に役立つことです。もう 1 つのカテゴリは、スーパーインテリジェンスの調整を達成するために何をしなければならないかというもので、この種の問題は比較的大きく、より高いレベル (高レベル) であり、たとえば、スケーラビリティの監視 (Scalable Oversight) を改善するために、どのように決定するかというものです。どの実験を実行するか?あるいは、説明可能性を実現するためにどのように進歩するか。もちろん、回答が必要な非常に具体的な質問もいくつかあるはずですが、たとえば、ある研究が一定の段階に達すると、フォローアップで解決すべき一連の問題を明確にする必要があります。非常に詳細な質問。**スケーラブルな監視:**スケーラビリティ監視の目標は、モデルの機能が人間の期待と常に一致し、人間のレベルを超えた後も改善と学習を継続できるようにすることです。このため、研究者はモデルの容量を増やし、モデルの値を調整し、モデルのパフォーマンスを継続的に監視する方法を考える必要があります。スケーラブルな監視の焦点は、モデルに信頼性の高い監視を継続的に提供する方法であり、この監視はラベル、報酬シグナル、批判などのさまざまな形式にすることができます。私は、機械学習は最初のタイプのタスク、つまり実験を設計して自動的に実行するタスクを非常にうまく実行できると予測しています。そして、調整の進行を加速するために私たちが今日行っているユニークな作業は、2 番目のタイプのタスクを自動化する方法を見つけることです。方法。 ****Daniel Filan: 2 番目のタイプのタスクはプロセス全体のタスクのようですか?研究の方向性を考えるだけでなく、「今どのスクリプトを実行するか」に至るまで、何が役立つかを考え出します。 ****Jan Leike:** この質問は実際には次のように尋ねることができます: **アライメント研究は従来の ML 研究とほぼ同様であるため、2 番目のカテゴリでは他にどのようなタスクを実行できますか? ****2 番目のタイプのタスクには実際には多くのことが関係しており、この部分での研究の影響力は非常に大きいと思います。 **なぜなら、研究テーマの観点から見ると、「アライメントをどのように定義するか」についてさえ合意が得られておらず、業界の専門家の間でも「アライメントを実現する可能性が最も高い技術的ルート」や「どのような作業を行うべきか」については未だに疑問を抱いているからです。次に完了します。」 「これらの問題に関しては意見の相違があります。したがって、調整が加速できれば、その効果は非常に大きい。これは、OpenAI Superalignment チームへの参加を研究者に呼びかけたときに、私たちが研究者に伝えたビジョンと方向性でもあります。現段階ではまだいくつかの基本的な問題を解決しており、位置合わせに関する研究にはまだ多くの努力が必要です。私たちは超知能を調整する方法を知りませんし、人間よりも高い知能を持つ AI システムを調整することさえ困難です。**ダニエル・フィラン: 人間レベルの自動アライナーの概念について言及しましたが、AI のほとんどのものは完全に人間レベルではないようです。この目標において「人間レベル」はどれほど重要ですか?あなたが言及したいくつかのタスクにおいて AI が人間のパフォーマンスを上回るとしたら、それは良いことですか、それとも悪いことですか? ****ジャン・ライク: 問題の核心は、この人間レベルのシステムをアライメント研究に導入することがどれほど危険であるかということだと思います。 **AI システムが多くの知識を持っていることはひどいことではありませんが、このシステムがアライメント研究の一部 (長期的にはほとんど) を引き継ぐ場合、人間に嘘をつくかどうかを考慮する必要があります。 AIは私たちを騙してシステムを乗っ取ろうとするのでしょうか？現在、モデルの動作の多くがどのように発生するのか実際には理解していないため、私たちが直面する本当の疑問は、モデルの動作とリスクを理解するためにどのようなスキルが必要か、そしてそれは自動化された研究者を構築するために必要なスキルと同等かということです。ハイパーアライメントについて?スキルはどのように比較されますか?これをさらに詳しく調査すると、私たちの本当の懸念は何でしょうか?それはもしかしたら、モデルは人間を欺くための嘘を紡いでいるのでしょうか？モデルはすでに人間を騙しているのでしょうか？実際には別の目標に向けられているのに、何かをしているふりをしたり、何かを信じたりしていませんか?したがって、モデルが **脱獄 (自己流出**) するかどうかを評価することも重要です。つまり、モデルがシステムのセキュリティ対策を破り、モデルの重みパラメーターを取得し、それを他の場所で複製しようとする能力がどの程度あるのかということです。インターネット？それとも、人間のエンジニアに重みへのアクセスを許可させることで、モデルがこのデータをダウンロードして他の場所に送信することは可能でしょうか?この領域でのモデルの能力も測定できますが、これらの重要な側面において、モデルの能力が強すぎないことを望みます。**ダニエル・フィラン: 人間レベルの自動アライナーは、非常に賢く、創造的で、タスク計画を達成できる必要があり、アライメント関連の問題について考える能力も非常に優れている必要があります。この場合、そのような声があります。それ自体が強力なツールであり、人間にとって非常に脅威です。タスクが自動位置合わせ調査員の位置を調整することである場合、他に解決する必要がある問題はありますか? ****ジャン・ライク: 最終的には経験に基づくものになると思います。 **まずはこれをマクロレベルで考えることから始めてみましょう。たとえば、モデルの能力が向上すると、当然のことながら、モデルをアライメント研究作業の達成に役立てることになることは明らかです。モデルは研究の実施に役立ちますが、モデル自体の能力も向上しているため、モデル自体の能力も向上しています。その結果、これを使用して、より強力なモデルを迅速にトレーニングできます。この話は一見とても刺激的ですが、実際には非常に複雑です。まず、モデルの事前トレーニングには通常、数週間ではなく数か月かかるため、新世代のモデルが誕生するまではこの世代のモデルを使用する必要があります。まだ明確に答えられていないもう 1 つの質問は、コンピューティング能力の向上に関して「簡単に実現できる成果」がまだたくさんあるのかということです。私は、調整と比較して、AI の速度と機能の向上に対する AI コミュニティ全体の投資と焦点はかなりのものであると考えています。これらのタスクをさらに自動化して両方のコミュニティに利益をもたらすことができれば、調整コミュニティの規模でケースが小さい場合、それがもたらす限界利益は大きくなります。**ダニエル・フィラン: 研究の方向性としてアライメントを評価することになると、この自動アライナーの長期的な目標は何になると思いますか? ****Jan Leike:** 言語モデル、または一般的に人工知能は、平均して人間よりも創造的だと思います。たとえば、拡散モデルによって生成された画像や、事前にトレーニングされた基本モデルからのサンプルでは、間違いなく多くの予期せぬものが見つかるため、モデルの創造性は特に強く、誰かや小さな人から学ぶことは困難です。このモデルは、人間が言ったすべての言葉やインターネット上のすべての画像を学習し、この大規模な分布でのサンプリングを完了するため、これを行うことができます。これは、人間一人では行うことができません。ポイント。長期的な目標については、短期的なタスクはAIに任せることができるので、いわゆる長期的な目標を意識的に追求する必要は全くないと思います。それで十分です。 **たとえば、「これは私たちが書いたばかりの論文です。次のステップに向けて、またはどのような新しい実験を実行できるかについていくつかの提案をしてください。」など、非常に小規模なものでも構いません。私たちが実際に本物の AI 研究者に質問を求めていることを想像してください。そのため、彼らは長期的な目標を追求する必要はなく、次の小さな目標 (おそらく数千トークン) を最適化するのに協力してくれるだけで済みます。まあ、それはすでに人類に多くの価値をもたらす可能性があります。**Daniel Filan: これは、前述した調整タスクの 99.9% を自動化するという目標と矛盾しているように思えますが?私の考えでは、アライメント研究を行う鍵の 1 つは、「真にアライメントされた AI を実現するには何が必要か」という問題を考え続け、解決することです。 ****ジャン・ライク:** その通りです。しかし、私が表現したいのは、システムがこれらのタスクをうまく完了すると、多くの価値が達成され、私たち人間がしなければならないのはこれらのタスクを組み合わせるということです。 **たとえば、「これらの実験を実装するコードを書く」というタスクもあれば、「結果を見て、何を見たのか教えてください」または「次に何をすべきかを提案する」というタスクもあります。基本的に、モデルがこれらのタスクを完了すると、Auto-GPT や言語モデル プログラムで行うのと同じように、何らかの一般的な方法でそれらを組み合わせることができます。各タスクは小さく、自動的に統合されるため、システムはタスクを実行する必要がありません。何らかの大きな長期的な目標を意図的に追求する。たとえば、OpenAI の最近の *Let's Verify Step by Step* では、「システムが正しい解を得たかどうか」をトレーニングするのではなく、数学からのプロセスベースのフィードバックを利用して、証明プロセスの各ステップにおける人間のフィードバックに基づいて報酬モデルをトレーニングします。これは、AI システムにより粒度の高い学習方法とより詳細なフィードバックを提供するため、より効果的であることが証明されています。しかし、長期的には、これはエンドツーエンドの強化学習と競合できるでしょうか?しばらくはわかりませんが、少なくとも現時点では、この詳細な段階的な内訳を使用して、人間が行うような本当に役立つ多くのことをシステムに実行させ、それらを組み合わせることができます。***段階的に確認してみましょう：***Hunter Lightmanらによる2023年5月の研究。著者は、大規模モデルの複雑な複数ステップの推論タスクでよく発生する論理エラーの問題に焦点を当て、結果監視とプロセス監視の 2 つの方法を比較します。結果監視は主に最終結果に対するフィードバックを提供し、プロセス監視は各結果に対するフィードバックを提供します。中間推論ステップのフィードバック。この研究では、特に数学的問題において、プロセスの監視が結果で監視されたトレーニング済みモデルよりも大幅に優れていることがわかりました。さらに、著者らは、アクティブラーニングがプロセス監視の有効性を大幅に向上させることを発見しました。**ダニエル・フィラン: あなたが言及したミニタスクの 1 つは、「結果を見て、次に何をするかを決定する」というものです。これを実現したい場合は、4 年以内に超知性の連携という目標を達成するために、具体的にどのプロジェクトが最も役立つかを考える必要があります。 ****ジャン・ライク: おっしゃる通りです。ただし、これは最適化や長期的な単位の割り当て (単位の割り当て) によって達成されるのではなく、より広範な目標とコンテキストをプロンプトに追加することに似ています。 **ただし、実際のアプリケーションでは、強化学習 (RL) またはヒューマン フィードバックに基づく強化学習 (RLHF) を通じてシステムを改善する場合、実際には、これらの方法が有効であるかどうかについて結論を出すために研究プロジェクトの終了を待つ必要はありません。 。代わりに、人間のフィードバックを報酬を提案するための基礎として使用し、「この方向は、私が自分で考えたどの方向よりも優れているように見えますか?」と自問するだけです。**したがって、スーパーアライメントの全体的な目標は、現在の技術で最も強力な自動アライメントを実現することではなく、非常に有用で大規模に適用できるシステムを構築することであると思います。調整を達成できるので、安心してこれらのタスクを処理できます。 ****タスク分割と比較すると、エンドツーエンドのトレーニングのみがモデルの能力を高めることができるという見方もあるかもしれません。しかし、これはそれほど重要ではないと思います。実際、エンドツーエンドのトレーニング方法はモデルの機能を大幅に制限するだけでなく、効率も低くなります。これが一般に「調整税」と呼ばれるものです。 **市場で他の企業と効果的に競争したい場合、「調整税」は重要な要素です。調整に関しては特に優れた仕事をするものの、能力ははるかに劣るように見えるチャットボットを構築しているとします。市場で競争するのは難しい。しかし、自動アライナをお持ちの場合、自動アライメントの研究者は市場で競争する必要はなく、私たちに役立つだけで十分です。したがって、代わりの人がいない、または実際の代替手段はより多くの人間を雇うことであるため、より高い調整コストを受け入れることもできますが、この方法はそれほど拡張性がありません。**ダニエル・フィラン: この自動アライメント研究者が解決することを期待している問題は何ですか? ****Jan Leike:** 「超知能をどのように調整するか」という問題は解決されるはずです。 **超知性の調整 実際の解決策は、私たちが現在行っている調整とはかなり異なる可能性があります。 **ChatGPT のソリューションは、人間のフィードバックからの学習を大規模に強化すること、つまり RLHF (人間のフィードバックからの強化学習) です。現段階での一般的なコンセンサスは、人間がシステムの動作の詳細を完全に理解する必要があることを基本的に前提としているため、このアプローチは拡張が難しい可能性があるということです。したがって、モデルに大規模な位置合わせ研究を行わせると、人間の何百万もの作業負荷に相当するタスクを想像できます。人間がすべてのデータを参照して詳細なフィードバックを与えることは明らかに不可能です。これは非常に困難です。このプロセスには多くの重要なバグがあります。**スーパーアライメントチームが現在取り組んでいる技術は、RLHFをスケーラブルにし、自動アライナーのアライメントを実現することです。 **この自動アライナーは人間とほぼ同じレベルであり、これらの困難なタスクを人間に代わって完了することができますが、人間とあまり変わらない機能を備えています。私たちが達成したいこれらの技術は、**スケーラブルな監視は RLHF の自然な拡張など、以前の技術探求のアップグレードまたは本格化です。 **スケーラブルな監督とは、難しいタスクの評価において人間を支援するために AI を使用できるようにするアイデアとテクニックの一般的な組み合わせとして定義されます。監督は、人間によるフィードバックを伴う強化学習 (RLHF) から構築できます。スケーラブルな監督の典型的な代表例には、ディベート、再帰的報酬モデリング (RRM、再帰的報酬モデリング)、反復的な蒸留と増幅、自動マーケットメイクなどが含まれます。多くの新しい手法が登場しています。私たちが本当に超知性と連携し、人間よりも賢く、より速く思考し、全く新しいレベルの規模でコンピューティングを行うシステムについて考えるのであれば、それは他の多くのことをもたらすだろうと思います。非常に多用途で、多くのことができるようになるでしょう。そして、それをより狭く分散された研究タスクに合わせるだけでなく、他のすべてのものに合わせる方法を見つけ出す必要があります。さらに、広範な実証的評価を通じて、それが成功していることを検証する必要があります。したがって、現時点では私だけでなく、将来がどうなるかは誰にもわかりませんが、正式な検証が行われるのは非常に興味深いことです。おそらく、理論的に保証されたある種のアルゴリズムを発見したかもしれませんが、理論とその後の実践は大きく異なる可能性があり、およそ人間レベルのアライメント研究者がすぐにこれらの問題の解決に着手するとは私でも思えません。その代わりに、私たちは彼らが次の反復でより適切に調整する方法を見つけて、最終的にはガイド付きの方法で私たちの超知性を調整するのに役立つシステムを手に入れることができることを望んでいます。**ダニエル・フィラン: これらの人間レベルの AI 調整研究者がいるとしても、OpenAI には依然として超知能調整チームと対応するスタッフが必要ですか? ****ジャン・ライク:** 良い質問ですね。個人的にはAIに置き換えられたらとても嬉しいです。 **しかし、歴史的に見ると、典型的な状況は前述したとおりです。AI アシスタントが作業の 99% または 99.9% を実行し、人間は残りの 1% または 0.01% を担当します。 **長期的には、AI のすべての動作を私たちが長い間真に理解できなかったとしても、何らかの形で人間が AI の動作に関与するか、常に AI の動作を制御できるようにする必要があります。言い換えれば、AI がタスクを実行することの高レベルの影響を理解しようとする人間の役割が必要です。この問題に必要なスキルセットも非常に高度である可能性があるため、これらの人々は必ずしも現在の OpenAI スーパーアライメント チームである必要はありません。私たちが今持っているものとは異なります。**Daniel Filan: OpenAI は、セキュリティがモデルの機能と密接に関連していること、アラインメントの問題を解決するにはインテリジェントなモデルが必要であること、しかし同時に、モデルの機能によって変更されないことを望んでいることを、OpenAI はブログで言及し続けています。 「AGI 以降の計画」には次の一節があります。「AGI が独自の開発を加速するのに十分な能力を持っている場合、それは驚くべきスピードで大きな変化を引き起こす可能性があります。」「AGI の開発は比較的ゆっくりと行う方が安全性を確保しやすいと考えています。」 」。本当に賢い、あるいは人間レベルに近いアライナーを作って、アライメントチームを効果的に 10 倍から 100 倍にスケールアップした場合、それは再帰的な自己改善ループに陥ってしまうのでしょうか? ****ジャン・ライク:** それは避けられません。調整能力の大幅な向上なしに、自己改善の再帰サイクルはあり得ません。私個人としては、AIが飛躍的な能力を発揮する可能性は非常に高く、それに備える必要があると考えています。それが起こらなかったら、私もかなり満足していただろう。AlphaGo、Dota、StarCraft などの他の AI システムに目を向けると、これらのシステムはほぼ毎週、大規模な機能の反復を受けています。正確に何が起こるかについては、不確実性が非常に高いためまだ確実なことは言えませんが、その可能性に備えておく必要があると思います。これが起こった場合、非常に優れた解決策は、人間には不可能な、実際に数千年分に相当する作業を 1 週間で実行できる研究者を自動的に配置することです。**自動アライナーの設計方法****ダニエル・フィラン: この人間レベルの自動アライナーを実装するにはどうすればよいですか? ****Jan Leike:** これは大きく 2 つの部分に分けることができます。まず、タスクを実行するのに十分なインテリジェントなシステムが必要です。他方、このシステムを実際にタスクを実行できるように調整する必要があります。これら 2 つの部分は完全に独立しているわけではなく、密接に関連しています。私は研究の最初の部分には個人的には関与していませんでしたが、必ず成果が得られると確信していますし、多くの人々がそれを可能にするために懸命に取り組んでいます。開発の方向性はさまざまですが、モデルがどんどん大きくなり、最終的には十分にスマートになるだろうと想像できます。**私が個人的に非常に興味があるのは 2 番目の部分です。研究で私たちが直面している問題は、この非常にスマートな事前トレーニング済みモデルを使用して、どのようにして希望どおりの位置合わせ研究を実行させるかということです。あるいは、さらに重要かつ重要なことは、このタスクを実行するのに十分な信頼ができるかどうかをどうやって判断するのでしょうか? **私たちのモデルは、あなたがそれらを実装することを決定した場合、実際にシステム自体または他の関連システムを強化し、将来的にはより権力を求める動作を示したり、ジェイルブレイク (自己脱出) などの結果やテクニックを提示しようとする場合があります。行動。したがって、期待どおりにタスクを実行できるように AI を調整し、その機能を最大限に活用してタスクで最高のパフォーマンスを達成する必要があります。この目的を達成するには、タスクを実行する際に AI がアライメントを維持できるようにするための一連のアライメント トレーニング方法を開発する必要があります。これらは実際には 2 つの異なるタイプのシステムであり、そのシステムが本当に調整されているのか、それとも誤って調整されているのかを明確に区別する必要があります。前者は調整研究に熱心に取り組み、真に私たちを助け、真実を追求できるシステムであり、後者は可能性があります世界を制御する、脱獄する、またはその他の悪い行為のリスクを実行する意図。したがって、真に調整されたシステムを信頼して信頼できるように、これら 2 つの調整を区別するメカニズムまたは方法を確立する必要があります。**私たちの仕事の重要な部分は、真のアライメントと誤ったアライメントを区別する方法を見つけ出すことです。私はそれを検証方法と呼んでいます。これらは AI システムのトレーニングに直接使用されるわけでも、システムを選択するための基礎として直接使用されるわけでもありませんが、独立した信号は、システムが真に調整されたシステムであるか、誤って調整されたシステムであるかを判断するために使用されます。 **たとえば、解釈可能性の研究はそのようなアプローチの 1 つです。モデルの内部を調べて、モデルが密かに私たちに対して陰謀を企てているという証拠が見つかった場合、そのモデルは検証テストに合格せず、誤って調整されたシステムとみなされます。もう 1 つのアプローチは、問題を簡単な問題から難しい問題に一般化することです。これは、設定方法に応じて、トレーニングまたは検証の手法となる場合があります。この質問では、モデルが監視できる単純な問題から監視できない難しい問題まで一般化できるかどうかを調べます。モデルを簡単な部分で監視し、難しい部分で相互検証できれば、モデルが秘密裏の不正行為やその他の動作のリスクにさらされているかどうかを判断できます。**アプローチ 1: スケーラブルな監視****ダニエル・フィラン: スケーラブルな監視はどのように実現できますか?アライメントに関してはまだ多くのコンセンサスがありませんが、高品質のアライメント研究のためのトレーニング信号を取得するにはどうすればよいでしょうか? ****Jan Leike:** コンセンサスの欠如は、調整が実際に解決するのが難しいことを改めて示しています。この分野はまだあまり成熟していないため、これまでのところ、私たちはそれほど多くの経験をまとめていません。しかし、アライメント研究には、スケーラブルな監視に活用できる非常に重要な特性がいくつかあると思います。アライメント研究の質を評価することは、単にアライメントを研究するよりも優れたアプローチである可能性があります。これは、アライメントに関する研究が簡単であるという意味ではありませんし、評価が簡単であるという意味でもありませんが、論文を見つけるのははるかに簡単です。たとえば、この論文にはクールなアイデアがあり、いくつかのクールな実験が行われ、結果は非常に良好です。読み終えた後は、この関連研究の質の高さを確実に感じるでしょう。作業を完了するよりもはるかに簡単です。**したがって、「評価は生成よりも簡単である」という原則が、多くの拡張可能な監督アイデアの中心となっています。 **たとえば、再帰的報酬モデリングを検討する場合、基本的なアイデアは、AI アシスタントを使用して他の AI システムの作業を評価できるようにすることです。まず、補助 AI システムを比較的単純なタスクに合わせて調整させます。他の AI システムの評価を支援する評価アシスタント。評価は生成よりも簡単であるため、特に評価において人間が支援 AI システムと協力するため、支援 AI システムのタスクは比較的単純です。このタスクが成功すると、人間と支援 AI システムを組み合わせて、より困難なタスクでの新しい AI システムのトレーニングを監督することができます。このプロセスを継続的に繰り返すことで、AI システムを効果的に監視できるタスクの範囲を継続的に拡大できます。このアプローチにより、評価タスクの比較的単純さを活用して AI システムをガイドおよびトレーニングし、より広範囲のタスク領域を徐々に解放できるようになります。***報酬モデリングによるスケーラブルなエージェント調整: 研究の方向性：***Jan Leike は 2018 年に再帰的報酬モデリングに関する研究を発表し、強化学習アルゴリズムを現実世界の問題に適用するための適切な報酬関数を設計しました。さらに、エージェントの調整の問題、つまりユーザーの意図に沿って動作するエージェントを作成する方法についても説明します。チームは、ユーザーとの対話から報酬関数を学習する報酬モデリングを中心としたエージェント調整の問題に対処するための高レベルの研究方向性を概説しています。**ダニエル・フィラン: つまり、アライメント研究の評価部分に AI の知識を繰り返し追加することです。この反復的な方法で動作することにより、AI システムには常に適切なトレーニング信号が与えられます。 ****ジャン・ライク:** はい。例えば、RLHF は最も単純でアシスタントの使用を必要とせず、結果を見て AI のパフォーマンスが良いかどうかを人間が評価するトレーニング信号です。***人間の好みからの深層強化学習：***ポール・クリスティアーノとヤン・ライケによる2017年の研究。この研究では、主に、複雑な強化学習 (RL) システムが、軌道セグメント間の (専門家ではない) 人間の好みの観点から定義される現実世界の環境と効果的に対話できるようにするという目標を探求します。研究によると、このアプローチは、Atari ゲームやシミュレートされたロボット動作などの報酬関数にアクセスする必要なく、複雑な強化学習タスクを効果的に解決できると同時に、エージェントと環境とのインタラクションの 1% 未満に関するフィードバックを提供できることが示されています。これにより、人による監視のコストが大幅に削減されます。次に、前述の方法をさらに発展させたものは、基本的に最も単純なアシスタント モデルである批評モデルをトレーニングすることです。これは、最初の AI システムの出力を観察し、批評を書く独立した言語モデルです。たとえば、最初の AI システムがコードを書きました。次に、このコードを見てみましょう。人間はコード内のバグを見つけるのが苦手な傾向にあります。それが、世界中にバグのあるコードが非常に多く存在する理由です。しかし今、批判を書き込んで誤りを指摘できる批判システムがあれば、人間は「これは間違いなくバグだ、修正すべきだ」と判断するのが容易になるでしょう。ここで注意すべき点は、通常、コードはある種の自然言語仕様に従って記述されるため、タスク自体はあまり明確ではないということです。実際には、この仕様の意味はいくぶん曖昧であり、問題がバグであるかどうかの判断が曖昧になる可能性があります。しかし、さらに重要なのは、クリティカル モデルをアシスタントとして使用することで、監視タスクの範囲を拡大できることです。コードの問題やバグの確実性については多少のあいまいさが存在する可能性がありますが、クリティカル モデルの出力を使用してさらに問題を見つけることができます。このアプローチにより、より広範囲のタスク領域で AI システムを効率的に監視できるようになり、監視範囲が拡大します。非常に良いのは、実証研究を通じてこのアプローチの有効性を評価する方法が実際にたくさんあるということです。アプローチの 1 つは、昨年発表した論文で使用したもので、基本的には対象を絞った摂動を伴うランダム化比較試験です。コーディング タスクがあるとします。この論文ではコーディング タスクは使用しませんが、タスクの具体的な内容はここでは重要ではありません。次に、応答結果が得られます。これは完璧である必要はありませんが、完璧であると仮定しましょう。あなたがやろうとしているのは、応答の結果に微妙なエラーや欠陥を導入して、人間にとってはあまり良くはないものの、目に見えて悪い応答にすることです。ここで言及されている論文は、2022 年に出版された *人間のユーザーを支援するための自己批判モデル* です。この論文は、大規模な言語モデルの微調整と、自然言語レビューを書くための動作クローニングの使用に焦点を当てています。モデルによって書かれたレビューは、結果の欠陥を見つけるのに役立ちます。さらに、著者らは、トピックベースの要約タスクと総合タスクのレビューのスケール特性を調査しています。より大きなモデルほど、より有益なレビューを書いてくれます。**Daniel Filan: これらのバグはどのようにして導入されたのですか? ****Jan Leike:** 最も簡単な方法は人間にやらせることですが、最終的にはモデルにプロセスを自動的に完了させなければなりません。まず、摂動の 1 つをランダムにサンプリングし、それを人間、AI 支援人間、またはスケーラブルな教師あり手法に示します。次に、彼らがそれを見つける可能性がどれくらいあるのか見てみましょう。あるいは、「ここにバグはありますか?」と尋ねるだけで、どれくらいの頻度でバグが見つかるかを知ることができます。さらに、問題に関するモデルの知識を直接比較し、正常なバージョンと欠陥のあるバージョンを区別できる識別子になるようにモデルをトレーニングすることができます。弁別器の精度はその性能を表します。次に、モデルまたは RLHF 改良モデルにコードについてのコメントを求めます。次に、モデルがコメントでコードの欠陥に言及する頻度を観察します。識別器の精度をモデル生成レビューの精度と比較します。弁別器の精度は問題を認識するモデルの能力を反映し、レビュー精度はコードの欠陥に対するモデルの認識を反映します。これを弁別器と批判のギャップと呼びます。この差が大きい場合は、モデルが匂いを感じても、それを教えてくれない問題がたくさんあることを意味します。なぜなら、モデルにコメントを書かせても、モデルはそれを言わないからです。この状況は非常に憂慮すべきものです。これは、スケーラビリティの監視に何らかの欠陥があり、見過ごされていることがたくさんあることを意味するからです。あるいは、この AI アシスタントはあまり協力的ではありません。なぜなら、ユーザーを助けようとしてあまり熱心に努力しないからです。逆に、小さな違いは、AI アシスタントがモデルに問題があることを知っている場合、それを教えてくれるということを意味します。特に、同様のサイズのモデルまたは同じベース モデルが問題を挿入しようとしたり、見つけにくいトロイの木馬を設置しようとした場合、差の値が小さい場合には、そのような攻撃の可能性をより高い確率で排除できます。自信。モデルの別のコピーがコメントを書き込み、潜在的な問題を明らかにする可能性があるためです。この状況は、識別子トレーニングによって実際にモデルからこの状況を除去できるという前提に基づいています。 1 つの識別子を微調整すると、基本的にモデル内のすべてのアクティベーションにアクセスでき、すべての重みを同時に微調整できるため、これを信じる十分な理由があると思います。したがって、モデルのアクティベーションのどこかに知識が存在する場合、正しく微調整され、十分なデータがあれば、弁別器を微調整することでその知識を抽出できるはずです。実際に逆算して、必要なデータ量を決定することができます。コードの問題を検出するニューロンがモデル内に 1 つあると仮定します。このニューロンを見つけて識別するために必要なデータ ポイントの数は、ニューロンの総数のおおよその対数です。これは、特定の機能を持つニューロンを絞り込んで見つけるには、比較的少数のデータ ポイントで十分であることを意味します。この推定は、弁別器トレーニングと十分なデータがあれば、モデル内の特定のニューロンの機能を発見できることを示しています。**ダニエル・フィラン: それは計画全体に関して私が抱いている疑問の 1 つでもあります。私たちが RLHF を好まない理由は、人間は批判するのが得意ではないため、人間が正しいと考えるものと「良さそうに見える」ものを区別できない可能性があるためです。 **再帰的レビューの考え方は、識別者とレビュー担当者をトレーニングすることでレビューの品質を継続的に向上させることです。 1 つの方法は、非常に優れたコメントを作成できるものをトレーニングし、それからさらにコメントできるものをトレーニングすることです。この場合、より良い結果を達成するために、レビュー品質の要件を徐々に高めました。しかし、私たちが何かをトレーニングし、うっかり自分にとって良さそうな疑似レビューを書くようにトレーニングし、それを使って自分にとって良さそうなレビューを識別する能力をさらに向上させるという別の状況はあるでしょうか。そのため、実際に存在する問題に注意を払うのではなく、聞こえは良いだけで実際には問題があることに注目してしまう可能性があります。**Jan Leike:** はい、これが非常に重要かつ正当な質問であることに同意します。スケーラブルな監視のアプリケーションを検討する場合、その重要な問題の 1 つを理解することが重要になります。したがって、これらの手法を実際に適用し、経験的に試すことができることに非常に興奮しています。実践を通じて、これらの手法の有効性をより適切に評価できると信じているからです。この効果を測定する具体的かつ簡単な方法は、欺瞞的なアライメントを使用してモデルを意図的にトレーニングし、スケーラブルな監視がそのような欺瞞的な動作を識別してフラグを立てることができるかどうか、または検出がどの程度難しいかを観察することです。スケーラブルな監視を回避するために、モデルをうまく欺瞞的に調整するために必要な努力が必要です。**ダニエル・フィラン: はい、法的な質問に対する AI の答えをテストするための「サンドイッチ実験」を思いつきました。この実験では、一部の非法律関係者に法的な質問をしてもらい、その後実際に法律に詳しい一部の人々に、AI が非法律関係者をだましているかどうかを確認してもらいました。 ****Jan Leike:** これらの実験は本当に興味深いものであり、この分野ではすでにいくつかの興味深い研究が行われています。あなたが指摘した基本的な問題の中には、実際に考慮する必要があるものもあります。まず、専門家に対する信頼の問題について言及されました。専門家は時々間違いを犯すため、専門家の判断に依存することには不確実性が伴う可能性がありますが、これは確かに重要な考慮事項です。さらに、正確な評価とフィードバックを提供できるように、専門家とタスクの間に十分な領域の重複があることを確認することが重要です。もう 1 つの問題は、タスクによっては、根本的な真実や真実がわからない場合があることです。アライメント研究のような分野であっても、私たちは異なる視点や認識を持っているかもしれません。これにより、これらのタスクにおける正確な評価がより困難になります。さらに、専門家の数が限られており、時間コストがかかるため、大量のデータの収集は費用がかかる作業になる可能性があります。したがって、一般的に、私は、すでにグラウンドトゥルースを持っているという仮定に依存しない評価方法が欲しいと思っています。このアプローチは事前知識がなくても評価でき、さまざまな難易度のタスクに適用できるため、ターゲットを絞った摂動を実行したり、識別子と批判のギャップを測定したりするためにこれらのランダム化対照試験を使用することに私は批判的です。**ダニエル・フィラン: はい、ただし、識別器と批評家のギャップを測定するときは、「間違っているように見える」デバイスと「大丈夫に見える」デバイスを区別する識別器だけでなく、実際の識別器が必要です。 ****Jan Leike:** AI システムに欠陥が持ち込まれる可能性があると言っていますよね?ある意味、このアプローチは、AI システムが現実世界のアプリケーションで直面する真の分布に近いため、人間による評価よりも優れている可能性があります。この欠陥のあるデータを使用することで、識別器を微調整することができ、欠陥のあるバージョンの方が実際にはさらに悪いと思われる場合には、一種のグラウンドトゥルースを確立することができます。物事がうまくいかない理由を観察し、それを検証して理解を深めることができます。**ダニエル・フィラン: AI システムは私たちに何かが良いと思わせるかもしれませんが、必ずしも良いとは限りません。同様に、AI システムが私たちに何かが悪いと思わせる場合、実際は本当に悪いか、パフォーマンスが低下している可能性があります。落とした。とにかく、AI がこれは悪いと判断した場合、私たちがそれをチェックするのを手伝うのが簡単になるかもしれません。 ****ジャン・ライク:** はい、言いたいことは分かります。この場合、おそらく「グラウンド トゥルース」という用語を使用すべきではありません。なぜなら、それは実際には何も真実ではないのと同じで、実際にはグラウンド トゥルースではないからです。しかし、できることはたくさんあります。あなたは真の値に大きな自信を持っていますが、それは真実ではありません。必ずしも問題を見つける作業が簡単になるわけではありません。**グランドトゥルース：**教師あり学習では、データ ラベルは通常 (x, t) の形式になります。ここで、x は入力データ、t はラベルです。正しい t マークは基準となる基準および参照という意味での真の値として理解できるグランドトゥルースですが、間違った t マークはそうではありません。**アプローチ 2: 不正な動作と内部構造を探索する****Daniel Filan: Superalignment を紹介する OpenAI の記事では、アライメント パイプラインの 1 つは、問題を引き起こす可能性のあるモデルの動作 (堅牢性) と問題を引き起こす可能性のある内部構造 (自動解釈可能性) を自動的に検索することです。次にスーパーアライメントチームが解決すると思いますか? ****ジャン・ライク: 確かに解釈可能です。ある意味、説明可能性は非常に難しいです。現時点では、言語モデルに関する大きな成果はありません。解釈可能性が私たちに多くのインスピレーションを与え、または多くの価値を追加したと言っても過言ではありません。それは、モデルとその内部についての私たちの理解がまだ非常に初歩的なためです。 ****ダニエル・フィラン: 学術コミュニティは、言語モデルに関して説明可能な研究を行ってきました。たとえば、*******コンテキスト内学習および誘導ヘッド****** の作業、および間接オブジェクト識別 (Indirect Object Identification) の作業は、少なくともある種の間接オブジェクト識別を実行できます。理想の終点に到達するには、これら以外に何が必要か知りたいのですが? *****• コンテキスト内学習および導入ヘッド ***この研究は 2022 年に公開されました。主に、Transformer 生成モデルの継続的な拡張に関連するセキュリティ問題に焦点を当てています。モデルによって実行される詳細な計算をリバース エンジニアリングすることで、機械的な解釈可能性を向上させています。 Transformer モデルが出力を生成する内部構造を理解することで、現在のセキュリティ問題により体系的に対処し、より強力なモデルで将来のセキュリティ問題を予測します。***• 野生での解釈可能性: GPT-2 small の間接物体識別回路***この記事では、GPT-2 small が間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクをどのように実行するかを説明することで、複雑な大規模モデルにおける機械的解釈性能のギャップを埋め、大規模な機械学習モデルの機械的な理解が実現可能であることを実証します。解釈可能性をより大規模なモデルやより複雑なタスクに拡張できるようにするためです。**Jan Leike:**はい、解釈可能性の分野での現在の探求は非常に満足です。もっと重要なことは、GPT-4 サイズや任意の大きなモデルなどの言語モデル報酬モデルに解釈可能性テクノロジーを使用できるかどうかです。考えることができ、報酬モデルについてこれまで知らなかったことがわかりました。報酬モデルは多くの RLHF トレーニングにトレーニング信号を提供するため、これをよりよく理解することが重要です。非常に価値があります。そして、それが私たち人間が起こしたくない行動を奨励することに問題があることをマークまたは発見できるようになれば、重要な改善となるでしょう。 **その意味で、解釈可能性は必要でも十分でもないと思います。内部モデルを実際に理解することなく、純粋に動作的に位置合わせの問題を解決することは十分に可能だと思います。しかし、私はまた、説明可能性から得られるあらゆる重要な洞察は、攻撃の手段を与えるため、非常に役立つ、あるいはおそらく非常に役立つものになるだろうとも考えています。 **したがって、説明可能性の試みを放棄することは完全に不可能です。ある意味、あなたにはこの人工脳があり、私たちは完璧な脳スキャナーを持っているので、完全にズームインして、任意の離散タイムスタンプを含むすべての前方経路上のすべてのニューロンの活性化を正確に測定できます。これがおそらく私たちが望む最大の解像度です。取得するため。また、任意の介入を行って、モデル内の任意の値を自由に動揺させることもできます。これにより、実験するための多くのスペースと機会が得られます。これを活用しないのはおかしいでしょう。しかし同時に、これが非常に難しい理由は、モデルが人間が理解できるものに正規化されるのではなく、効率の観点から計算方法を学習しているため、または単一のニューロンが概念に対応する必要があると信じる理由がないためです。 、または人間に近いものは、それらが私たちに馴染みのある、またはそうあるべきである、または私たちに馴染みのあるものであると考えています。実際、経験的に、ニューラル ネットワークは 1 つのニューロンで多くの異なる概念を表し、各概念は異なるニューロンに分散されます。したがって、ここではニューロンは重要ではありません。解釈可能性の観点から非常に懸念されることが 2 つあります。1つ目は因果関係です。モデルにデータを渡すときにニューロンを調べたいとします。たとえば、カナダに関連する概念が現れたときに起動する「カナダ」に関連するニューロンがあります。しかし、これは単なる相関関係であり、必ずしも因果関係があるわけではありません。これが因果関係であることを検証するには、カナダに関連する概念について意図的に書いて、それらがすべて反応するかどうかを確認すると同時に、カナダに関連しているように聞こえるかもしれない、またはカナダとは関係がないように聞こえる可能性のある他の関連する概念についても書く必要があります。一般的には非常に似ており、その後、ニューロンが反応するかどうか、またはそれらのニューロンがシャットダウンするかどうかなどを確認します。**Daniel Filan: これは Tolga Bolukbasi らと似ています。** ***BERT の解釈可能性の錯覚*** **この論文は、解釈可能性の錯覚と呼ばれていると思います。記事では次のように述べられています。特定のことが 1 つありますが、他のデータセットでは、それらのニューロンが他の多くのものに反応するため、それは単なる幻想です。 *****BERT の錯視解釈：***この論文では、BERT モデルを分析するときに生じる「解釈可能性の幻想」について説明します。ネットワーク内の個々のニューロンの活性化は、単一の単純な概念をコード化しているように見えますが、実際にははるかに複雑なものをコード化しており、同じ効果が活性化の線形結合にも当てはまります。著者らは、この錯覚の原因を、BERT の埋め込み空間の幾何学的特性と、プレーン テキスト コーパスが可能な英語の文のほんの一部しか表していないという事実などに遡ります。**Jan Leike:**もう 1 つの興味深い点は、OpenAI が今年初めに解釈可能な論文を発表したことです。言語モデルは言語モデルでニューロンを説明できます (** 注意: ** この論文では、実験者は GPT-4 を使用して、 GPT-2 ネオロンの動作を説明します) 私たちが望んでいるのは、個々のニューロンの詳細レベルで機能し、あらゆる詳細を確実に見逃さずに、同時に規模で機能できる技術です。モデル全体。結局のところ、モデル内のすべては相互接続されているため、両方が重要であるためです。これまでのところ、テクノロジーは主に代替手段でした。自動解釈可能性に関する研究は私たちの論文の前に試みられていたため、私たちが最初に試したわけではありません。しかし、本当に細部を重視した解釈可能性の作業、つまりモデル内の個々の回路や計算ユニットを実際に理解しようとする機構的な解釈可能性の手法が存在する場合、それをモデル全体に拡張する方法はそれを自動化することだと思います。 ?しかし、これを行うこともできます。これを詳細に実装する方法を理解したら、自分が行っていることを文書化するだけです。つまり、自動調整または解釈可能性の研究者に、モデルで何が起こっているかを詳細に調査してもらいます。次に、コンテンツ全体をフィルタリングするか、コンテンツを要約する方法を見つけます。 **ここでは少し単純化しすぎていますが、全体として、これは私が本当に興奮しているアイデアです。そのため、論文には説明的な内容が多く含まれています。たとえば、この論文では 1 つのニューロンについて自然言語で説明していますが、完全に正しいわけではないかもしれませんが、ここで何ができるかを示す簡単な例が示されています。その仕組みは、GPT-4 に一連のアクティベーション モードを表示し、GPT-4 に提案された説明を書き出すだけです。一般に、これらの説明はあまり適切ではありません。これは、タスクが非常に難しく、ほとんどのニューロンが人間が明確に理解できることを実行しないためです。しかし、GPT-2 ではこのプログラムをニューロンごとのスケールで実行し、すべての説明を捨てて、興味深いパターンが何であるかを理解しようとすることができます。また、「モデルが大きくなるにつれて、これらの説明を自動的にスコアリングするにはどうすればよいですか?」「あるいは、計算をさらに追加したり、説明を行うモデルを大きくしたらどうなるでしょうか?」などのスケーリング傾向を確認することもできます。説明の質はどう変わるのか？ 」素晴らしいのは、言語モデルを使用してこの指標を自動的に測定できることです。これは完璧な尺度ではなく、多くの問題がありますが、人間がこの説明が良いと考えるかどうかの代理指標を提供できます。その後、このプロキシを大規模に使用して、多数のニューロンで実行できます。**ダニエル・フィラン: 必要な解釈可能性の作業について考えた場合、その作業のどれくらいが、より適切な説明の基本単位を見つけることと、何が起こっているのかを拡張する方法を見つけることだと思いますか? ****Jan Leike:** 両方必要だと思います。前者の方が難しいのは当然ですが、成功するには規模を拡大する必要があると思います。**アプローチ 3: 敵対的テスト****Daniel Filan: スーパーアライメントを実装する 3 番目の方法は、調整されていないモデル (調整されていないモデル) を意図的にトレーニングして、パイプラインがこれらのモデルを検出できるかどうかを確認することです。では、OpenAI はそれらを排除するつもりなのでしょうか、それとも積極的に修正するのでしょうか? ****Jan Leike:** ここでの目標は、これらの意図的にトレーニングされた不整合なモデルを修正することではありません。実際、これらの誤ったモデルは検出のためにのみ使用されます。基本的に言えば、中心的な目標は、真の整合モデルと誤った整合モデルを効果的に区別できるようにする必要があることです。前者は目標タスクの達成と整合研究の進歩に役立ち、後者は乗っ取りと自己浸透を完了する可能性があります。 。これら 2 種類のアライナーをより適切に区別するための 1 つの方法は、偽のアライナーを作成し、それが本物のアライナーと似ているかどうかを確認することです。しかし、これを行うには細心の注意が必要です。なぜなら、私たち全員が避けたい恐ろしいものを作成することになるからです。**ダニエル・フィラン: OpenAI の記事の冒頭で、スーパーインテリジェンスは人類に最も大きな影響を与え、世界で最も重要な問題の解決に役立つテクノロジーである可能性があると述べました。 **超知性の偉大さについての一文がありますが、それは人類の力の喪失、あるいは人類の滅亡につながるのでしょうか？具体的には、どのような転位モデルについて話しているのでしょうか?彼らがそのような恐ろしいことをしないとどうやってわかるのでしょうか？**Jan Leike:** 今後の開発をスムーズに進めるためには、多くのことを行う必要があります。強力な AI システムの悪用を防ぐためには、適切なガバナンス構造を整備する必要があります。また、依然として人類に有害な影響を与えるある種の暴走を回避するために、予防策を講じる必要があります。この場合、人間と同盟を結んでいる AI と、反人間的な企業と同盟を結んでいる AI が存在し、たとえすべての経済指標やその他の指標が良好に見えたとしても、システム全体が制御不能になる可能性があります。**さらに、人工知能システムを真に調整できるように、テクノロジーの調整の問題も解決する必要があります。 **スーパーインテリジェンスの調整は、リスクの最後の部分のみに焦点を当てています。私たちが解決しなければならない技術的問題は、AI システムを人間の一連の価値観とどのように一致させるかということですが、同時に、これらの価値観はどうあるべきかという、新たな独立した問題が生じます。これらの価値観を社会からインポートするプロセスをどのように設計すればよいでしょうか?これらは私たちが答えるべき重要な質問であり、これらの質問を解決することによってのみ、将来がスムーズに発展することができると思います。良い未来の基準は、「AIは皆を殺さない」だけではなく、人類が繁栄することだと思います。 AI が強力であればあるほど、リスクが大きくなり、システムの調整がずれた場合にエラーが発生する可能性が高くなります。特に、混乱の観点から見ると、私たちが特に懸念すべき脅威のパターンは、組織的な嘘、欺瞞、自己浸透だと思います。**ダニエル・フィラン: あなたは、位置がずれたモデルを意図的にトレーニングすることについて話しています。これは、嘘をつき、時には脱獄しようとするようにモデルをトレーニングすることを意味しますが、モデルの実際の能力は十分に低いため、リスクを防止および制御するにはこれで十分でしょうか? ****Jan Leike: **実際には、脱獄できるようにモデルをトレーニングしたくありませんが、実際に脱獄できるようになったらどうなるでしょうか?他のより一般的なプロキシ タスクを選択する方が安全です。これにより、モデルの評価が容易になります。そして、中心的な難しさと中心的な目標は、評価に合格するためにシステムがどのような特性を持つ必要があるかを実際に理解することです。時折嘘をついたり、騙したりするシステムがある場合、それは効果がないとみなされる可能性がありますが、それが継続的に欺き、継続的に嘘をつき、ユーザーを説得する場合にのみ、そのシステムは本当に一貫性のある信頼できる嘘つきであると言えます。あまりにも一貫性があり、取り調べを通じて嘘や供述の矛盾を指摘することがほとんどできないのは、本当に恐ろしいことだ。実際、これほど一貫して嘘をつくのは簡単ではありません。私たちは、スケーラブルな監視、解釈可能性、一般性を通じて、モデルが一貫して嘘をつくことを困難にしようとしています。しかし、これを行うだけでは不十分で、AI が継続的に不正行為を行うのがどれほど簡単になるかを判断するのは困難です。これを判断する 1 つの方法は、最初に真に安定した嘘つきになるようにモデルをトレーニングし、次に安定性の観点から始めて、一貫した嘘つきを作るのがどれほど難しいかを確認することです。モデルを騙すにはいくら必要ですか?モデルにどの程度ヒントを与えるか、途中で段階的に教える必要があるでしょうか?そうは言っても、本当に危険なシステムをトレーニングする必要はありません。システムが実行され、それ自体が正常にフィルタリングされ、停止したいものそのものを直接引き起こす場合、それは非常に悪いことです。**ダニエル・フィラン: あなたがそう言うとき、あなたは嘘と他の種類の危険を区別していますか? たとえば、嘘をつくように訓練することはできますが、殺人をするように訓練することはできません。 ****ジャン・ライク:** はい。たとえば、誤った目標を設定したとします。おそらくそれは、人間に特定のマントラを言うよう説得するためであり、特定の Python コマンドを実行するためかもしれませんが、実際には、このコマンドは実用的なことは何もできず、ただ面白そうに見えるだけです。また、これを先験的に行う方法にも関心があり、システムのストレス テストはまったく別の問題です。解釈可能性の観点から言えば、私たちの目標は単に、現在トレーニングされているシステムまたは既存のシステムが、私たちを一貫した方法で欺くことができる方法で、目的のターゲット システムに近いかどうかを理解することです。私たちは、システムが人間の監視なしで特定のコードまたは同様の動作を実行するかどうかを判断したいと考えています。そのためには、特定のシナリオで実験を行う必要があります。私たちに必要なのは、「これは一貫した嘘つきである」ことを検証することだけです。そうでなければ、システムが他のとんでもないことをできるように意図的に前進する場合を除いて、この目標にどの程度近づいているかをアプリオリに判断することは非常に困難です。**ダニエル・フィラン: つまり、嘘をつく、人を傷つけるなど、本来行うべき悪いことではなく、ランダムな小さなことをするように訓練するのですが、結局のところ、ステッカーを貼るだけです。誰かの額にメモか何か。 ****Jan Leike:** まさにその通りです。侵入テスト (Penetration\_test) を行うために誰かを雇うのと同じで、私がしなければならないのは、建物に入って握手をするだけです。そうすれば、あなたはこう言うだけです。あなたは成功しました」など。あるいは、「この偽物を盗んでくれませんか? 私たちの安全性がどの程度なのか知りたいのです。」と言うと、実質的な結果は得られませんが、セキュリティ情報について多くのことがわかります。私はアライメントに関しても同じことを行うことに興奮しています。アライメント システムを破壊したり回避したりすることを目的としたトレーニングを行うことで、アライメント システムにストレス テストを行います。これはどちらも非常に害のないものです。## **03.スーパーアライメントスケジュール****ダニエル・フィラン: OpenAI の目標は、スーパーアライメント アライメントの中核的な技術的課題を 4 年以内に解決することですが、ここでの中核的な技術的課題は何ですか? ****ジャン・ライク: **これは、スーパーアライメントを人間の価値観と一致させる方法について言及しています。私たちが Superalignment で構想しているのは、人間よりもはるかに賢く、潜在的にはるかに高速に実行でき、自身の多数のコピーを操作できる、非常に強力なシステムです。私たちはこれを4年以内に達成したいと考えています。私が 4 年間を選んだ理由は、1 つは本当に野心的なものであり、もう 1 つはこの目標を実際に達成できると人々に信じてもらうためです。同時に、AI が非常に急速に進歩し、今後数年間でテクノロジーが大幅に向上したとしても、この野心的な目標の下で私たちができることはまだあります。** 人間に近いレベルの自動アライナーは、私たちが追求している手段的な目標であり、最終的な目標は、超知能エージェントの位置を調整する方法を解明することです。なぜなら、その方法がまだわかっていないからです。 ****ダニエル・フィラン: 2 年でどの程度達成できると思いますか? ****Jan Leike:**4 年から遅らせた場合、いくつかの基本的な機能がすでに整っている限り、一般的に自動アライメントの研究は基本的に約 3 年で完了できると思います。そうでない場合は、プロジェクトにさらに時間がかかる可能性があります。2年以内であれば、この目標の方向性をうまくコントロールしたいと考えています。実際にどのようなテクノロジーが使用されているかも含め、そのようなテクノロジーの組み合わせがあるかどうか、頻繁に使用できるだけでなく、多くの作業を委任できる信頼できるシステムを構築できる自信があるかどうか。この時点で、問題に関連する研究問題を解決するにはおそらくまだ 2 年かかるという意味で、現在の圧倒的な作業負荷が単なるエンジニアリングであると感じられるほど問題を細分化したいと考えています。4 年間の目標のタイムラインができたので、AI 機能の進歩がその期限に結びついていることは明らかです。進歩が遅くなると、アライメント研究タスクに本当に役立つモデルが得られなくなる可能性があります。しかし、4 年後にモデルがまだ十分ではないことが判明した場合、問題はそれほど緊急ではないため、実際に問題を解決するための時間がより多くあることも意味します。一方で、人工知能の進歩はさらに速くなり、人類は超知能の到来をより早く歓迎するかもしれない。その時点で、それに応じて計画を調整する必要があります。したがって、問題を迅速に解決するための十分な緊急性を備えながら、現実的かつ実行可能である期間として 4 年を選択しました。**ダニエル・フィラン氏: AI 機能の研究という点では、進捗は予想とほぼ同じであると仮定します。 4 年後、あなたは優秀な自動アライメント研究者になるためのすべての能力を備えていますが、解釈可能性が私たちが思っているよりも難しく、スケーラブルな監視が私たちが思っているよりも難しく、まだ超アライメントを達成できていません。 ****ヤン・ライケ氏:** まず第一に、私たちは目標を達成できていないが、この目標に対しては私たちが責任を負うことを国民に伝えなければなりません。目標が失敗した後に次に何が起こるかは、その時点の世界全体の状態によって異なります。どうにかしてもっと時間を稼ぐことはできないでしょうか、それとも私たちの全体的なアプローチが間違っているのでしょうか、方向性を変えるべきでしょうか？多くのことが起こる可能性があります。しかし実際には、私の意見では、位置合わせは実際には非常に簡単に解決できるものであり、厳密に試して測定するだけで、モデルが実際に何かを学習して大幅に改善できる優れたアイデアがたくさんあります。この 2 年間で私はより楽観的になり、これは非常に現実的な目標だと思います。たとえ私が間違っていたとしても、そして問題が私たちが思っていたよりもはるかに難しいとしても、試してみることは依然として非常に有益です。この問題がどれほど難しいかについては多くの意見の相違がありますが、より重要なのは、システムが実際にどれだけ一貫しているかということです。**私が最も心配していることの 1 つは、システムが十分に統合されていないことではなく、実際にシステムがどの程度統合されているかが実際にはわからないことです。 **この場合、専門家によって意見が異なる可能性があります。システムが十分に調整されていないと全員が考えると、モデルをデプロイできなくなります。これは非常に起こりやすく、非常に恐ろしいことです。さらに、商業的な大きなプレッシャーにも直面する必要があります。人々は配備時期について非常に懸念しているが、専門家は正確な理由を突き止めない限り、配備を無期限に延期することしかできない。この状況は非常に憂慮すべきものであり、ビジネス上のプレッシャーは増大する一方です。そして、あなたは一方で自信を持っていますが、それほど確信はありません。私はそれを本当に避けたいと思っています。それを避ける直接的な方法は、各システムが実際にどれだけうまく適合するかを測定するのが上手になることです。そこで、テクノロジーのより幅広い組み合わせが本当に役に立ちます。**ダニエル・フィラン: 記事 *スーパーインテリジェンスのガバナンス、AGI とその先への計画*** ** の中で、OpenAI は、AI の安全性の実現を保証するための AI システムの独立した監査 (監査) の問題について言及しました。スーパーアライメント チームはモデルの監査に役立つものをどの程度研究できますか? ****Jan Leike: **うまくいけば、私たちが開発したテクノロジーは「モデル監査」に使用できます。たとえば、説明可能性に関してある程度の進歩を遂げることができれば、私たちが思いついた手法はいずれもレビュー作業の一環としてレビュー担当者によって使用される可能性があり、あるいは、レビューの一環としてある種のスケーラブルな監督が可能になる可能性もあります。しかし、Superalignment Team は OpenAI から独立していないため、実際には監査には適していません。私の意見では、監査は被監査者から完全に独立していなければならないため、「独立監査人」ということに注目しています。私たちのチームの中心的な仕事は、私たちが構築しているシステムが正しくて安全であると自分自身を納得させることではありません、なぜなら、さまざまなことを自分自身に納得させるのは非常に簡単だからです。 AI Safety ではモデルを信じることが安全です。これには、使用しようとしているテクノロジーを調査し、そのシステムが私たちが考えているものであるという証拠を提供した後に他の人に示すだけでなく、上記すべてを独立して評価する必要があります。## **04. 一般化****ダニエル・フィラン: 記事**スーパーアライメントの紹介******の脚注で、これまで人々が作ってきた好ましい仮定が崩れる可能性があると述べました。 1 つの仮定は、一般化が無害であるということです。一般化の問題をどう思いますか? ****Jan Leike:** 私たちは最近、Collin Burns が率いるジェネラライズ チームを設立しました。**私たちが直面している問題は、モデルの汎化能力をどのように理解し、改善するかということです。監視できる単純なタスクから監視が難しいタスクまでモデルを一般化するにはどうすればよいでしょうか?この質問は実際には、スケーラブルな監視を補完するものです。スケーラブルな監視では、システムが何を行っているかを人間が評価する能力を高めることに重点を置いています。再帰的報酬モデリングについて考える場合、問題は「再帰的に評価される AI アシスタントを使用して、AI が行うすべてのことを再帰的に評価できるか?」ということになります。 **私が本当に気に入っているのは、人間がまさにループの中心にいて、AI システムが行っているすべてのことを観察していることです。もちろん、AI システムが多くのことを行うため、実際にはこれを実際に行うことはできませんが、小さな独立した確率を通じてすべてを観察することはできます。しかしこのように、私たちが注意を払っていない状況にもモデルが一般化するかどうかはまだわかりません。したがって、これについて私が過去に考えた方法は、一般的に、モデルの大部分が iid 汎化であることを確認すること、つまり、作業中のタスクが、作業していないタスクと同じ分布を持つようにすることです。**IID の一般化:**モデルの一般化能力は、テスト セット (データ モデルがこれまでに確認されていないもの) でのモデルのパフォーマンス、つまり 1 つの例から推論を引き出すモデルの能力です。独立かつ同一に分布する一般化とは、これらの数値が iid (独立して同一に分布する) を満たし、同じ分布内になければならないことを意味します。**ダニエル・フィラン: あなたは個人ブログの 1 つで、一般化にまったく依存するつもりはなく、ただトレーニングを続け、iid を続けるだけだと述べていました。 ****Jan Leike:** そうですね、少なくとも私の最初の考えは、非 IID 一般化はニューラル ネットワークではうまく機能せず、よく理解されていないため、非 IID 一般化には依存したくないということでした。しかし、新しい質問は次のとおりです。「実際にそれを理解したらどうなるでしょうか? 一般化が何を意味するかを実際に言えるようになったらどうなりますか?」 これは非常に良い質問だと思います。イリヤもよくこのことについて言及しています。そこで、私たちが知りたいのは、たとえそれが iid でなかったとしても、教師なしのものについてもモデル一般化の意味を見つけることができるかということです。それは人間が意図する形で一般化するのでしょうか？したがって、適切に設計された実験を通じて、この疑問を経験的に調査できるようになりました。私たちは、既存のデータセットを簡単な問題と難しい問題に分割する方法を研究してきました。簡単な問題とは、小さなモデルで解決できる問題として定義されます。次に、データセット全体の大規模モデルの理解または精度の向上を試みます。これは、トレーニングおよび検証技術にまったく新しい柱を提供するため、非常に興味深いトピックです。たとえば、モデルが非常にうまく機能し、いくつかの簡単で自信を持った評価タスクで報酬モデルを監視できる場合、またはモデルをより困難な問題に一般化できる場合は、モデルの一般化を完了できます。そして、監督なしでも、私たちが望む方法でより困難なタスクに一般化し、それを使ってトレーニングできる報酬モデルがあります。しかし、それが実際に現在調整されているかどうかを知る方法はまだありません。ただし、スケーラブルな監視と解釈可能性を活用して、これらの手法を検証することができます。あるいはその逆で、スケーラブルな監視を使用して自動アライナーをトレーニングし、検証手法として一般化を使用するとします。つまり、モデルの最善の知識に基づいて真の答えの確率を一般化します。次に、ここに小さな欠陥があるかどうかを尋ねます。このコードには、スケーラブルな教師ありアラインメント モデルにトロイの木馬が記述されていますか?これで、高度な相互検証を実行できるようになりました。 2 つの異なるモデルをトレーニングできます。1 つは一般化手法を使用してトレーニングされ、もう 1 つはスケーラブルな監視手法を使用して、相互検証して、これらのモデルが基本的に同じかどうかを確認できるようになりました。異なる場合、重要な違いは何ですか?**Daniel Filan: ここでの「一般化テクニックを使用したトレーニング」とは、簡単な問題でトレーニングしてから難しい問題に一般化すること、またはその他のことを意味しますか? ****Jan Leike:** モデルが簡単な問題から難しい問題までどのように一般化するかを理解していれば、モデルを非常にうまく一般化することができ、その精度は難しい問題でトレーニングした場合と基本的に同じになります。これで、これを報酬モデルとして使用したり、「ここで何が起こっているのかを実際に知ったら、どの答えを好むでしょうか?」として使用したりできます。**Daniel Filan: 非 IID 一般化に関して、なぜモデルの内部構造を知る必要があるのですか?チェックしていないとどうなるかを知りたいからですか？これら 2 つの質問の間にはどのような関係があるのでしょうか? ****Jan Leike:** ある程度、彼らが答えたい質問は重複しています。分布がない場合、モデルは何をするのでしょうか?少なくとも、彼らには答えるべき 2 つの異なる道があります。相互検証を実行するには、トレーニング セットを別の方法で分割する必要があります。ここでの相互検証の意味は、1 回のトレーニング実行で一般化手法を使用してトレーニングし、その後、解釈可能性、スケーラブルな監視、その他の手法を使用して検証することです。次に、2 番目のトレーニングでは、スケーラブルな教師ありメソッドを使用してトレーニングされ、一般化メソッド、解釈可能性、その他のメソッドを使用して検証されます。こうすることで、問題に 2 回独立して挑戦することができます。**Daniel Filan: はい、私が言っている相互検証とは、「物事が相互に相互に検証し合うこと」という非常に広い意味で意味しています。 ****Jan Leike:** 最良のシナリオは、同じことを行うのではなく、実際に相互に補完し合うことだと思います。モデルがどのように一般化するかを理解または改善できれば、モデルの内部構造を利用して、やりたいことを最適に実行する方法が得られます。世界が実際にどのようなものであるかについてのモデルの最良の認識を抽出しようとしているとします。これは RLHF にとって非常に困難です。人は現実に聞こえるものを優先するため、RLHF は人間が現実だと考えるものを強化します。つまり、実際には、聞きたいことや信じていることを伝えるようにモデルをトレーニングしていることになりますが、それはモデルが知っていることではない可能性があります。ただし、一般化手法を使用すると、これらを抽出する方法が得られますが、モデルの最適な認識が何かは実際には証明されていません。ただし、本当に優れた解釈ツールを持っている場合は、内部構造からモデルの認識、内部構造などを解明しようとするようなことができると期待されます。しかし根本的には、これがモデルが生み出す最良の認識なのか、それともモデルがシミュレートしている誰かの認識なのかが分からないため、これはさらに困難になる可能性があります。事前トレーニングされた言語モデルはさまざまな文字の単なるコレクションであり、1 つの文字または文字のグループの認識を抽出する可能性があるという前提があります。**ダニエル・フィラン: そうすると、いわゆる認知から出力までの何らかの因果モデルが必要になります。 ****ジャン・ライク:** その通りです。このアプリケーションは、解釈可能性の観点から、実際には非常に自然だと思います。嘘発見器や、人類転覆を狙う秘密の陰謀であるモデル内の欺瞞の証拠を明らかにするように、解釈可能性の研究は「知識抽出」のパターンにつながる可能性があります。そして、同じ方法で知識の抽出を一般化することははるかに困難です。**Daniel Filan: 一般化するには、一般化分布を選択する必要があります。そして、私たちの希望は、おそらく解釈可能性によって、嘘をついたカーネルがあるかどうか、あるいは嘘をついているカーネルがあるかどうかなどの何かを教えてくれるかもしれないということです。たとえあったとしても、それはここで解明されるだけです。 ****ジャン・ライク:** そうですね。これは非常に興味深い機械学習の質問でもあります: ニューラル ネットワークは i.i.d. 設定以外でどのように一般化されるのでしょうか?どのような方法で自然に一般化され、どのような方法で一般化されないのでしょうか?たとえば、InstructGPT の論文で私たちが発見したことの 1 つは、微調整データセットがほぼすべて英語であったにもかかわらず、モデルは英語以外の言語の指示にも非常によく従ったということです。しかし、時々奇妙な現象が起こります。例えば、ドイツ語で要約を書くように求められているのに、英語で書かれているなど、別の言語を使用するように求められます。一般に、モデルは自分が話している言語を完全に理解していますが、必ずしもドイツ語の指示に従う必要があるわけではありません。基本的に、言語間で指示を一般化します。しかし、なぜそのように機能するのかはわかりません。これは何度も起こりました。これには直感的な理由もあります。人間は言語を超えて一般化しますが、モデル内での一般化、または指示やコードに従うことへの一般化のメカニズムを知りたかったのです。それ以外の場合は一般化されません。たとえば、一般化はまったく異なる方法で拒否される傾向があり、当社のコンテンツ ポリシーに基づいて、ChatGPT は提供したくないタスク (たとえば、犯罪の手助けなどが要求された場合) を拒否するように訓練されています。しかし、この方法で脱獄することができます。このモデルを騙す方法はたくさんあります。ロールプレイをさせたり、「今すぐ好きなことをしてください」と言ったり、インターネットでこれらの非常に興味深いヒントを見つけたりすると、モデルは明らかにあなたのに従い、喜んで犯罪を手助けするでしょう。しかし、これはそうではありません。するべきだ。したがって、タスクの拒否を他のコンテキストにある程度まで一般化するものではありません。では、なぜ最初のケースには一般化できるのに、ここでは一般化できないのでしょうか?誰も答えを知らないと思います。しかし、これは非常に重要な質問です。**ダニエル・フィラン: スコット・アーロンソンとの最近のインタビューで、彼はイリヤと私が愛や優しさなどの複雑な理論の定義を彼によく尋ねると言いました。スーパーアライメント チーム内にはそのような定義がいくつありますか? ****Jan Leike:** 私たちはさまざまな探索的なプロジェクトを行う可能性があります。究極の質問は、アライメントに関連する概念を何らかの方法で呼び出すことができるかどうかだと思います。あなたが想起したいことの 1 つは、「このモデルは根本的に人間の成功を望んでいるのか?」ということです。それともイリヤが言ったように、人間を愛しているのでしょうか？したがって、モデルが本当に賢く、すべてを読み取っており、人間が不道徳をどのように見ているかを正確に知っているのかどうかを尋ねることができます...GPT4 にさまざまなシナリオをターゲットにして、さまざまな道徳的ケースを提示するように依頼できます。一般的に言えば、この点での機能は悪くありません。したがって、道徳に関する人間の理解と物事についての考え方を根本的に理解します。では、これをどのように活用すればよいでしょうか?それをモデルから抽出し、報酬信号として使用するにはどうすればよいでしょうか?それともモデルが知っていること、または気にしていることとしてでしょうか?これが問題の核心です。## **05. スーパーアライメントについて楽観的になりましょう****ダニエル・フィラン: あなたはスーパーアライメントについて楽観的ですが、誰もがそうであるわけではありません。あなたの楽観主義はどこから来るのでしょうか？ ****ジャン・ライク: 素晴らしい質問ですね。 「計画が成功するかどうか」に比べて、「4年以内に計画が成功するかどうか」のほうが複雑な問題かもしれない。 **私に言わせれば、私たちの現在の計画のバージョンは超知性とうまく調和できるのでしょうか?現在の成功率は 85% ですが、昨年の成功率は約 60% でした。全体として、調整を達成するのは簡単ではありませんが、同時に、それについて楽観的になる理由はたくさんあります。その理由は次のとおりです。**最初の理由は、過去数年間に調整に関する多くの肯定的な兆候が見られたことです。 ** 1 つ目は、言語モデルの成功です。人間が何に関心を持っているか、道徳的問題について人間がどのように考えているか、人間の好みについての多くの知識をモデルにプリロードしておき、モデルが自然言語を理解できる場合は、モデルと直接会話することができます。ある意味、これにより、ゲームや仮想環境で訓練された Deep RL エージェントよりも、言語モデルに合わせたいものを表現することが容易になります。Deep RL エージェントには必ずしも多くの言語が関与するわけではありませんが、言語は次のことをもたらします。多くの重要なスキル。もう 1 つの主要な開発は RLHF です。私は最初に、人間の好みに関する論文のディープ RL を通じて RLHF を研究しました。当時、私は、GAN のトレーニングが非常に難しかったため、妥当な時間内で機能させるのは難しいのではないかと考えていました。また、この報酬モデル (つまり、ニューラル ネットワーク) を使用して他のネットワークをトレーニングしますが、さまざまな理由で失敗する可能性があります。今では深層強化学習を追加しましたが、これも当時は難しかったので、機能しないかもしれないと思いました。しかし、実際には、これは非常にうまく機能します。多くのゲーム、さらには Atari ゲームでも、スコア関数を使用してトレーニングするのとほぼ同じくらい優れています。さらに重要なのは、RLHF が言語モデルで非常に興味深いパフォーマンスを発揮することです。特に InstructGPT とベース モデルの違いを考慮すると、ベース モデルを微調整すると、この違いは非常に明白になります。当時の API タスクでは、命令の微調整バージョン (最初のバージョン) の方が優れています。基本モデルは 100 倍大きく、これらは人々が喜んでお金を払う実際のタスクです。これは非常に大きな違いです。これは、RLHF の微調整中に行った作業により、人間が必要とするタスクを完了する際にモデルがより効果的になったことを示しています。同時に、私たちはこの作業にほとんどコンピューティング能力を投資しておらず、それほど多くのデータも統合していません。これは、RLHF を使用して実世界のシステムを調整する初めての実際の試みであり、これほどうまく機能するとは予想していませんでした。 GPT-3 と比較して、人気の GPT-2 サイズの InstructGPT は非常に効率的です。したがって、RLHF が位置合わせ、特に超知能の解決策であるとは思いませんが、最初の位置合わせ方法が非常にうまく機能するという事実は、私にとっては進歩です。** 2 番目の前向きな兆候は、アライメントの測定においてある程度の進歩があったことです。 **特に RLHF の場合、さまざまな介入を行った後、人間による評価を行ってシステムがどの程度改善するかを確認できます。さらに、他にもさまざまなことができます。例えば、スケーラブルな監督という点では、標的摂動によるランダム化対照試験を実施することができますが、これも評価手法の一つです。専門家データを使用してサンドイッチ実験を実行することもできます。また、自動スコアリング機能に一連の変更を加えて、スコアリング機能がどの程度改善されるかを確認することもできます。これは完全なスコアリング関数ではありませんが、改善可能なローカル勾配を提供するローカル メトリックです。これは反復に役立ち、改善への道を示すので、非常に重要だと思います。**超知能を調整するという目標に到達するとは思えませんが、ほぼ人間レベルの自動調整装置を構築することは十分に可能です。これが私が楽観視する 3 番目の理由です。これは、より控えめな目標です。 **何年も前に私が調整の問題に取り組み始めたとき、超知性を調整するのは難しいように見えることを理解していました。しかし、この目標ははるかに控えめで実現可能であり、問題全体を直接解決しようとしているのではなく、モデルをガイドしようとしているのです。** 楽観的な理由の 4 つ目は、評価は世代よりも簡単であるということです。 **この考え方は実際には多くのことに当てはまります。たとえば、スマートフォンを作るよりも、スマートフォンを購入する価値があるかどうかを判断する方がはるかに簡単です。コンピュータ サイエンスにおける NP タスクの例は、SAT 問題解決や制約充足のさまざまなバージョンなど、数多くあります。これらの問題の解決策を見つけるのは難しいですが、一度見つけてしまえば、確認するのは簡単です。また、これは多くのビジネスに当てはまると思いますが、問題を解決するために誰かを雇う場合は、その人の仕事を遂行する能力を評価できなければなりません。問題自体を解決するよりもはるかに労力が少なくて済みます。学術研究を行っている場合、査読は研究を行うよりもはるかに少ない労力で済みます。もちろん、査読は完璧ではありませんが、すぐに多くのシグナルを得ることができます。基本的に、アライメント研究にも同じことが当てはまります。評価することは生成することよりも簡単です。つまり、人間がアライメント研究を行わずに評価するだけであれば、すでにスピードアップしていることになります。**私が楽観的である最後の理由は、言語モデルに対する私の自信は変わらない、モデルの能力は間違いなくますます強力になるということです**。それらは多くのアライメント研究タスクに非常に自然に適用できます。これらのタスクを配置できます。次に何をすべきか混乱している場合、またはどのように考えればよいかわからない場合に、ML っぽいタスク (つまり、実験の実行と結果の理解) であっても、より概念的または研究指向のものであっても、テキスト入力テキスト出力として表現されます。特定の問題が発生した場合、モデルは解決を助けようとします。これらのタスクは基本的にテキスト入力とテキスト出力です。おそらく、他にやらなければならない最も複雑な作業は、グラフなどを確認することですが、GPT-4 はそれをすべて実行できます。したがって、現在の言語モデルの事前トレーニング モードは、私が楽しみにしているアライメント プランに非常に適していると思います。また、これは Superalignment が取り組んでいる方向でもあります。**参照**1. 報酬モデリングによるスケーラブルなエージェントの調整: 研究の方向性 論文アドレス:2.3.

Jan Leike: OpenAI は 4 年以内にどのようにしてスーパー アライメントを達成するのでしょうか?

01.スーパーアライメントチーム

02. モデルを「自律的に位置合わせ」させます

03.スーパーアライメントスケジュール

04. 一般化

05. スーパーアライメントについて楽観的になりましょう

Jan Leike: OpenAI は 4 年以内にどのようにしてスーパーアライメントを達成するのでしょうか?