すべてを直接圧縮してください! OpenAI の主任科学者 Ilya Sutskever 氏は教師なし学習を次のように考えています

2023-08-21 01:46:52

出典: ハート・オブ・ザ・マシン

画像クレジット: Unbounded AI によって生成‌

最近、OpenAI の主任科学者である Ilya Sutskever 氏は、計算理論の研究に重点を置いている Simons Institute で講演しましたが、一言で言えば、教師なし学習を圧縮された観点から見ることができます。さらに、彼は他にも多くの興味深い洞察を共有しました。マシンの心臓部は、読者が教師なし学習をより深く理解できるようにするために、スピーチの一般的な内容を整理しました。

スツケヴァー氏はまず研究の方向性の変化について語り、「少し前に、私は研究の焦点をすべてAIアライメント研究に移しました。これは、OpenAIが少し前に設立した「Superalignment（スーパーアライメント）」チームです。彼はヤン・ライクと共同でこの組織を率いています。 Sutskever 氏は、AI の調整に関していくつかの研究結果を達成したと述べましたが、これはこの講演で焦点を当てるトピックではありません。

今回の講演のテーマは「一般化に関する観察（一般化に関する観察）」で、Ilya Sutskever氏は教師なし学習を説明する理論について具体的に語っています。

まず、イリヤ・サツケヴァーは「学習」について一連の広範な質問を投げかけます。「学習とは正確には何ですか?」学ぶことがなぜ役立つのでしょうか?なぜ学ぶことが役に立つのでしょうか？なぜコンピューターには学習能力が必要なのでしょうか?なぜニューラルネットワークは学習できるのでしょうか?なぜ機械学習モデルはデータの法則を学習できるのでしょうか?学習を数学的な用語で説明できるでしょうか?

教師あり学習

Sutskever 氏は教師あり学習から始めます。彼によると、教師あり学習に関しては、数年前に数人の研究者の成果として正式な研究が行われており、これらの成果は統計学習理論と呼ばれることが多いとのことです。

教師あり学習の利点は、学習を成功させるための正確な数学的条件を提供できることです。つまり、何らかのデータ分布からのデータがあり、低学習損失を達成でき、十分な学習データ (データ分布よりも自由度が高い) がある場合、テスト誤差は低くなければなりません。

数学的には、関数のクラス内でより低いトレーニング損失を達成する関数が見つかった場合、学習は成功しているはずです。したがって、教師あり学習は非常に簡単です。

研究者は関連研究でいくつかの定理を発見しました。以下に例を示します。スツケヴァー氏は、定理を説明するには5分ほどかかるだろうと述べたが、どうやら彼の講演時間は限られているようだ。

全体として、この定理は「エレガント」であり、わずか 3 行の数学的導出で教師あり学習プロセスを示しています。

したがって、教師あり学習は比較的よく理解されています。私たちはそれが機能する理由を知っています。大規模な教師あり学習データセットを収集できる限り、モデルはますます改善されると確信できます。もちろん、別の点も非常に重要で、テストの分布がトレーニングの分布と一致していることを保証することです。この方法でのみ、教師あり学習理論は効果的になります。

したがって、教師あり学習の概念は非常にシンプルです。また、なぜ教師あり学習が機能するのかについてもすでに答えを持っています。音声認識と画像分類が効率的で数学的に保証された教師あり学習に基づいているため、なぜ機能するのかがわかっています。

ちなみに、ここでイリヤ・サツケヴァーはVCの次元について言及しました。彼は、統計学習理論の多くの研究者は VC 次元が重要な要素であると信じているが、VC 次元の目的はモデルが無限の精度でパラメーターを処理できるようにするために発明されたものであると述べました。

たとえば、線形分類器の各パラメーターの精度は無限大ですが、実際には浮動小数点数の精度が制限されており、精度が低下する場合、VC 次元を通じていくつかの関数を実装し、この線形分類器を変換できます。は、前の式で説明された教師あり学習形式に変換されます。

教師なし学習とは何ですか?

次に教師なし学習を見てみましょう。そもそも教師なし学習とは何でしょうか？ Ilya Sutskever 氏は、教師なし学習について満足のいく説明がまだ見つかっておらず、それを数学的に推論する方法が分からず、せいぜい直観的な判断しかできないと述べました。

教師なし学習は、機械学習分野の長年の夢でした。 Sutskever 氏は、この目標は実験研究で達成されていると考えています。実験研究では、モデルがその内容を知らされずにデータを調べ、その中にある実際の有用な隠れた構造を発見します。

どうしてそうなった？これが起こると確信できますか?サツケヴァー氏は、教師なし学習には教師あり学習と同じ理論的保証がないため、それはできないと述べています。

人々は 1980 年代以来、同様の用語を使用して教師なし学習を研究してきました。実験では、データ量が少ない場合、教師なし学習の現象が現れないことが観察されましたが、BERT、拡散モデル、昔ながらの言語モデルなど、いくつかの一般的な開発アイデアが登場しています。当時の教師なし学習でも優れたサンプルを生成できましたが、もちろん今日のテクノロジーほど優れたものではありませんでした。

しかし、教師なし学習がどのように機能するかがわからないため、常に混乱を引き起こしてきました。

たとえば、特定の目標 (画像再構成や次の単語の予測など) に向けて最適化する場合、別の目標 (画像分類や文書分類など) も考慮する可能性があり、モデルはこの最適化されていない目標でも適切に機能する可能性があります。 . 良いパフォーマンスが得られます。しかし、なぜ？わかりませんが、それは実験の結果です。スツケヴァー氏は、それはまるで魔法のようだったと語った。

私たちは理論を放棄して実証主義に突き進むつもりですか？

教師なし学習とは、入力分布の構造を学習し、そこから目標の達成に役立つ何かを取得することであることがわかっています。しかし、入力分布が一様分布の場合はどうなるでしょうか?現時点では、さまざまな教師なし学習アルゴリズムは失敗します。この現象をどのように扱うべきでしょうか?スツケヴァー氏は、いくつかの仮定を置く必要があると言う。

教師なし学習方法: 分布マッチング

次に、Sutskever 氏は、教師なし学習についての潜在的な考え方を示しています。この教師なし学習法はまだ主流になっていないが、非常に興味深いと氏は述べた。これは教師あり学習と同様の特性を持ち、効果的である必要があります。なぜ？これには、分布マッチングと呼ばれる教師なし学習プロセスが含まれます。

次に簡単に説明させていただきます。 2 つのデータソース X と Y があり、それらの間に対応関係がない場合、モデルの目標は、F(X) の分布が Y の分布に近似するような関数 F を見つけることです。これが F に対する制約です。

この制約は、機械翻訳や音声認識などの多くのアプリケーションシナリオにとって意味がある可能性があります。たとえば、英語の文の分布がある場合、関数 F を使用した後、フランス語の文の分布に近い分布が得られれば、F の真の制約を取得したと言えます。

X と Y の両方の次元が十分に大きい場合、F には多数の制約がある可能性があります。実際、これらの制約から完全な F を回復できる場合もあります。これは教師なし学習の教師あり学習の例であり、教師あり学習が機能する必要があるのと同様に、これも機能する必要があります。

さらに、置換暗号もこのフレームワークに適合します。

スツケヴァー氏は、2015年にこの現象を独自に発見したと述べた。それは彼に、教師なし学習を意味のある数学的形式で記述できるかもしれないと考えさせました。

もちろん、上記の機械翻訳シナリオは、実際のアプリケーション状況に準拠しない単純化された人工シナリオであり、対応する教師なし学習シナリオも当然同じです。

次に、Sutskever 氏は、教師なし学習を数学的に説明し、教師なし学習の結果が良好であることを保証できる、彼の提案した方法について説明します。

ご存知のとおり、圧縮は予測であり、すべての圧縮器を予測器に変換したり、その逆も可能です。アンサンブル圧縮器とアンサンブル予測器の間には 1 対 1 の対応関係があります。

Sutskever 氏は、教師なし学習についての考え方をより明確に説明するには、議論の圧縮の側面を使用することが有利であると指摘しました。

これに基づいて、彼はある思考実験を行った。

ハードドライブ上に 2 つのファイルである 2 つのデータセット X と Y があり、優れた圧縮アルゴリズム C があるとします。また、X と Y に対してジョイント圧縮を行う、つまり、最初にそれらを連結してから、それをコンプレッサーに供給するとします。

ここで重要な疑問は、十分な性能を備えたコンプレッサーで何ができるのかということです。

Sutskever 氏は、非常に直観的な答えを出しました: コンプレッサーは X に存在するパターンを使用して Y を圧縮し、その逆も同様です。

同氏は、予測タスクのシーンでも実際に同様の現象があるが、圧縮されたコンテキストで言うほうが直感的であると述べました。

コンプレッサーが十分に優れている場合、連結されたファイルの圧縮結果は、分割された圧縮結果よりも劣ることはありません。

したがって、連結によってさらに圧縮されるのは、コンプレッサーが認識するある種の共有構造です。コンプレッサーが優れているほど、より多くの一般的な構造を抽出できます。

2 つの圧縮結果の違いは、共有構造、つまりアルゴリズムの相互情報量です。

同様に、Y は教師ありタスクのデータ、X は教師なしタスクのデータと考えることができ、この情報について何らかの形式の数学的推論ができます。X のパターンを使用して Y タスクを支援できます。

それが分布マッチングにどのように一般化されるかにも注目してください。ディストリビューションのマッチングの場合、X が言語 1、Y が言語 2 で、あるディストリビューションから別のディストリビューションに変換する単純な関数 F が存在する場合、優れた圧縮プログラムはこれにも注目し、それを利用して次の関数を実行します。内部的に機能を復元することも可能です。

このようにして、閉ループが形成されます。では、教師なし学習を数学的な形式でどのように説明できるのでしょうか?

教師なし学習の数学的定式化

このセクションの説明では、圧縮シナリオと予測シナリオの説明を同じ意味で使用していることに注意してください。

まず、Y を圧縮する役割を持つ機械学習アルゴリズム A があるとします。アルゴリズム A は X にアクセスできます。 X を文書番号 1、Y を文書番号 2 とします。機械学習アルゴリズム/コンプレッサーで Y を圧縮し、必要に応じて X を使用できるようにしたいと考えています。目標は、Y を可能な限り圧縮することです。

次に、このアルゴリズムを使用することの最大の後悔 (後悔) は何ですか? と自問する必要があります。

スツケヴァー氏は、「もし私が良い仕事をしていて、後悔が少なければ、このラベルなしデータから得られるすべての助けを得ていることを意味します。ラベルなしデータは可能な限り役に立ちました。」と説明しました。それについては後悔していません。」これは、より優れた圧縮アルゴリズムを実現できるより優れた予測子が存在しないことを意味します。「ラベルのないデータを最大限に活用しました。」

Sutskever 氏は、これが教師なし学習について考えるための重要なステップであると考えています。教師なしデータセットが実際に役立つかどうかはわかりませんが、教師あり学習アルゴリズムの後悔が少ない場合は、最良の結果が得られ、これ以上の結果はあり得ません。

さて、ややあいまいな理論的領域に入ります。

コルモゴロフの複雑性を究極の圧縮器として使用すると、リリバースが極めて低いアルゴリズムが得られますが、計算可能ではないため、実際にはアルゴリズムではありません。

コルモゴロフの複雑さについて簡単に説明しましょう。これは、あなたが私にデータを与えて、それを圧縮するために可能な限り短いプログラムを提供するようなものです。コルモゴロフの複雑さは、この最も短いプログラムの長さに等しい。

C を計算可能な圧縮器とすると、すべての X について、コルモゴロフ圧縮器の複雑さは、圧縮器 C の任意の出力に圧縮器の実装に必要なコード文字数を加えたものよりも小さくなります。

これはシミュレーション引数を使用して証明できます。非常に優れたコンプレッサー C があるとします。その場合、それはコンピュータープログラムである可能性があります。このコンピュータープログラムが K に渡されて実行される場合、K に必要なコストはこのプログラムの長さになります。コルモゴロフコンプレッサーは他のコンピュータープログラムや他のコンプレッサーをシミュレートできるため、計算可能ではありません。これは、すべてのコンピュータープログラムをエミュレートする無料プログラムのようなものですが、可能な限り最高のコンプレッサーでもあります。

次に、追加情報を使用するためにコルモゴロフコンプレッサーを一般化します。コルモゴロフコンプレッサーは計算可能でも決定可能でもありませんが、すべてのプログラムを検索するようなものであることがわかっています。これは、プログラムを検索するためにニューラルネットワークを使用して SGD (確率的勾配降下法) 経由でパラメーターを調整するのと似ています。このプロセスは、特定のリソース (メモリ、ステップ数) を備えたコンピューター上で実行されます。これは、非常に小さなコルモゴロフコンプレッサーのようなものです。両者には類似点があります。

ニューラルネットワークは、ループ/回路を備えた小さなコンピューターであるアプレットをシミュレートできます。 SGD を使用して、これらのコンピュータをトレーニングして、データからその「回路」を見つけることができます。

シミュレーションからの議論はここにも当てはまります。より優れたニューラルネットワークアーキテクチャを設計したい場合は、接続の追加や変更は他のニューラルネットワークアーキテクチャによってシミュレートできるため、それが難しいことがわかりますが、実際にはそれが困難です。これらは大幅な改善につながる可能性があるまれなケースであるためです。 RNN から Transformer への移行と同じです。 RNN には隠れ状態というボトルネックがあります。しかし、RNN に非常に大きな隠れ状態を持たせる方法を見つけることができれば、そのパフォーマンスは再び Transformer に追いつくかもしれません。

したがって、次のように条件付きコルモゴロフ複雑度を教師なし学習の解決策として使用できます。

ここで、C は計算可能な圧縮器、K(Y|X) は X が使用できる場合に Y を出力する最短のプログラムの長さです。

これは、計算可能ではありませんが、有用なフレームワークを提供する、教師なし学習のための非常に後悔の少ないソリューションです。

すべてを直接圧縮してください。

Sutskever 氏はさらに一歩進んで、「すべてを直接圧縮する」ことも可能だと述べています。

条件付きコルモゴロフ複雑度 K(Y|X) は、X に基づいて Y を圧縮するため、機械学習のコンテキストでは不自然ですが、少なくとも現時点では、大規模なデータセットで条件付けすることはほとんど不可能です。大規模なデータセットを適合させることはできますが、条件を付けるのは困難です。

そして上記は、あなたが監視している何か Y について予測を行いたい場合、X と Y で連結されたデータを圧縮する通常のコルモゴロフコンプレッサーは、条件付きコンプレッサーと同様に機能します。もちろん、実際の詳細にはさらに微妙な点がありますが、これが実際に意味するのは、通常のコルモゴロフコンプレッサーを使用して教師なし学習を解決できるということです。すべてのデータを連結して圧縮を実行するだけで、良い結果が得られます。監督タスクで取得されます。

この証明はさらに複雑なので、ここでは説明しません。

重要な結論は、定期的なコルモゴロフ圧縮 (特定のデータセットの条件なし) が、ラベルなしデータの「可能な限り最善の使用法」であるということです。これが教師なし学習の解決策です。

共同圧縮が最大の可能性です

Sutskever 氏が講演で述べた最後の点は、過学習がない限り、この関節の圧縮が最も可能性が高いということでした。

データセットがある場合、指定されたパラメーターの尤度の合計が、そのデータセットを圧縮するコストになります。パラメータを圧縮するコストも支払います。 2 つのデータセットを圧縮したい場合は、データセットにデータポイントを追加するだけで問題ありません。つまり、上記の合計演算合計に項目を追加するだけです。

したがって、データを連結することによる結合圧縮は、機械学習のコンテキストでは非常に自然なアプローチです。対照的に、条件付きコルモゴロフ複雑さを渡すことははるかに面倒です。

ニューラルネットワークがどのように機能するかを説明するために使用することもできます。大規模なニューラルネットワークには、大規模なプログラムサーチャーとして SGD を使用できます。ニューラルネットワークが大きくなるほど、通常のコルモゴロフコンプレッサーをより適切に近似できます。 Sutskever 氏は、「おそらくこれが、私たちが大規模なニューラルネットワークを好む理由です。実現不可能な通常のコルモゴロフコンプレッサーのアイデアを後悔することなく近似できるからです。ニューラルネットワークがますます大きくなるにつれて、後悔は増大するでしょう。」とコメントしました。

この理論は GPT モデルにも当てはまりますか?

これに対する Sutskever の答えは「はい」ですが、圧縮や教師あり学習に関する記述を引用せずに GPT モデルの動作を説明するには、GPT の「理論」はテキストの条件付き分布について推論することで得られると言えます。

では、この理論をテストするための他の直接的な検証方法を見つけることはできるでしょうか?視覚など他の領域の観点から説明できますか?これをピクセルデータに対して実行すると、良好な教師なし学習が得られるでしょうか?

Sutskever氏は、iGPTはすでに2020年にそのような研究を行っていると述べた。もちろん、これは主に概念実証研究であり、実用化までの道のりは長いですが、詳細については、論文「Generative Pretraining from Pixels」を参照してください。

この論文は、優れた次のステップの予測変数を作成できれば、優れた教師なし学習を実現できることを示しています。この論文は画像分野での主張を証明する。

簡単に言うと、まず画像を一連のピクセルに変換します。各ピクセルは個別の濃度値を持ちます。必要なのは、同じ Transformer を使用して次のピクセルを予測することだけです。これは、圧縮を最大化する可能性が高いため、次のトークンを予測する BERT とは異なります。

結果を見てみましょう:

示されているように、これはさまざまなサイズの iGPT モデルに対する CIFAR-10 の線形プローブ精度、つまり教師なし学習のピクセル予測タスクの次のステップの予測精度です。次のピクセルの予測は、次の単語の予測と同じくらい効果的であることがわかります。教師なし学習は、モデルのサイズが大きいほど効果的に機能します。

彼らは実験研究を実施し、ImageNet 上では、さまざまな方法で拡張された iGPT のパフォーマンスが最先端の教師あり学習に近づくことができるものの、まだいくつかのギャップがあることを発見しました。

しかし、Sutskever 氏は、SimCLR などの教師あり学習手法では大きな高解像度画像が使用され、巨大な Transformer (68 億パラメータ) に対して 64 × 64 の小さな画像が提供されるため、これは計算上の問題であると考えています。それは、大規模なデータセットに基づいて教師なしの方法で次のピクセルを予測し、ImageNet 上で線形プローブをフィッティングするようなもので、優れた結果が得られます。

CIFAR-10 では、以下の図に示すように、13 億 6,000 万個のパラメーターを備えた iGPT-L は 99% の精度を達成しました。

線形表現

講演の最後に、Sutskever 氏は線形表現について話したいと言いました。

「私は圧縮理論が好きです。なぜなら、以前は教師なし学習について厳密な方法で考える方法がなかったからです。」と彼は言います。今ではそれがある程度できるようになりました。しかし、圧縮理論では、なぜ表現が線形分離可能であるのかを直接説明することはできませんし、線形プローブが存在する必要があることも説明できません。線形表現は遍在しており、その形成の理由は深いはずです。スツケヴァー氏は、将来的にはそれを明確に表現できるようになるだろうと信じている。

彼が興味深いと感じたもう 1 つの点は、線形表現の点で自己回帰モデルが BERT よりも優れていることです。しかし、その理由はまだ不明です。

しかし、Sutskever 氏は、以前のすべてのピクセルに基づいて次のピクセルを予測するとき、モデルはデータの長期構造を観察する必要がある、と彼自身の推測を述べました。 BERT はベクトルを処理するときに一部のピクセルトークンを破棄し、過去と未来の両方を考慮することで、モデルは実際に非常に優れた予測を得ることができます。このようにして、すべての難しいタスクが削除され、タスクの難易度が大幅に軽減されます。次のピクセルを予測する最も困難な予測タスクは、BERT 予測の場合の最も困難な予測タスクよりもはるかに困難です。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

1 いいね