まず、Y を圧縮する役割を持つ機械学習アルゴリズム A があるとします。アルゴリズム A は X にアクセスできます。 X を文書番号 1、Y を文書番号 2 とします。機械学習アルゴリズム/コンプレッサーで Y を圧縮し、必要に応じて X を使用できるようにしたいと考えています。目標は、Y を可能な限り圧縮することです。
条件付きコルモゴロフ複雑度 K(Y|X) は、X に基づいて Y を圧縮するため、機械学習のコンテキストでは不自然ですが、少なくとも現時点では、大規模なデータセットで条件付けすることはほとんど不可能です。大規模なデータセットを適合させることはできますが、条件を付けるのは困難です。
そして上記は、あなたが監視している何か Y について予測を行いたい場合、X と Y で連結されたデータを圧縮する通常のコルモゴロフ コンプレッサーは、条件付きコンプレッサーと同様に機能します。もちろん、実際の詳細にはさらに微妙な点がありますが、これが実際に意味するのは、通常のコルモゴロフ コンプレッサーを使用して教師なし学習を解決できるということです。すべてのデータを連結して圧縮を実行するだけで、良い結果が得られます。監督タスクで取得されます。
すべてを直接圧縮してください! OpenAI の主任科学者 Ilya Sutskever 氏は教師なし学習を次のように考えています
出典: ハート・オブ・ザ・マシン
最近、OpenAI の主任科学者である Ilya Sutskever 氏は、計算理論の研究に重点を置いている Simons Institute で講演しましたが、一言で言えば、教師なし学習を圧縮された観点から見ることができます。さらに、彼は他にも多くの興味深い洞察を共有しました。マシンの心臓部は、読者が教師なし学習をより深く理解できるようにするために、スピーチの一般的な内容を整理しました。
スツケヴァー氏はまず研究の方向性の変化について語り、「少し前に、私は研究の焦点をすべてAIアライメント研究に移しました。これは、OpenAIが少し前に設立した「Superalignment(スーパーアライメント)」チームです。彼はヤン・ライクと共同でこの組織を率いています。 Sutskever 氏は、AI の調整に関していくつかの研究結果を達成したと述べましたが、これはこの講演で焦点を当てるトピックではありません。
今回の講演のテーマは「一般化に関する観察(一般化に関する観察)」で、Ilya Sutskever氏は教師なし学習を説明する理論について具体的に語っています。
教師あり学習
Sutskever 氏は教師あり学習から始めます。彼によると、教師あり学習に関しては、数年前に数人の研究者の成果として正式な研究が行われており、これらの成果は統計学習理論と呼ばれることが多いとのことです。
教師あり学習の利点は、学習を成功させるための正確な数学的条件を提供できることです。つまり、何らかのデータ分布からのデータがあり、低学習損失を達成でき、十分な学習データ (データ分布よりも自由度が高い) がある場合、テスト誤差は低くなければなりません。
数学的には、関数のクラス内でより低いトレーニング損失を達成する関数が見つかった場合、学習は成功しているはずです。したがって、教師あり学習は非常に簡単です。
研究者は関連研究でいくつかの定理を発見しました。以下に例を示します。スツケヴァー氏は、定理を説明するには5分ほどかかるだろうと述べたが、どうやら彼の講演時間は限られているようだ。
したがって、教師あり学習は比較的よく理解されています。私たちはそれが機能する理由を知っています。大規模な教師あり学習データセットを収集できる限り、モデルはますます改善されると確信できます。もちろん、別の点も非常に重要で、テストの分布がトレーニングの分布と一致していることを保証することです。この方法でのみ、教師あり学習理論は効果的になります。
ちなみに、ここでイリヤ・サツケヴァーはVCの次元について言及しました。彼は、統計学習理論の多くの研究者は VC 次元が重要な要素であると信じているが、VC 次元の目的はモデルが無限の精度でパラメーターを処理できるようにするために発明されたものであると述べました。
**教師なし学習とは何ですか? **
次に教師なし学習を見てみましょう。そもそも教師なし学習とは何でしょうか? Ilya Sutskever 氏は、教師なし学習について満足のいく説明がまだ見つかっておらず、それを数学的に推論する方法が分からず、せいぜい直観的な判断しかできないと述べました。
教師なし学習は、機械学習分野の長年の夢でした。 Sutskever 氏は、この目標は実験研究で達成されていると考えています。実験研究では、モデルがその内容を知らされずにデータを調べ、その中にある実際の有用な隠れた構造を発見します。
どうしてそうなった?これが起こると確信できますか?サツケヴァー氏は、教師なし学習には教師あり学習と同じ理論的保証がないため、それはできないと述べています。
しかし、教師なし学習がどのように機能するかがわからないため、常に混乱を引き起こしてきました。
私たちは理論を放棄して実証主義に突き進むつもりですか?
教師なし学習方法: 分布マッチング
次に、Sutskever 氏は、教師なし学習についての潜在的な考え方を示しています。この教師なし学習法はまだ主流になっていないが、非常に興味深いと氏は述べた。これは教師あり学習と同様の特性を持ち、効果的である必要があります。なぜ?これには、分布マッチングと呼ばれる教師なし学習プロセスが含まれます。
この制約は、機械翻訳や音声認識などの多くのアプリケーション シナリオにとって意味がある可能性があります。たとえば、英語の文の分布がある場合、関数 F を使用した後、フランス語の文の分布に近い分布が得られれば、F の真の制約を取得したと言えます。
X と Y の両方の次元が十分に大きい場合、F には多数の制約がある可能性があります。実際、これらの制約から完全な F を回復できる場合もあります。これは教師なし学習の教師あり学習の例であり、教師あり学習が機能する必要があるのと同様に、これも機能する必要があります。
さらに、置換暗号もこのフレームワークに適合します。
スツケヴァー氏は、2015年にこの現象を独自に発見したと述べた。それは彼に、教師なし学習を意味のある数学的形式で記述できるかもしれないと考えさせました。
もちろん、上記の機械翻訳シナリオは、実際のアプリケーション状況に準拠しない単純化された人工シナリオであり、対応する教師なし学習シナリオも当然同じです。
次に、Sutskever 氏は、教師なし学習を数学的に説明し、教師なし学習の結果が良好であることを保証できる、彼の提案した方法について説明します。
ご存知のとおり、圧縮は予測であり、すべての圧縮器を予測器に変換したり、その逆も可能です。アンサンブル圧縮器とアンサンブル予測器の間には 1 対 1 の対応関係があります。
Sutskever 氏は、教師なし学習についての考え方をより明確に説明するには、議論の圧縮の側面を使用することが有利であると指摘しました。
ここで重要な疑問は、十分な性能を備えたコンプレッサーで何ができるのかということです。
Sutskever 氏は、非常に直観的な答えを出しました: コンプレッサーは X に存在するパターンを使用して Y を圧縮し、その逆も同様です。
同氏は、予測タスクのシーンでも実際に同様の現象があるが、圧縮されたコンテキストで言うほうが直感的であると述べました。
コンプレッサーが十分に優れている場合、連結されたファイルの圧縮結果は、分割された圧縮結果よりも劣ることはありません。
2 つの圧縮結果の違いは、共有構造、つまりアルゴリズムの相互情報量です。
同様に、Y は教師ありタスクのデータ、X は教師なしタスクのデータと考えることができ、この情報について何らかの形式の数学的推論ができます。X のパターンを使用して Y タスクを支援できます。
このようにして、閉ループが形成されます。では、教師なし学習を数学的な形式でどのように説明できるのでしょうか?
教師なし学習の数学的定式化
このセクションの説明では、圧縮シナリオと予測シナリオの説明を同じ意味で使用していることに注意してください。
次に、このアルゴリズムを使用することの最大の後悔 (後悔) は何ですか? と自問する必要があります。
スツケヴァー氏は、「もし私が良い仕事をしていて、後悔が少なければ、このラベルなしデータから得られるすべての助けを得ていることを意味します。ラベルなしデータは可能な限り役に立ちました。」と説明しました。それについては後悔していません。」 これは、より優れた圧縮アルゴリズムを実現できるより優れた予測子が存在しないことを意味します。 「ラベルのないデータを最大限に活用しました。」
Sutskever 氏は、これが教師なし学習について考えるための重要なステップであると考えています。教師なしデータセットが実際に役立つかどうかはわかりませんが、教師あり学習アルゴリズムの後悔が少ない場合は、最良の結果が得られ、これ以上の結果はあり得ません。
さて、ややあいまいな理論的領域に入ります。
コルモゴロフの複雑さについて簡単に説明しましょう。これは、あなたが私にデータを与えて、それを圧縮するために可能な限り短いプログラムを提供するようなものです。コルモゴロフの複雑さは、この最も短いプログラムの長さに等しい。
これはシミュレーション引数を使用して証明できます。非常に優れたコンプレッサー C があるとします。その場合、それはコンピューター プログラムである可能性があります。このコンピューター プログラムが K に渡されて実行される場合、K に必要なコストはこのプログラムの長さになります。コルモゴロフ コンプレッサーは他のコンピューター プログラムや他のコンプレッサーをシミュレートできるため、計算可能ではありません。これは、すべてのコンピューター プログラムをエミュレートする無料プログラムのようなものですが、可能な限り最高のコンプレッサーでもあります。
次に、追加情報を使用するためにコルモゴロフ コンプレッサーを一般化します。コルモゴロフ コンプレッサーは計算可能でも決定可能でもありませんが、すべてのプログラムを検索するようなものであることがわかっています。これは、プログラムを検索するためにニューラル ネットワークを使用して SGD (確率的勾配降下法) 経由でパラメーターを調整するのと似ています。このプロセスは、特定のリソース (メモリ、ステップ数) を備えたコンピューター上で実行されます。これは、非常に小さなコルモゴロフ コンプレッサーのようなものです。両者には類似点があります。
シミュレーションからの議論はここにも当てはまります。より優れたニューラル ネットワーク アーキテクチャを設計したい場合は、接続の追加や変更は他のニューラル ネットワーク アーキテクチャによってシミュレートできるため、それが難しいことがわかりますが、実際にはそれが困難です。これらは大幅な改善につながる可能性があるまれなケースであるためです。 RNN から Transformer への移行と同じです。 RNN には隠れ状態というボトルネックがあります。しかし、RNN に非常に大きな隠れ状態を持たせる方法を見つけることができれば、そのパフォーマンスは再び Transformer に追いつくかもしれません。
したがって、次のように条件付きコルモゴロフ複雑度を教師なし学習の解決策として使用できます。
これは、計算可能ではありませんが、有用なフレームワークを提供する、教師なし学習のための非常に後悔の少ないソリューションです。
** すべてを直接圧縮してください。 **
Sutskever 氏はさらに一歩進んで、「すべてを直接圧縮する」ことも可能だと述べています。
この証明はさらに複雑なので、ここでは説明しません。
共同圧縮が最大の可能性です
Sutskever 氏が講演で述べた最後の点は、過学習がない限り、この関節の圧縮が最も可能性が高いということでした。
したがって、データを連結することによる結合圧縮は、機械学習のコンテキストでは非常に自然なアプローチです。対照的に、条件付きコルモゴロフ複雑さを渡すことははるかに面倒です。
ニューラル ネットワークがどのように機能するかを説明するために使用することもできます。大規模なニューラルネットワークには、大規模なプログラムサーチャーとして SGD を使用できます。ニューラル ネットワークが大きくなるほど、通常のコルモゴロフ コンプレッサーをより適切に近似できます。 Sutskever 氏は、「おそらくこれが、私たちが大規模なニューラル ネットワークを好む理由です。実現不可能な通常のコルモゴロフ コンプレッサーのアイデアを後悔することなく近似できるからです。ニューラル ネットワークがますます大きくなるにつれて、後悔は増大するでしょう。」とコメントしました。
**この理論は GPT モデルにも当てはまりますか? **
これに対する Sutskever の答えは「はい」ですが、圧縮や教師あり学習に関する記述を引用せずに GPT モデルの動作を説明するには、GPT の「理論」はテキストの条件付き分布について推論することで得られると言えます。
Sutskever氏は、iGPTはすでに2020年にそのような研究を行っていると述べた。もちろん、これは主に概念実証研究であり、実用化までの道のりは長いですが、詳細については、論文「Generative Pretraining from Pixels」を参照してください。
簡単に言うと、まず画像を一連のピクセルに変換します。各ピクセルは個別の濃度値を持ちます。必要なのは、同じ Transformer を使用して次のピクセルを予測することだけです。これは、圧縮を最大化する可能性が高いため、次のトークンを予測する BERT とは異なります。
結果を見てみましょう:
彼らは実験研究を実施し、ImageNet 上では、さまざまな方法で拡張された iGPT のパフォーマンスが最先端の教師あり学習に近づくことができるものの、まだいくつかのギャップがあることを発見しました。
CIFAR-10 では、以下の図に示すように、13 億 6,000 万個のパラメーターを備えた iGPT-L は 99% の精度を達成しました。
線形表現
講演の最後に、Sutskever 氏は線形表現について話したいと言いました。
彼が興味深いと感じたもう 1 つの点は、線形表現の点で自己回帰モデルが BERT よりも優れていることです。しかし、その理由はまだ不明です。
しかし、Sutskever 氏は、以前のすべてのピクセルに基づいて次のピクセルを予測するとき、モデルはデータの長期構造を観察する必要がある、と彼自身の推測を述べました。 BERT はベクトルを処理するときに一部のピクセル トークンを破棄し、過去と未来の両方を考慮することで、モデルは実際に非常に優れた予測を得ることができます。このようにして、すべての難しいタスクが削除され、タスクの難易度が大幅に軽減されます。次のピクセルを予測する最も困難な予測タスクは、BERT 予測の場合の最も困難な予測タスクよりもはるかに困難です。