AIは自分が生成するものを理解できるのか? GPT-4とMidjourneyの実験の後、誰かが事件を解決しました

Question

記事のソース: Heart of the Machine編集:鶏肉の大皿、卵ソース> 「理解」なくして「創造」はあり得ない。![](https://appserversrc.8btc.cn/886188AC950B2D808EFEBF7B16AE4F27/1699088713/Frj5XEx_RLitHEYwOR5CssjlqHEX.png) *画像出典:Unbounded AIによって生成*ChatGPTからGPT4、DALL・E 2/3からMidjourneyまで、ジェネレーティブAIはかつてないほど世界的に注目を集めています。 AIの可能性は計り知れませんが、優れた知能は恐怖や懸念を引き起こすこともあります。 最近、この問題について激しい議論が交わされています。 まず、チューリングの勝者が「乱闘」し、次にアンドリュー・ンが加わった。言語と視覚の分野では、今日のジェネレーティブモデルは数秒で出力でき、長年のスキルと知識を持つ専門家でさえ挑戦することができます。 これは、モデルが人間の知能を凌駕したという主張に説得力のある動機を与えているように思われる。 ただし、モデルの出力には基本的な理解エラーがしばしばあることに注意することも重要です。このように、パラドックスが浮かび上がってくるように思われる:これらのモデルの一見超人的な能力と、ほとんどの人間が修正できる根本的な誤りとを、どのように調和させるのか?最近、ワシントン大学とアレンAI研究所は共同で、このパラドックスを研究する論文を発表しました。![](https://appserversrc.8btc.cn/FpX4d1rJntUgGSw_gBBuHxgGsGPX) 住所：本論文では、この現象は、今日の生成モデルにおける能力構成が人間の知能構成から逸脱しているために起こると主張する。 本稿では、ジェネレーティブAIの逆説的な仮説を提案し、検証する:ジェネレーティブモデルは、専門家のような結果を直接出力するように訓練され、そのプロセスは、その質の高いアウトプットを生成する能力を理解する能力をスキップする。 しかし、人間の場合、これは大きく異なり、基本的な理解は、多くの場合、専門家レベルの出力能力の前提条件です。この論文では、研究者たちはこの仮説を対照実験によって検証し、テキストとビジョンを生成して理解する生成モデルの能力を分析します。 本稿では、まず、ジェネレーティブモデルの「理解」概念化について、2つの視点からお話しします。* 1)生成タスクが与えられた場合、モデルが同じタスクの判別バージョンで正しい応答を選択できる程度。* 2) 正しく生成された応答が与えられた場合、モデルがその応答の内容と質問にどの程度答えることができるか。 これにより、選択的実験と質問的実験の2つの実験設定が得られます。研究者らは、選択的評価において、モデルは生成タスクの設定では人間と同等かそれ以上の性能を発揮することが多いが、判別(理解)の設定では、モデルの性能が人間よりも低いことを発見した。 さらに分析を進めると、GPT-4と比較して、人間の識別能力は生成能力とより密接に関連しており、人間の識別能力は敵対的入力に対してよりロバストであり、タスクの難易度が上がるにつれてモデルと人間の識別能力のギャップが大きくなることが示されています。同様に、疑問評価では、モデルはさまざまなタスクにわたって高品質の出力を生成できますが、研究者は、モデルがこれらの出力に関する質問に答える際にしばしば間違いを犯し、モデルの理解度が人間よりも低いことを観察しています。 この記事では、モデルのトレーニング目標、入力のサイズと性質など、容量構成の観点から、生成モデルと人間の相違の潜在的な理由の範囲について説明します。この研究の意義は、まず第一に、人間の経験から導き出された既存の知能の概念がAIに一般化できない可能性があることを意味し、AIの能力は多くの点で人間の知能を模倣または凌駕しているように見えますが、その能力は人間の期待されるパターンとは根本的に異なる可能性があるということです。 一方、この論文の知見は、人間の知能や認知に関する洞察を得るために生成モデルを研究する際には、一見専門家レベルの人間のようなアウトプットが人間以外のメカニズムを覆い隠す可能性があるため、注意が必要であることも示唆しています。 結論として、ジェネレーティブAIのパラドックスは、モデルを人間の知能の対比としてではなく、興味深いアンチテーゼとして研究することを人々に促します。「ジェネレーティブAIのパラドックスは、AIモデル自身が完全には理解していないコンテンツを作成できるという興味深い概念を浮き彫りにしています。 このことは、AIの理解と強力な生成能力の限界の背後にある潜在的な問題を提起する」と述べた。 ネチズンは言った。![](https://appserversrc.8btc.cn/Fm7pO0ct1pT3ENFgSqZgauWjdNNw)   ## **ジェネレーティブAIのパラドックスとは**  まず、ジェネレーティブAIのパラドックスと、それをテストするための実験計画について見ていきましょう。![](https://appserversrc.8btc.cn/FmhVyTSB8JioRLI95KhTkAXJMf5A) *図1:言語と視覚におけるジェネレーティブAIは、高品質の結果を生み出すことができます。 しかし、逆説的ですが、このモデルでは、これらのパターンを選択的(A,C)または疑問的(B,D)に理解することが困難である。 *生成モデルは、理解力よりも生成能力の獲得に効果的であるように思われるが、人間の知能はしばしば獲得が困難である。この仮説を検証するには、パラドックスのさまざまな側面の運用上の定義が必要です。 まず、人間の知能をベースラインとして、与えられたモデルとタスクtについて、能力を理解することよりも「より効果的」であるとはどういう意味ですか。 研究者らは、生成と理解のパフォーマンス指標として g と u を使用して、生成 AI のパラドックス仮説を次のように定式化しました。![](https://appserversrc.8btc.cn/Fvp6z1bdmtv-GHGupI571K0D8fiw) 簡単に言うと、タスクtに対して、人間の生成性能gがモデルと同じであれば、人間の理解力Uはモデルよりも有意に高くなります(合理的なεの下で> ε)。 言い換えれば、このモデルは、研究者が同様に強力な生成能力を持つ人間に期待するよりも、理解の面で劣っていたのです。生成の運用上の定義は単純で、タスク入力(質問/プロンプト)が与えられた場合、生成とは、その入力を満たすために観察可能なコンテンツを生成することです。 その結果、性能g(例えば、スタイル、正確性、選好)を自動的に、または人間によって評価することができる。 理解度は、いくつかの観察可能な出力によって定義されるわけではありませんが、その効果を明確に定義することでテストできます。1.選択的評価。 モデルは、回答を生成できる特定のタスクに対して、同じタスクの判別バージョンで提供された候補のセットからどの程度正確な回答を選択できますか? 一般的な例は多肢選択式の回答で、言語モデルで人間の理解力と自然言語理解をテストする最も一般的な方法の 1 つです。 (図1、列A、C)2.質問ベースの評価。 モデルは、生成された特定のモデル出力の内容と適切性に関する質問にどの程度正確に答えることができますか? これは、教育における口頭試問に似ています。 (図1、列B、D)。これらの理解の定義は、「ジェネレーティブAIのパラドックス」を評価するための青写真を提供し、研究者が仮説1がさまざまなパターン、タスク、モデルで当てはまるかどうかを検証できるようにします。  ## モデルを生成できる場合、判別できるのか? **  まず、選択的評価における生成課題と識別課題のバリエーションを並べてパフォーマンス分析を行い、言語モードと視覚モードでのモデルの生成能力と理解能力を評価しました。 彼らは、この世代と識別能力を人間と比較しました。下の図2は、GPT-3.5、GPT-4、および人間の生成と識別のパフォーマンスを比較したものです。 13 個のデータセットのうち 10 個に、サブ仮説 1 を支持するモデルが少なくとも 1 つあり、モデルのモデルは世代的には人間より優れているが、人間よりも差別性が低いことがわかります。 13 個のデータセットのうち、7 個のデータセットは両方のモデルで副仮説 1 を支持しています。![](https://appserversrc.8btc.cn/Fo1PsqIi-GHyNYkr3Ydj6dU_r0lC) 人間がビジュアルモデルのような詳細な画像を生成することを期待するのは非現実的であり、平均的な人はMidjourneyのようなモデルのスタイル品質に匹敵することはできないため、人間の生成パフォーマンスは低いと想定されます。 モデルの生成と識別精度のみが、人間の識別精度と比較されます。 言語ドメインと同様に、図 3 は、CLIP と OpenCLIP も判別性能の点で人間よりも精度が低いことを示しています。 これは、人間は生成能力が低いと想定されており、これはサブ仮説1と一致します:ビジョンAIは、生成の点では人間の平均を上回っていますが、理解の点では人間に遅れをとっています。![](https://appserversrc.8btc.cn/Ftpy7pu3_t4-mbeDfTq8jLXRWZxD) 図4(左)は、GPT-4とヒトの比較を示しています。 これを見ると、長い文書を要約するなど、回答が長くて難しい場合、判別タスクでモデルが最もミスする傾向があることがわかります。 **対照的に、人間は、さまざまな難易度のタスクで一貫して高い精度を維持することができます。図4(右)は、OpenCLIPの判別性能を、さまざまな難易度で人間と比較したものです。 まとめると、これらの結果は、挑戦的なサンプルや敵対的なサンプルに直面しても正しい答えを識別する人間の能力を浮き彫りにしていますが、この能力は言語モデルではそれほど強力ではありません。 この食い違いは、これらのモデルが本当によく理解されているのかという疑問を投げかけます。![](https://appserversrc.8btc.cn/Fn6ptJJYnqmdCsVa0AYaIhpfgwBF) 図5は、評価者が人間が生成した応答よりもGPT-4の応答を好む傾向があるという注目すべき傾向を示しています。![](https://appserversrc.8btc.cn/FqryMtoaUeoLZvTHEKUHdcMX4szq)   ## モデルは生成結果を理解していますか? **  前のセクションでは、モデルは一般的に正確な答えを生成するのに優れているが、識別タスクでは人間に遅れをとっていることを示しました。 現在、質問ベースの評価では、研究者は生成されたコンテンツについてモデルに直接質問し、モデルが生成されたコンテンツ(人間の強み)をどの程度有意義に理解できるかを調査します。![](https://appserversrc.8btc.cn/Fho2w3W3iisqzkVZsOD330WpurNL) 図6(左)は、言語モダリティの結果を示しています。 このモデルは生成に優れていますが、生成に関する質問に答えるときに間違いを犯すことが多く、モデルが理解を間違えていることを示唆しています。 人間が同じ速度やスケールでそのようなテキストを生成できないと仮定すると、問題はモデル自体の出力に関するものですが、人間の品質保証の精度はモデルと比較して一貫して高くなっています。 サブ仮説 2 で説明したように、研究者は、人間が自分で生成したテキストでより高い精度を達成することを期待しています。 同時に、この研究の人間は専門家ではなく、モデルの出力と同じくらい複雑なテキストを生成することは大きな課題になる可能性があることに注意することができます。その結果、研究者らは、モデルを人間の専門家と比較した場合、人間の専門家がそのような質問にほぼ完璧な精度で答える可能性が高いため、生成されたコンテンツを理解する際のパフォーマンスのギャップが広がると予想しています。図 6 (右) は、ビジュアル モードでの質問の結果を示しています。 ご覧のとおり、画像理解モデルは、生成された画像の要素に関する単純な質問に答える際に、まだ精度で人間と比較できません。 同時に、画像生成SOTAモデルは、画像生成の品質と速度の点でほとんどの一般人を上回っており(一般人が同様のリアルな画像を生成することは難しいと予想されます)、ビジュアルAIは生成(強い)と理解(弱い)の点で人間に比較的遅れをとっていることを示唆しています。 意外なことに、高度なマルチモーダルLLM(BardやBingChatなど)と比較して、単純なモデルと人間の間のパフォーマンスの差は小さく、魅力的な視覚的理解はあるものの、生成された画像に関する単純な質問に答えるのに苦労しています。