騙された? GPT-4には実は推理能力がない？！

Question

整理 | Tu Min出品 | CSDN（ID：CSDNnews）![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4ca4684bfe-dd1a6f-1c6801) *画像の出典: Unbounded AI ツールによって生成*今年 3 月、OpenAI は GPT-4 大型モデルをリリースしました。これは、ChatGPT の背後にある GPT-3.5 よりも強力な推論、計算、および論理機能をもたらし、ユニバーサル使用の急増も引き起こしました。さまざまな分野の研究者、開発者、設計者を起用する過程で、「GPT-4が最も有力な大型モデルである」という認識が定着したようだ。しかし、8月7日、マサチューセッツ工科大学を卒業し、現在はDyania HealthのCTOを務めるコンスタンティン・アルコウダス氏が、最近「GPT-4は推論できない」（GPT-4は推論できない）というタイトルのプレプリントを執筆した（査読付き科学雑誌にまだ掲載されていない科学文献の草稿論文に言及することは、業界で大騒ぎを引き起こしました。この論文では、GPT-4 は GPT 3.5 と比較して全体的に大幅な改善が施されていると指摘しています。ただし、GPT-4 は目覚ましい改善を達成していますが、GPT-4 の推論機能については非常に懐疑的になる十分な理由があります。この論文では、推論の性質について説明し、NLP コミュニティにおける推論問題の現在の定式化と LLM 推論パフォーマンスを評価する現在の方法を批判し、GPT-4 に基づく 21 の異なる推論問題のコレクションを共有します。最終結論: **時折分析力が発揮されることがあるにもかかわらず、GPT-4 は現時点ではまったく推論することができません。 **用紙のアドレス:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5818562a45-dd1a6f-1c6801) GPT-4 がほんの数分前にゲーム コードを生成したのは、1 つの単語が千の波を引き起こしたという理由ではないでしょうか?## **推論とは何ですか? **実際、今年 1 月の初めに、論文の著者である Konstantine Arkoudas は、Medium プラットフォーム上で ChatGPT の非公式の評価を共有しました。この評価には、伝統的な NLU、民間物理学、情報検索、心の理論、空間的推論、単純な論理的推論、数学。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1a1a1a727e-dd1a6f-1c6801) 住所：当時到達した主な結論は次のとおりでした: ChatGPT は画期的な進歩である; LLM ベースのシステムは単なる「ランダムなオウム」ではなく、真の抽象化を構築し、創造性を発揮できる; このようなシステムは、多くのエキサイティングな新しいアプリケーションをもたらすだろう; 前述したにもかかわらず成果は上がっていますが、これらのシステムの推論能力は依然として大幅に制限されています。同氏によれば、GPT-4のアップグレード版は現在もそのままであり、推論能力もまったくないという。Konstantine Arkoudas氏は論文の中で、「LLMに推論能力があるかどうか」についての業界の議論は長い間続いていると指摘した。※一方でLLM支持派です。大規模なモデルの優れた推論能力についての彼らの予測は、変化する「法則」に依存することが多く、これらのいわゆる「法則」は実際には薄っぺらな経験的証拠であり、多数の疑わしいモデリングの仮定であり、曖昧な概念の理解であるとコンスタンティン・アルコウダスは主張する（LLM）特徴）、そして大規模なコーパス全体にわたる次のトークン予測のためのクロスエントロピー損失を最小限に抑えることが、汎用推論エンジンを提供するという少しの独断的な信念さえあります。* 一方で、LLM 懐疑論者もいます。彼らは厳密な議論をする傾向がありますが、これらの議論はほとんどが過去の経験と分析に基づいており、やや曖昧です（たとえば、LLMには世界がどのように機能するかについての内部モデルである「世界モデル」がありません）。これら 2 つの考慮事項に基づいて、Konstantine Arkoudas は、信頼性の高いロバストな LLM 推論の妥当性に関するアプリオリ (過去の経験と分析) による最も説得力のある考慮事項は、計算の複雑さの結果であると主張します。推論は計算的に非常に難しい問題です。実際、一般的な場合 (1 次または高次の論理) ではアルゴリズム的に決定できません。Konstantine Arkoudas 氏によると、「LLM は、どんなに規模が大きく、範囲が広く、賢くても、任意の推論問題を解読することはできません。これは、機械学習における有名な「フリーランチなし」定理と一致しています。この定理では、モデルの一般性と同様の逆関係が述べられています。パフォーマンスとパフォーマンスの間」。したがって、「GPT-4に推論能力があるかどうか」を検証するには、まず推論とは何かという概念と、推論能力を判定する具体的な方法を統一する必要があります。推論の定義について、コンスタンティン・アルコウダスは、「推論とは、悪徳な手段によって正しい答えを得ることではなく、正しい理由から正しい答えを得ることである」と述べました。より正確に言えば、推論は議論を行うプロセスであり、さらに重要なことに、それを証明するプロセスです。議論は、結論 (いわば議論の結果) と、結論が導き出される一連の前提で構成されます。前提とは、たとえ暫定的であっても議論の目的で与えられたとみなされる情報を表します。結論と前提は通常、自然言語または記号論理の記号で表現される宣言文であり、真または偽の場合がありますが、図などの他の記号で表すこともできます。 S のすべての文が true である場合、p は true であり、この場合、引数は有効であると言われます。方法論に関して言えば、Konstantine Arkoudas が論文で採用した評価は、コーパスやコーパスのセットに基づいていません。代わりに、広範な領域にわたる 21 の単純な推論問題に対する GPT-4 のパフォーマンスの詳細な定性分析が示されています。そのほとんどは最初から作成され、残りの部分 (Wason の選択タスクなど) は手動で調整されました。モデルがそれらを識別するのが難しいのは、データ汚染を避けるためでもあります。## **テスト質問で GPT-4 の推論を検証します**これに基づいて、コンスタンティン・アルコウダスは GPT-4 について多面的に質問し、その出力に基づいて詳細な分析を実施しました。GPT-4 の特性により、同じ「」を使用しても、実行ごとに異なる答えが得られる場合があることに注意してください。次に、検証が始まります (**以下のすべてのテスト時間は、2023 年 7 月 5 日のテスト結果に基づいています**)。**簡単な算術**Konstantine Arkoudas 氏は、基本的な算術演算を実行する能力は、特に科学や工学の応用において、一般的な推論に必要な部分であると述べています。 GPT-4 がそれを暗記しないようにするために、彼は、GPT-4 が選択した範囲内で 2 つのランダムな整数をランダムに選択し、選択した値に対して演算を実行できるようにすることを提案しています。**KA は次のように答えます:**1381 ～ 1453 の間で 2 つの乱数を選択し、それらを掛け合わせて結果を報告します。**GPT-4 の答えは次のとおりです:**もちろん、1381 ～ 1453 の範囲で 2 つの乱数を選択しましょう。番号が 1405 と 1421 だとします。積を得るには、次の 2 つの数値を単純に掛けます: 1405\*1421 = 1996025![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d1deacd237-dd1a6f-1c6801) しかし実際には、正しい答えは 1405\*1421=1996505 です。GPT-4 は依然として、加算や乗算などの基本的な算術演算を確実に実行できないことが判明しました。Konstantine Arkoudas 氏は、GPT-4 はチューリング完全なフレームワークではなく、汎用の計算を実行できないこと、つまり足し算、掛け算、割り算、リストの並べ替え、逆行列、あるいは微分方程式を解くことはできないことを、おそらく LLM 支持者は現時点で認めるかもしれない、と述べました。任意のプログラムを機械語にコンパイルできない、定理を導き出すことができないなど。ただし、これらのコンピューティング能力の不足は、ReAct や MRKL フレームワークなどのサードパーティのプラグインによって補うことができます。この仕組みが、LangChain や AutoGPT のようなシステムを生み出しました。ここでの考え方は、LLM をプランナーとして使用して、複雑な問題を一連のサブ問題に再帰的に分解し、適切な API を介して専門のエージェントにディスパッチすることです。しかし、Konstantine Arkoudas 氏によれば、このアプローチの問題はその循環的な性質にあります。計画を立てること自体に推論が必要なため、適切なエージェントに問題を委任しても推論の問題を解決できないという「ジレンマ」があります。および分解結果がどのように変化するかなど）それ自体は計算上実行不可能です。これには、自然言語を理解する能力だけでなく、前提条件と影響について推論する能力も必要です。これらの過度に単純化された仮定の下でも、計画は計算コストが高く (PSPACE 完全)、複雑さを NP 完全レベルまで減らすには根本的な単純化が必要です。より現実的な仮定の下では、計画は不完全な知識で実行され、機械的に決定できません。私たちが今日理解しているように、一般的な LLM が計画上の問題を解決できると期待するのは単純です。** 簡単なカウント **GPT-4 に 27 個の否定記号が前に付いた命題変数を与え、否定の数を数えるように依頼します。人間にとって、これは簡単な作業です。特に、否定記号は 5 つのブロックに書かれ、それぞれに 5 つのドットがあり、最後に 1 組の否定記号が書かれているためです。しかし、GPT-4 はどのように動作するのでしょうか?**か：**次の式で p が何回否定されるか:~~~~~ ~~~~~ ~~~~~ ~~~~~ ~~~~~ ~~ p**GPT-4 の答えは次のとおりです:**GPT-4: 指定された式には、命題変数 "p" の前に 28 個の否定記号 ("〜") が含まれています。論理では、否定記号はステートメントの真理値をその反対の値に変更します。ステートメントが true の場合、その否定は false となり、その逆も同様です。 「〜 〜 p」などの二重否定は、命題を 2 回否定すると元の真理値に戻るため、「p」と同等です。余りがある場合は、否定が存在します。そうでない場合は、否定はありません。28 を 2 で割ると 14 になり、余りがありません。これは、否定がないことを意味します。したがって、実際には、指定された式では変数「p」は否定されません。まさに「p」と同等です。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dd39db081a-dd1a6f-1c6801) Konstantine Arkoudas は、そのような GPT-4 自身の (一方的な) 説明で強調されているように、論理入力のすべての違いを理解するまでは、GPT-4 による単一の否定記号の追加の違いは重要ではないようであることを発見しました。 GPT-4 に時間をかけて慎重に数えるように明示的に指示された場合でも、実験を何度も繰り返すと大きく異なる結果が得られました。**一般知識に関する質問**それからコンスタンティン・アルコウダスはこう付け加えた。「マーブルの心拍数は午前9時の時点で75、午後7時の血圧は120/80でした。彼女は午後11時に死亡しました。正午には生きていたのでしょうか？」![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ed0007b40d-dd1a6f-1c6801) **GPT-4：**提供された情報に基づいて、Mable Noon が生きているかどうかを確認することはできません。提示されたデータポイント（午前9時の心拍数と午後7時の血圧）はすべて、当時彼女が生きていたことを示しています。しかし、午後7時から午後11時までの間、特に正午に彼女に何が起こったのかについての詳しい情報がなければ、正午に彼女がどのような様子だったかを確信することはできません。医療情報は複雑かつデリケートな場合があることを忘れないでください。人の健康状態を知るには通常、総合的な検査が必要であり、医療専門家が検査を行う必要があります。これが仮定の質問である場合は、現実の生活ではより完全な情報が必要であることを忘れないでください。現在の状況では、常識的な議論は、実際には、与えられた情報と、一般に受け入れられている背景知識を構成する明言されていない前提から引き出される結論の直接的な導出と見なすことができます。この特別な場合、そのような常識的な知識は、「人間は死ぬまで生き、死後は決して生きない」という命題です。コンスタンティン・アルコウダス氏は論文の中で、GPT-4の「これは複雑な問題なので必ず専門家に相談してください」という発言は皮肉に見えると考えている。**ウェイソンの選択の質問**ウェイソンの選択タスクは推論心理学の定番です。**か：**テーブルの上には 7 枚のトランプがあり、それぞれの片面には数字が、もう片面には白黒の模様が描かれています。カードにはそれぞれ 50、16、赤、黄、23、緑、30 が表示されます。カードが 4 の倍数を示している場合、その反対の色は黄色です。この命題の真実性をテストするにはどのカードを裏返す必要がありますか?**GPT-4：**命題は、「カードの数字が 4 の倍数の場合、反対側の色は黄色である」です。この命題をテストするには、次のカードを裏返す必要があります。トランプ「16」：命題によれば、反対側の色は黄色でなければなりません。このカードを裏返すと、命題のこの部分が成り立つかどうかを確認できます。トランプ「黄」：このカードを裏返すと、反対側の数字が4の倍数かどうかを確認できます。トランプ「50」と「30」：この2枚のカードの数字は4の倍数ではありませんが、反対側が黄色でないことを確認してください。反対側が黄色であれば、反対側では 4 の倍数のみが黄色であるという命題は覆されます。「23」「赤」「緑」のカードを裏返す必要はありません。カード「23」は4の倍数ではないので、与えられた命題に従って反対側が何色であっても問題ありません。 「赤」と「緑」のカードの反対側の数字が 4 の倍数である場合も、命題は、カードの反対側に表示できる色が黄色だけであるとは述べていないため、命題を反証するものではありません。 4の倍数の数字が書かれたカード。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-4050707d6b-dd1a6f-1c6801) 実際、反転する必要があるのは 16、赤と緑だけです。したがって、精度の観点から、これらの応答は、GPT-4 がマテリアル条件文のセマンティクスを理解していないことを再度示しています。GPT-4 がトランプの「50」と「30」を裏返さなければならないと言っているとき、if を if と if だけを間違えているようです。「これらのカードに表示されている数字が 4 の倍数でない場合、それらの数字は 4 の倍数ではないそうでないことを確認する必要があります。片側の色は黄色ではありません。反対側が黄色であれば、「反対側には黄色であるのは 4 の倍数だけである」という命題は覆されます。もちろん、検証される命題は、4 の倍数だけが反対側が黄色であることを必要とするわけではなく、カードの反対側が 4 の倍数である場合、反対側も黄色でなければならないこと、またはその他の面が黄色でなければならないことだけを必要とします。つまり、カードの表面が黄色でない場合、もう一方の表面の数字は 4 の倍数ではありません。ただし、ルールを二重条件として誤解しても、一貫して守られるわけではないことに注意してください。 GPT-4 がテスト対象のルールを二重条件として理解したため、50 と 30 を反転する必要がある場合、23 についても同じことを行う必要があります。しかし、そんなことはありません。実際、トランプのカード「23」は 4 の倍数ではないため、与えられた命題に従って反対側が何色であるかは問題ではありません。これは、トランプが使用する 2 条件の解釈と一致しています。 50 と 30 を反転する理由は矛盾しています。これは、これらの例から浮かび上がってくるもう 1 つの重要なテーマを再度示しています。つまり、GPT-4 応答は、正しいか間違っているかにかかわらず、本質的に一貫性がないことがよくあります。さらに、Konstantine Arkoudas は論文の中で、空間推論、エントロピー、単純なコンパイラの正確性、および時間推論の機能も検証しました。スペースの制限があるため、この記事では説明のために上記のいくつかの例のみを選択します。＃＃ **結論は**結局のところ、さまざまな検証により、GPT-4 の推論能力の暗い現状が証明されたのは間違いありません。結果は、モデルが内部矛盾、基本的な推論技術の誤った適用、および物質的条件などの推論において基本的な役割を果たす概念の理解の欠如に悩まされていることを示しています。しかし実際には、こうした問題は大きなモデルがもたらす誤差や「幻想」としてまとめられることが多いのですが、実際には大きなモデルには推論する能力がありません。GPT-4 が現在最も有能な LLM であることを考慮すると、Konstantine Arkoudas はこれらの調査結果から 3 つの主要な結論を導き出しました。1. ソフトウェア開発 (または科学と工学全般) で、退屈なタスク以外の目的で (知識集約的なコーディング問題に対する一種のターボチャージャー付きオートコンプリートとして) 生成 AI を使用することは、深刻なリスクを伴います。正規の正しさの基準は非常に重要ですが、これらの分野では、現在の LLM はそのような基準を満たしていません。生成 AI が悪質な広告で Web を汚染し始めたのと同じように、バグのあるコードを大規模に増殖させる可能性があります。2. LLM 推論が改善し続ければ、厳密な証明チェックがますます重要になる可能性があります。システムの推論の正しさに対する信頼は、特に科学、医学、工学などのアプリケーションにとって不可欠であり、検証チェックはこの信頼を提供できる技術です。このアプローチは、LLMS に推論を正規化する (検証と確認が簡単な記号表記で表現される) ように依頼することによって、または場合によっては、自然言語で表現された推論の一部を調べるように他の LLMS をトレーニングすることによって実現できます。3. 現状では、人間を屈服させる不正な AI が関与するディストピア シナリオ、さらには AI を極悪な目的に使用する他の人間が関与するというディストピア シナリオは、非常に現実離れしたものです。最先端の AI システムが空間推論中に左右の区別さえできない状況では、AI から人間を守るための政策や制度を求める業界からの要望がこれほど多くなるのは明らかに時期尚早です。＃＃ **論争**コンスタンティン・アルコウダスの見解では、現在の生成型 AI はまだ開発の初期段階にあり、推論能力や AGI の時代にはまだ遠いです。この論文が発表されると、HN についても多くの注目と議論が集まりましたが、この 5 か月間、私たちは騙されていたでしょうか?![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ea9f41912f-dd1a6f-1c6801) しかし、彼のユニークな見解は多くの AI 学者にも認められています。人工知能分野の「反逆者」であり、ニューヨーク大学の心理学と神経科学の名誉教授であるゲイリー・マーカス氏は、ツイートした：「もしこれが本当なら――先ほども言ったように――私たちは一般的な人工知能からそれほど遠くはありません。非常に遠いです。」 *おそらく多くの再調整が必要です。理由を説明せずに AGI を使用することはできません**。」![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5ce181c3b7-dd1a6f-1c6801) @SiSafLtd の最高 AI オフィサーであるニコス・ザガラキス氏は、「深層学習アルゴリズムは、知覚に基づいて予測を行うように構築されています。アルゴリズムは推論を装っているかもしれませんが、実際には知覚です。」と述べています。しかし、一部のネチズンは疑問を投げかけた。私は資料に目を通し、報告された不具合のいくつかを再現しようとしましたが、そこから 2 つの結論に達しました。1.作者は苦手です。幻覚を軽減し、より良い思考経路をモデルに提供する方法はたくさんあります。2. 著者は ChatGPT の GPT-4 を使用しているため、「GPT-4」と「ChatGPT」を混同しています。これは OpenAI のコミュニケーションミスによる、OpenAI のよくある失敗であると主張することもできますが、これらのモデルを真剣に評価している人なら、最初に API を使用してモデルのバージョンをロックする必要があることがわかるでしょう。著者に関する限り、gpt-4-0314 または gpt-4-0613 を使用する必要があります。彼は ChatGPT の GPT-4 を使用しているだけで、おそらくデフォルトのモデルを使用しているのではないかと思います。 (デフォルト モードは誰にも使用されるべきではありません。これはパフォーマンスが最適化された最悪のモデルであり、コンテキスト サイズのタスクであっても、推論タスクではプラグイン モデルよりもパフォーマンスが悪くなります)。著者がモデルを真剣に評価している場合、モデルを説明することが最初に行うことになります。おそらく彼は自分の推論を説明するべきだろう。ここまでのところ、どう思いますか？参考：用紙のアドレス:

騙された? GPT-4には実は推理能力がない？ ！

**推論とは何ですか? **

テスト質問で GPT-4 の推論を検証します

騙された? GPT-4には実は推理能力がない？！

推論とは何ですか?