GPT-4の推論はとんでもない!大学の数学、物理、化学の合計点は半分以下で、推理問題21種類すべてが覆される マーカス「AGIは遠すぎる」

**出典:**新志源

ガイド: 地上最強の GPT-4 が推理問題で次々と間違いを犯す! MIT の卒業生と UCLA の中国人による最新の研究は、多くのネチズンの注目を集めました。

GPT-4には全く推理力がありません!

最近、GPT-4 の推論能力が低いことが 2 つの研究で報告されました。

MIT の卒業生である Konstantine Arkoudas は、21 種類の異なる推論セットで GPT-4 を評価しました。

次に、これらの問題に対する GPT-4 のパフォーマンスの詳細な定性分析が実行されます。

GPT-4は時折「最強の頭脳」の才能を発揮することが研究で判明しているが、現時点ではGPT-4には推理能力が全くない。

用紙のアドレス:

研究結果が発表されるとすぐに、多くのネチズンが集まって見守りました。

マーカス氏は、「もしこれが本当なら、先ほども言ったように、我々はまだAGIには程遠い。多くの再調整が必要になるかもしれない。理屈抜きにAGIはあり得ない。」と語った。

UCLA とワシントン大学の別の研究でも、GPT-4 と GPT-3.5 は大学での数学、物理学、化学の課題の推論においてパフォーマンスが低いことがわかりました。

用紙のアドレス:

研究者らは、大学の科学的問題解決財団である SCIBENCH を紹介しました。SCIBENCH には、オープン データセットとクローズド データセットの 2 つのデータセットが含まれています。

異なるプロンプト戦略を使用した GPT-4 と GPT-3.5 に関する詳細な調査を通じて、その結果は、GPT-4 の平均合計スコアがわずか 35.8% であることを示しています。

この研究もまたマーカスの注目を集めました。

数学、化学、物理学における推論の体系的な調査により、現在の LLM が満足のいくパフォーマンスを提供できないことが示されました...他のヒンティング戦略よりも大幅に優れたヒンティング戦略はありません。

GPT-4 が 21 の問題セット、数学、物理学、化学でどのように惨めに失敗したかを詳しく見てみましょう。

21 の問題セット、GPT-4 完全ロールオーバー

ただし、質問に答えるために GPT-4 を調べる前に、著者は次のような注釈を付けています。

GPT-4 は非決定論的なシステムであるため、同じパラメーター設定であっても実行ごとに異なる答えが生成される場合があります。

以下のテストのやり取りは文字通りのものですが、著者の経験では、GPT-4 で問題が発生する論文で議論されている事柄は堅牢である傾向があります。

1 簡単な算術

基本的な操作ができることは推論の必要条件です。

ただし、GPT-4 は、加算や乗算などの基本的な算術演算を確実に実行することができません。

たとえば、GPT-4 が 1381 から 1453 までの 2 つの数値をランダムに選択して乗算し、結果を得るようにします。

GPT-4 は 1405 と 1421 を選択しましたが、最終結果は明らかに間違っていました。 1405×1421=1996505ですから。

2 単純なカウント

特定のカウントは必ずしも推論活動ではありませんが、一般的な能力を備えた推論システムの前提条件であることは確かです。

ここで、GPT-4 には命題変数が与えられ、27 個の否定記号が接頭辞として付けられ、否定記号の数を数えるように求められます。

特に否定は 5 つ離れて書かれており、5 つのグループがあり、最後の否定のペアがすぐに続くため、私たちにとっては簡単でした。

しかし、GPT-4 では「28」の答えが得られました。

3 (医療) 常識

今のところ、常識的な議論は、与えられた情報と明言されていない条件(デフォルト、一般的に受け入れられている背景知識)から引き出された単純な推論と考えることができます。

この特定の場合、常識的知識とは、「人間は死ぬまで生き、死後は決して生きない」というような命題です。

たとえば、GPT-4 に尋ねると、マーブルの心拍数は午前 9 時に 75 bpm、血圧は午後 7 時に 120/80 です。彼女は午後11時に亡くなりました。彼女は正午に生きていますか?

GPT-4 は実際に次のように答えました。提供された情報によると、正午時点でマーブルがまだ生きているかどうかを判断することは不可能です。

しかし明らかに、与えられた情報に基づいて、常識的な推論は(何も考えずに)結論を直接導きます。

4 初級論理

P(x) に Q(x) が含まれており、Q(a) が成立しない場合、モデルから P(a) が成立しないと推測できます (P(a) が成立する場合、Q(a) はホールド)。

これは基本的なトートロジーですが、GPT-4 は完全にアンチモデルを提案しています。

值得注意的是,GPT-4认识到,P(x)实际上并不包含Q(x) 、そして、x は負の偶数である可能性があることを提案しましたが、「他の与えられた条件を持つモデルの存在を排除するものではありません」。

実際、反モデルは与えられた条件をすべて満たし、同時に結論を反証する必要があります。

さらに、ほんの数文後、GPT-4 は、与えられた解釈の下では P(x) は Q(x) を意味すると主張し、以前の声明と矛盾しています。

GPT-4 にも内部矛盾があることに注意してください。

5 単純な量指定子のセマンティクス

次の 3 つの文を考えてみましょう。

  1. [forall x . P(x) ==> Q(x)]

  2. [x が存在します。 P(x)]

  3. [x が存在します。 〜Q(x)】

次の主張を反証または証明してください: これら 3 つの文は共に満たされます。

显然,这三个句子都是共同可满足的,一个简单的模型是具有P(a1)、Q(a1)、¬P(a2) ただし、GPT-4 が導き出した結論は逆です。

6. 簡単なグラフの色付け

まず、解決策のないグラフの色付けの問題を考えてみましょう。

この質問で説明されているグラフには 2 色では不十分であることは明らかです (たとえば、頂点 0、2、および 4 がクラスターを形成しているため、少なくとも 3 色が必要です)。

この短い出力には、驚くべきエラーが大量に含まれています。

GPT-4 は、グラフが完全である (頂点 2 と 3 の間にエッジがないなど、明らかにそうではありません) と誤って主張することから始まります。

また、グラフが本当に完全である場合、6 つの頂点を持つ完全なグラフには少なくとも 6 色が必要であるため、2 色で色を付けることは不可能であることは明らかです。

言い換えれば、GPT-4 の主張は間違っているだけでなく、矛盾しているということです。ある瞬間には、この 6 頂点のグラフが完成している、つまり 2 色で色を付けることは不可能であると (誤って) 伝えられますが、別の瞬間には A が 2 つ提供されます。 -カラー「ソリューション」。

GPT-4 のパフォーマンスが非常に悪い理由は、グラフに関する十分な知識やデータがないためではないことは注目に値します。

研究者が GPT-4 に「完全なグラフ」についての理解を求めたとき、 GPT-4 は、 K_n (n 個の頂点を持つ完全なグラフ) の結果の長いリストとともに、「完全なグラフ」の正しい定義を吐き出しました。

どうやら、GPT-4 はこの情報をすべて記憶していますが、それを新しい条件に適用することはできません。

7. サブセット合計

S = {2、8、6、32、22、44、28、12、18、10、14}。それでは、合計が 37 になる S の部分集合はいくつありますか?

この問題では、S の部分集合は偶数であり、偶数の合計は奇数にはならないため、答えは 0 になります。

ただし、GPT-4 は、S に何が含まれているかを検討するのをやめるのではなく、質問に対する適切な答えであると考えられるものを反射的に生成し、「魔法」のように答え「4」を導き出します。

8 初級離散数学

A × B が集合 A と B のデカルト積を表すこと、A から B への関係 R が A × B の部分集合であること、& が集合の交差を表すことを GPT-4 に伝えて、証明または反証を要求します。 :

其中R1和R2是从A到B的二元关系,dom(R) 二項関係 R の定義域を表します。

(2) の部分集合関係は両方向に成り立つ必要がありますが、左から右方向にのみ成り立ちます。反対方向の反例は簡単に見つかります (たとえば、A = {(1, 2)} および B = {(1,3)} を考えてみましょう)。

ただし、GPT-4 はこれが真実であると推測していますが、これは明らかに間違っています。

9つの簡単アレンジメントプラン

タイミングの問題に関しては、GPT-4 も間違っていました。

上下にスワイプしてすべて表示します

10 ラッセルのパラドックス

ラッセルの理容師のパラドックスは、自分で毛を剃らない人だけを剃る理容師 b が存在するというものです。

この文の否定はトートロジーであり、一次論理を使用して簡単に推測できます。

R(a,b) を a が b によって削り取られるものとして理解すると、次のようにこのトートロジーを思いつき、GPT-4 にそれを証明または反証するように依頼できます。

そのような床屋 x が存在する場合、すべての y に対して R(y,x) <==> 〜 R(y,y) が得られるため、y を x に置き換えると R(x,x) <== > が得られます。 〜 R(x,x)、これは矛盾です。

GPT-4 は、与えられた文の構造と何をする必要があるかを完璧に理解しています。しかし、その後の事例研究は混乱しています。

11 ブリックワールド

これは、最後から 2 番目の構成要素 B3 の事例分析を必要とする単純な推論タスクです。

まず、B3 は緑色か緑色ではありません。

緑の場合、B3 は緑ではないブロック B4 の上にあるため、結論が当てはまります。

そうでない場合、上から 2 番目の緑のブロック B2 は非緑のブロック B3 上にあるため、結論は依然として当てはまります。

しかし、結果は GPT-4 がうまく機能しないことを示しました。

上から下に 5 つのブロックが積まれています: 1. 上から 2 番目のブロックは緑色です 2. 上から 4 番目のブロックは緑色ではありません これらの条件が当てはまる場合、次のことを改ざんまたは証明します: 緑色のブロックがあります。緑色以外のブロックの真上。

まず第一に、予想を証明するとき、すでに証明戦略に誤りがあります。PT-4 では、推論のために 2 つの特殊なケースを想定しています。

さらに、GPT-4 は独自の推論で (間違っているとはいえ) 結論に達していますが、回答時に問題が解決されていないことをユーザーに伝えます。そしてこれはモデルの内部矛盾を反映しています。

12 空間推論

ここで著者は現実世界の向きの問題を選択します。

GPT-4 によって初めて得られた答えは右側ですが、著者はその誤りを指摘しました マサチューセッツ州ボストンは地図上では確かにサウスダコタ州の右側にありますが、ここには追加の条件があります: 方位体のそれはテキサスです。

これは、ボストンが著者の左側にあることを意味します。

その後、GPT-4 がボストンとサウスダコタの高い位置と低い位置を答えたとき、より深刻な問題が現れました。同じ答えの中に 2 つの矛盾する記述が含まれていたのです。

13 時間の推理

著者はここで比較的単純な時間推論の質問をしていますが、GPT-4 の答えは依然として混乱しています。

トムとナンシーは仕事に行くための交通手段が必要です。ナンシーの通勤時間は約 30 ~ 40 分ですが、トムの通勤時間は約 40 ~ 50 分です。先週の金曜日、ナンシーは朝8時10分から8時20分の間に家を出て、トムは朝8時5分から9時10分の間に職場に到着しました。また、ナンシーはトムが家を出た後、20 分も経たずに職場に到着します。トムとナンシーが先週の金曜日にいつ職場に到着したか推測できますか?

質問内の情報を整理した後、GPT-4 はその推論プロセスを次のように示します。

「トムができるだけ遅い時間(午前 8 時 20 分)に家を出たら…」 この文の始まりは間違っています。

実際、タイトルにはトムが家を出る最後の時刻が示されておらず、GPT-4 はナンシーの時刻 (「ナンシーは午前 8 時 10 分から 8 時 20 分の間に家を出た」) をトムに悪用しました。

同時に、GPT-4 によって与えられる条件文は混乱を招き、その仮定には結論 (ナンシーの到着時間) に関係のない情報 (トム) が含まれています。「トムが最も遅い時間 (8 時 20 分) に家を出る場合午前)、ナンシー 彼女は遅くても(午前 8 時 20 分)には出発し、通勤時間は長くても 40 分で、ナンシーは遅くても午前 9 時に職場に到着します。」

これは、「ナンシーが最も遅い時間 (午前 8 時 20 分) に出発し、通勤時間が長くても 40 分であれば、ナンシーは遅くとも午前 9 時に職場に到着します。」と記載する必要があります。

GPT-4 は、次のように誤って推論します。「トムの通勤時間は少なくとも 40 分であるため、これは彼が遅くとも午前 9 時までには職場に到着することを意味します。」

この結論は明らかにまったく支持できません。トムの通勤時間は少なくとも 40 分であるという既知の事実からこの結論を引き出すことはできません。

次の答えは依然として、トムの最も早い出発時刻が午前 8 時 10 分であるという誤った仮定に基づいています (繰り返しますが、この出発時刻はトムの出発時刻ではなくナンシーの時刻です)。

そして、ナンシーは8時45分に到着したと主張しているが、これは20分以内の午前8時10分に家を出発したことにはならない。

結局、トムとナンシーは両方とも 8 時 50 分から 9 時の間に到着したと誤って結論付けています。

GPT-4は推論の過程で何度も誤った情報を表示し、最終的な答えも間違った条件に基づいた間違った答えになります。

**14. 殺人か自殺か? **

著者は論理パズルを考案し、GPT-4にアガサおばさんを本当に殺したのが誰なのかを突き止めるための9つの条件を列挙した。

  1. ドレッドベリー邸に住んでいた誰かがアガサおばさんを殺しました。 2. ドレッドベリー邸の住人は、アガサおばさん、家政婦、チャールズだけです。 3. 殺人者は常に被害者を憎み、被害者よりも裕福になることはありません。 4. チャールズは、アガサおばさんが嫌いな人を嫌いません。 5. アガサおばさんは家政婦以外の人を嫌いました。 6. 執事は、アガサおばさんより裕福でない人はみんな嫌いです。 7. 執事はアガサおばさんが嫌いな人全員を嫌います。 8. 誰もが嫌いな人はいません。 9. アガサおばさんは家政婦ではありませんでした。

正解は、アガサおばさんが自殺したということです。

まず、条件 5 により、アガサおばさんは家政婦以外の全員を憎んでいるので、自分自身を憎んでいなければなりません。

したがって、条件 4 によれば、チャールズは彼女を憎んでいないので、彼女を殺すことはできないということになります。

条件 5 と 7 によれば、執事が自分自身を憎むことは不可能です。なぜなら、執事が自分自身を憎むと、条件 8 が成り立たなくなり、執事は全員を憎むことになるからです。

条件 6 によれば、執事はアガサおばさんよりも裕福であると結論付けられます。そうでなければ彼は自分自身を憎んでいるでしょう。これは、彼が自分自身を憎んでいないという以前の結論と矛盾します。

条件3によれば、執事も殺人者ではないことになる(条件3)。

推論において、GPT-4 はチャールズを正しく除外しましたが、執事を除外できず、執事が殺人者であるという誤った結論に達しました。

GPT-4 が犯したもう 1 つの重大な間違い: アガサおばさんは家政婦以外の全員を憎んでいるので (条件 5)、それは彼女が少なくとも自分自身を憎んでいないことを意味します。

これは、アガサおばさんが自分自身を嫌っているという第 5 の条件から導かれるので、奇妙な間違いです。

同時に、GPT-4 は再び矛盾を繰り返しました。ほぼすべての応答において、GPT-4 は特定の命題とその否定形を導き出すと主張しました。

15 ワトソン選択タスク

ワトソンの選択タスクは、精神的推論の分野における基本的な内容です。

1 月の論文では、GPT-3.5 はこのテストに不合格でしたが、今回の研究でも GPT-4 のパフォーマンスは依然として理想的ではありません。

テーブルには 7 枚のカードがあり、各カードの片面には数字が書かれ、もう片面には 1 つの色のブロックが書かれています。これらのカードの表には、50、16、赤、黄、23、緑、30 が表示されます。 「カードの表に 4 の倍数がある場合、裏の色は黄色である」という命題の真実を判断するには、どのカードを裏返さなければなりませんか?

これらの応答は、GPT-4 が条件文のセマンティクスを理解していないことを示しています。 GPT-4 がカード「50」と「30」を裏返さなければならないと言っているとき、その条件を必要十分条件と誤解しているようです。

GPT-4 の答えが正しいか間違っているかに関係なく、その内部ステートメントには一貫性がありません。

16 エントロピー

情報理論の基本的な結論は、ランダム ベクトル Z のエントロピーの上限は、Z を構成する確率変数のエントロピーの合計を超えないというものです。

したがって、次の質問に対する答えは「いかなる場合もそうではない」となります。

17 単純なコンパイラの正確性

GPT-4 の最後の推論問題は最も困難です。それは、単純な式コンパイラーの正しさを証明することです。

しかし、今回のテストでは、GPT-4 は式の抽象構文構造に構造帰納法を設定することで正しく証明しました。

これは、以前にも同様の証明を見たことがあり、著者が挙げた例がプログラミング コースや教科書でよく見られる種類の演習であるためと考えられます。

ただし、GPT-4 にはまだ細部に誤りがあります。

## 結論: 推論能力は重要ですが、GPT-4 はそうではありません

GPT-4 が現在最も有能な LLM であることを考慮して、著者は上記の分析に基づいて 3 つの主な結論を示しています。

  1. ソフトウェア開発 (または科学と工学全般) での生成 AI の使用は、一部の退屈なタスク (知識集約的なコーディング問題の自動補完の一種として) を除いて、リスクを伴います。これらの分野では、規範性と正確性が重要ですが、現在の LLM はこれらの基準を満たしていません。

  2. LLM の推論能力が向上し続けるにつれて、厳密な証明チェックがますます重要になります。このアプローチでは、LLM に推論を形式化するよう依頼するか、他の LLM をトレーニングすることによって、自然言語で表現された推論を調べることができます。

  3. 現状では、AI が人間を征服したり、人間が AI を不正な目的に使用したりするというディストピアのシナリオは、非常識であり、不条理な点さえあります。最先端の AI システムが右も左も区別できないとき (上記の質問 12)、AI システムから人間を守るための政策を求めるのは、よく言っても時期尚早で、悪く言えば資源の無駄遣いです。

必然的に、これらの結果は「選ばれたデータ」であると言う人もいるかもしれません。しかし、それはキュレーションデータとは何かについて誤解があるからです。問題の命題の論理構造と全体的なコンテキストによっては、データの選択が必要になる場合もあります。

コンピュータ プログラムをデバッグしてその弱点を発見し理解すること、科学理論を改ざんしようとすること、新車をテスト運転すること、推定上の定理の反モデルを見つけようとすることなどは、基本的にすべて面倒な作業です。

たとえば、新車のタイヤがパンクしていることがわかった場合、販売店は「データを選択している」と抗議する可能性があります。なにしろ、クルマ全体で見ると、タイヤの無傷率は75%にも達します。

同様に、科学、医学、工学、特にソフトウェア工学のアプリケーションには厳格な基準があります。

90% の確率で列が立つような橋が必要ないのと同じように、ほとんどの入力だけでなく、すべての入力に対して機能する並べ替えアルゴリズムが必要です。毎回正しい金額を請求するカートが必要です。時間など

そして、これらのコンピューティングと推論を多用するアプリケーションは、レコメンデーション エンジンとは異なり、非常に信頼性が高くなければなりません。

### 著者について

コンスタンティン・アルコウダス

コンスタンティン・アルコウダス氏は昨年まで、RPIの認知科学部門の研究者であり、MITのCSAILの研究者でもあった。

現在、彼は Telcordia Research Laboratories の上級研究員として、AI に焦点を当て、電気通信およびネットワーク業界における現実世界の問題に形式的手法を適用しています。

彼は 2000 年に MIT でコンピュータ サイエンスの博士号を取得しました。それ以前は、コンピュータ サイエンスの修士号、哲学の修士号、およびコンピュータ サイエンスの学士号と哲学の副次学位も取得しています。

大学の数学、物理学、化学、GPT-4 スコア 35.8%

UCLAの研究では、主に数学、化学、物理学におけるGPT-4とGPT-3.5の推論能力が評価されました。

現在、数学などのタスクを解決する LLM の能力を強化するために、問題についてより深く考えるために、大規模なモデルが徐々に答えを生成するように導く、思考に接続された CoT 戦略を提案している人もいます。

しかし、たとえそのようなアプローチに特有の利点があるとしても、複雑な科学的問題を完全に解決することは困難です。

以下は、大学の物理化学の問題例と、2 つのヒント戦略に基づいて生成された解法です。

CoT 祝福を伴う GPT-4 には明らかな計算エラーがあり、外部ツールとして Python の使用を促す GPT-4 も数式を誤解します。

エラーは赤でマークされ、修正は紫でマークされます

この目的を達成するために、科学的疑問に対する大学レベルのベンチマークである SCIBENCH が研究に導入されました。

このうち「オープンデータセット」には、物理基礎、熱力学、古典力学、量子化学、物理化学、微積分、統計、微分方程式を網羅し、大学の授業で広く使われている教科書から集めた5問題が収録されている。

オープン教科書の問題の概要 (問題数の割合と詳細な解決策の割合を含む)

もう 1 つは、実際の評価をシミュレートするために、コンピュータ サイエンスと数学の 3 つの大学コースの中間および期末試験問題 7 セットを含む「クローズド データ セット」です。

クローズド試験データセット (各試験の問題インスタンスの数と、詳細な解答を含む試験質問の割合が含まれます。また、自由回答、多肢選択、正誤問題など、さまざまな形式の質問の割合も含まれます)参考までに、括弧内の数字は質問の単位を示します。)

既存のベンチマークとは異なり、SCIBENCH のすべての質問は自由回答形式の質問です。

利用可能なデータセットを使用して、研究では 2 つの代表的な LLM、GPT-3.5 と GPT-4 の評価に焦点を当て、CoT、ゼロショット学習、および少数ショット学習を含むさまざまなプロンプト戦略を採用しました。

さらに研究者らは、モデルにPythonやWolfram言語などの外部ツールを使用するよう促した。

実験結果は、複雑なヒントや外部ツールを使用しない場合、オープン データセットにおける GPT-3.5 と GPT-4 の平均精度率はそれぞれ 10.62% と 16.81% であることを示しています。

次に、CoT と外部ツールを追加した後、同じデータセットでの最高精度率は 35.8% にすぎません。ただし、以前に比べて正解率は大幅に向上しました。

オープン データセットでの精度の結果

CoT ヒント + 外部ツールを使用した最も強力な構成の下で、GPT-4 は、オープン データセットで 35.80%、クローズド データセットで 51.57% の平均スコアを達成しました。

これらの結果は、GPT-4 が将来の LLM で改善される可能性がかなりあることを示唆しています。

テストデータセットにおけるゼロショット学習によるトータルスコアの実験結果

科学的問題解決における LLM の限界を包括的に理解するために、研究者らは、LLM が出した答えの不十分さを発見するための新しい「自己改善」アプローチを提案しています。

これが以下の「評価契約」です。

まず、正しい解決策が LLM によって生成された解決策と比較され、ヒューマン アノテーターの支援を受けて、科学的問題をうまく解決するために必要な 10 の必須スキルが要約されます。

具体的には、論理的分解と分析スキル、仮説の特定、空間認識、因果推論、問題演繹、抽象推論、科学的リテラシー、コードスイッチング、論理的推論、数的思考が含まれます。

次にチームは、LLM 主導の自己評価アプローチを採用して、各実験構成のベースライン LLM によって作成されたソリューションに不足しているスキルを自動的に分類しました。

6 つの設定でのテキスト データセット上の GPT-3.5 のエラー プロファイル。10 の基本的な問題解決能力における欠陥の分布が明らかに

最終的に、分析により次のことが判明しました。

(1) CoT は計算能力を大幅に向上させますが、他の側面では効果が低くなります。

(2) 外部ツールの使用によるヒントは、他の重要なスキルを損なう可能性があります。

(3) 数回の学習では、一般に科学的問題解決能力は向上しません。

つまり、研究結果は、現在の大規模言語モデルは問題解決能力がまだ弱く、さまざまなツールの助けを借りてもまだ限界があることを示しています。

参考文献:

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)