ChatGPT はチューリングテストを突破、AI テクノロジーを評価する新しい方法を見つける時が来た

巴比特_

2023-07-27 06:06:22

**出典:**AI 最前線

** 著者 |セレステ・ビーバー**

翻訳家｜Nucle-Cola

企画｜ドンメイ

画像出典：Unbounded AIツールで生成、一般モデル（切り紙）

大規模な言語モデルには優れた人間言語シミュレーション機能がありますが、その推論パフォーマンスについては科学者の意見がまだ分かれています。

7 月 25 日、「Nature」は記事の中で、ChatGPT がチューリングテストを突破し、人工知能技術を評価するための他の新しい方法が可能になる時期が来たと述べました。

世界最強の人工知能 (AI) システムは、厳しい試験に合格し、説得力のある論文を書き、スムーズにチャットに参加することができますが、多くの人は言語表現において AI と人間の違いさえ区別できません。彼らにできないことはあるのでしょうか？もちろん、それはありますが、それらは非常に単純な質問です。

一連の明るい色のグラフィックが画面上に配置されており、ほとんどの人はこのタイプの視覚的論理テストの答えをすぐに理解できます。しかし、チャットロボット ChatGPT や検索エンジン Bing を支えるテクノロジーの光であり、現在の AI の最高傑作である GPT-4 が、明らかに望むことを実行できないのは明らかです。今年 5 月の研究では、GPT-4 は、あるタイプのパターンテストでは 3 分の 1 の確率で正解し、もう 1 つのタイプではわずか 3% しか正解しなかったことが示されました。

ロジックパズルの背後にある研究チームは、このテストが AI システムのより良いベンチマークを提供し、GPT-4 などの大規模な言語モデルに固有の欠点に対処するのに役立つことを期待しています。要約すると、言語テストでは、大規模言語モデルはかつてマイルストーンとみなされていた知性の偉業を簡単に達成しましたが、視覚論理テストでは、そのパフォーマンスは非常に弱く、明らかな盲点があり、基礎を置くことはできませんでした。概念は推論を行います。

ニューメキシコ州サンタフェ研究所のコンピューター科学者メラニー・ミッチェル氏は、「AI分野の専門家は、大規模な言語モデルシステムを評価するという難しい問題に取り組んでいます。そのために、彼女のチームはこのセットをまとめました」と述べています。論理的な問題のこと。

過去 2 ～ 3 年で、大規模な言語モデルは、クロスマルチタスク機能の点で以前の AI システムを完全に打ち破りました。その動作原理は単純です。トレーニング中に閲覧した何十億ものオンライン文に基づいて、各単語間の統計的相関関係を要約し、特定の入力テキストに対して適切な次の単語を生成します。大規模な言語モデル上に構築されたチャットボットの場合、追加の要素が追加されます。人間のトレーナーが広範なフィードバックを提供し、ボットの応答方法を微調整します。

オートコンプリートに似た特性を持つこのような大規模な人間の言語コーパスで訓練されたアルゴリズムが、幅広い問題解決能力を実証することに成功したことは注目に値します。従来の AI システムは特定のタスクに関して大規模な言語モデルを上回ることができるかもしれませんが、前者は問題固有の量でトレーニングする必要があり、この能力をあるタスクから別のタスクにすぐに移行することはできません。

ハーバード大学の認知科学者であるトマー・ウルマン氏によると、大まかに言えば、これら2つの陣営の研究者は、大規模な言語モデルが内部でどのように機能するかについて正反対の見解を持っているという。このアルゴリズムの成果を真の推論や理解のおかげだと考える人もいますが、より慎重な人もいます（ウルマン自身や上記のミッチェルのような研究者を含む）。

ウラムン氏によれば、「この議論の双方は素晴らしく、レベルの高いものである。」意見の相違の根本原因は、それぞれの見解を裏付ける確実な証拠が欠如していることである。「結局のところ、ガイガーカウンターのような、知性か非知性かの答えを明確に与えることができる安定した信頼性の高いインテリジェント検出器は存在しません。」

議論に参加する双方の研究者らは、人間とAIシステムの能力の違いを明らかにするために論理的な質問などのテストに頼ることは、正しい方向への重要な一歩となるはずだと述べている。ニューヨーク大学のコグニティブ・コンピューティング科学者ブレンデン・レイク氏は、こうしたベンチマークは、今日の機械学習システムに欠けている機能を明らかにし、人間の知能が正確に何でできているのかを明らかにするのにも役立つと述べている。

さらに、この大規模な言語モデルのテストとベンチマーク能力の調査には、他の実用的な意義もあります。ミッチェル氏は、大規模な言語モデルを医療や法律などの現実世界のシナリオに適用したい場合は、まずその機能の境界がどこにあるのかを明確にする必要があると指摘しました。「安全に使用する方法を判断する前に、何ができて何ができないのかを把握する必要があります。」

チューリングテストは時代遅れですか?

機械知能のテストの分野では、最も有名なスキームは常にチューリングテストです。このテストは、コンピューターが黎明期にあった 1950 年に、英国の数学者でコンピューターの先駆者であるアランチューリングによって提案されました。チューリングは、人間の審判が画面の後ろに隠れたコンピュータおよび人間と短いテキストで対話し、機械と人間を正確に識別できるかどうかを確認する、いわゆる「イミテーションゲーム」の評価方法を提案しました。。チューリングは、これが「機械には考える能力があるのか?」という質問の答えになると信じました。

ミッチェル氏は、チューリング氏がシナリオについてあまり詳細を指定しなかったため、従うべき正確なルールが存在しなかったと指摘した。 Google のソフトウェアエンジニア、フランソワショレ氏によると、「チューリングテストは、実際にマシン上で実行できる具体的なテストではなく、むしろ思考実験です。」

しかし、言語を使用して機械に思考能力があるかどうかをテストするというこの考え方は、テクノロジーの分野に深く根付いています。ビジネスマンで慈善家のヒュー・ローブナー氏は、数十年にわたり、ローブナー賞として知られる毎年恒例のチューリング・テスト・イベントに資金を提供してきた。しかしコンピューター科学者のロブ・ワーサム氏は、ローブナー氏自身の死後、キャンペーンへの資金が枯渇したため、キャンペーンは2019年以降に停止したと述べた。ワーサム氏は英国人工知能・行動シミュレーション研究協会の共同理事であり、同協会は2014年からローブナー氏に代わってコンテストを主催している。彼は、大規模言語モデルには基本的に人間を欺く能力が備わっているため、大規模言語モデルが本格的に導入される前夜にローブナー賞の中止を余儀なくされたと説明しましたが、これはかなりブラックユーモアです。

他の研究者は、GPT-4 などの大規模言語モデルはすでにチューリングテストに合格する能力を備えていると考えています。少なくとも短い会話では、誰が人間で誰が偉いモデルなのかを見分けるのは、おそらくほとんどの人にとって難しいでしょう。 5月、イスラエルのテルアビブにあるAI21研究所の研究者らは、チューリングテストに基づくオンラインゲームを150万人以上がプレイしたと報告した。ユーザーは、研究者からのプロンプトに基づいて、別のユーザーまたは実際の人物を装った大規模な言語モデルと 2 分間のチャットを行います。プレイヤーがロボットを正しく識別できる確率はわずか 60% であり、これは完全にランダムな推測とほぼ同じです3。

ただし、大規模な言語モデルに精通している研究者は、さまざまな詳細からチャットボットを区別することができます。 Chollet 氏は、システムの既知の弱点を悪用するだけで、誰が大規模な言語モデルであるかを簡単に検出できることがわかったと述べました。「自分が大きな言語モデルに対して話しているのかどうかをテストしてみたら、間違いなく正しい答えが得られるでしょう。」

重要なのは、大きな言語モデルをその快適ゾーンから抜け出すことです。彼の秘訣は、一般的なトレーニングシナリオとは異なるシナリオを大きな言語モデルに提案することです。ほとんどの場合、大規模な言語モデルは、新しいシーンに応じて実際に正しい答えを与えるのではなく、トレーニングデータに基づいて最も可能性の高い単語を出力します。

さらに、Chollet らは、欺瞞的なパフォーマンスに基づくこのテスト方法には懐疑的です。「これは明らかに人間の審判を欺くために存在する。」このようなテストは、開発者がAIにさらに多くのカモフラージュスキルを組み込むことを奨励するだけであり、より便利で興味深い機能を生み出すことはありません。

ベンチマークは信頼できない

研究者は、言語、常識的推論、数学などの特定の能力を評価するベンチマークを使用して AI システムを評価することが多く、テクノロジーチームは人間向けに設計された学術試験や専門試験を採用することが増えています。

GPT-4が3月に初めてリリースされたとき、カリフォルニア州サンフランシスコに本拠を置く企業OpenAIは、読解力、数学、コーディングなど、マシン向けに設計された一連のベンチマークで新モデルのパフォーマンスを評価した。 OpenAI が報告したように、GPT-4 はほとんどのテストで良好なパフォーマンスを示しました4。また、GPT-4 には、Advanced Placement として知られるアメリカの高校生向けのさまざまな試験、アメリカの医師の臨床知識を評価する試験、アメリカの卒業生の選考プロセスで使用される基準など、約 30 の試験も設定されています。学生テスト (GRE)。 GPT-4 は、統一司法試験 (米国のいくつかの州で司法試験に含まれている) で上位 10% 以内の得点を獲得しました。

AI システムのパフォーマンス - 結果からの抜粋

出典: OpenAI/参考資料 4

ここでのランキングパーセンタイルは、すべての被験者の中でこのスコアを達成した人間の候補者の位置です。

ミッチェル氏は、「かなり多くの言語モデルがこれらのベンチマークで良好な成績を収めている。しかし、ほとんどの場合、それだけでは言語モデルが一般的な能力において人間を上回っていることを示すのに十分ではなく、むしろベンチマーク自体に限界があることを示している。」と認めている。 case モデルは大量のテキスト素材でトレーニングされたため、トレーニングデータでも同様の問題が発生した可能性が高いと考えられます。この状況で導き出されるベンチマークの結論は「汚染」と呼ばれるもので、明らかに信頼できるものではありません。

OpenAI は、問題とトレーニングデータ内で類似の文字列を探すことでこれをチェックしたと述べています。類似の文字列を削除する前後で大規模な言語モデルをテストすると、パフォーマンスにほとんど変化がありません。これは、非常に高いスコアが汚染と無関係であることを示唆していましたが、一部の研究者はテストが十分に厳格だったかどうかを疑問視していました。

Sam Bowman はニューヨーク大学の言語技術科学者であり、サンフランシスコの AI 企業 Anthropic にも勤務しています。同氏は、GPT-4テストのスコアを「同様の問題を見た」結果として単純に受け取り、GPT-4の能力を否定することに対して警告した。同氏の見解では、「環境汚染の話は状況を少し複雑にしているが、全体像に大きな影響を与えるとは思わない。」

研究者らはまた、大規模な言語モデルが試験で高得点を獲得する能力も比較的脆弱で、現実世界で正しい判断を下す能力に変換できない可能性があると指摘した。ミッチェル氏によると、試験問題を少し調整するだけで、大規模なモデルが受け入れられなくなる可能性があります。たとえば、ChatGPT が合格した MBA 試験の問題を少し変更したところ、人間はその変更に応じて簡単に答えを修正できましたが、ChatGPT は惨めに不合格でした。

ベンチマークの意味を解読することに関しては、さらに深い問題がもう 1 つあります。人間の場合、これらのテストの高得点は一般的に高い知能レベルを表します。実際、知能レベル自体も曖昧な概念であり、主に一連のタスクで示されるさまざまな環境に適応する能力に反映されます。言い換えれば、テストの高得点は、その人が優れた認知能力を持ち、特定の抽象的な概念をうまく使いこなすことができることを示しています。しかし、これは大規模な言語モデルには当てはまりません。ミッチェル氏は、大規模モデルの判断方法は人間の判断方法とは大きく異なるとし、「ほとんどの場合、AIシステムは人間が慣れ親しんだ方法で推論を行っていない」と強調した。

これは、大規模な言語モデルが言語経験からのみ学習できるためであり、現実世界と接続するチャネルが不足しているため、人間のように言語と物体、属性、感情とのつながりを経験できないためであると考えられます。「彼らが人間のように言葉を理解していないことは明らかです。」とレイク氏は言います。彼の見解では、現在の証拠は、大規模な言語モデルは「実際に何を言っているのかを理解していなくても、非常に流暢に言語を使用できる」ことを示唆しています。

一方で、大規模な言語モデルは、人間が書き留めたほぼすべての単語間のつながりを理解するなど、人間にはないいくつかの能力も示しています。ミッチェル氏は、これは、モデルがより広範な推論能力を把握する必要がなく、問題を解決するために言語やその他の指標の特定の特性に依存していることを意味している可能性があると述べた。

OpenAIの研究者であるニック・ライダー氏もこの判決に同意し、1回のテストでのAIのパフォーマンスだけでは人間の被験者のような一般的な能力を証明するには十分ではないと述べた。「人間のスコアと大規模な言語モデルのスコアを直接比較すべきではないと思います。OpenAI が公開したスコアは、大規模な言語モデルの人間のような能力や人間のような推論レベルを説明するものではなく、単に次のことを示しています」これらのモデルは、これらのタスクで優れたパフォーマンスを発揮します。」

従来のマシンのベンチマークや人間による専門的な試験に加えて、研究者らは大規模な言語モデルをより広範囲に調査しました。今年 3 月、Microsoft Research の Sébastien Bubeck と彼の同僚は、「Spark of General Artificial Intelligence: GPT-4 Early Experiments」というタイトルのプレパブリッシュ済みバージョン 5 をリリースし、業界で激しい議論を巻き起こしました。彼らは GPT-4 の初期バージョンを使用して、驚くべき一連の機能を文書化しましたが、その多くは言語に直接的または明示的に関連付けられていませんでした。注目すべき特徴の 1 つは、心理理論を評価するために使用されるテストに合格していることです。心理理論は、他人の精神状態を予測し推論するための人間の中核的な能力です。「GPT-4の機能の幅広さと奥深さを考慮すると、GPT-4がすでに汎用人工知能（AGI）システムの初期（ただしまだ完全ではない）バージョンであると信じる理由がある」と研究者らは論文で述べている。

しかし、Bubeck 自身は後に明らかにし、「GPT-4 は確かに人間のようには考えず、それが示す機能を実装するには独自のユニークで異なる方法を持っている」と強調しました。

ミッチェル氏は、このレポートはかなり過激ではあるものの、大規模な言語モデルの機能を体系的に調査していないと考えています。「これはどちらかというと人類学の研究に似ています。」ウルマン氏はまた、機械が心理理論を習得できることを証明するには、同じ答えを出力するために単に機械に依存するのではなく、少なくとも対応する根底にある認知プロセスの証拠を提供する必要があるとも述べた。人間としての乱暴な主張。

AI 研究者は、大規模な言語モデルの長所と短所を理解するには、より広範かつ厳密な精査が必要であると考えています。色の論理の問題が重要な部分を占める可能性があります。

新鮮なパズル

2019 年、大規模な言語モデルが爆発的に増加する直前に、Chollet は、インターネット上の AI システム用に特別にコンパイルされた、Abstract and Reasoning Corpus (ARC) と呼ばれる新しい論理テストセットをリリースしました。ソルバーには、いくつかの正方形のグリッドが別のパターンに変形する視覚的なデモンストレーションが表示され、次のグリッドに変更方法を指示して、変更のルールを理解していることを示します。「これは、これまで見たことのないものに適応する能力のテストです」と、パターンを見つけるこの能力が知性の本質であると信じているチョレット氏は言います。

レイク氏によると、ARC は「人間の知性の特徴」、つまり日常の知識から抽象化し、それをこれまでに見たことのない問題に適用することを捉えています。

Chollet は、大規模な言語モデルが広く普及する前の 2020 年に ARC ロボットコンテストを開催しました。優勝した AI システムは、ARC のようなタスクを得意とするように特別にトレーニングされました。しかし、大きな言語モデルとは異なり、一般的な機能はなく、質問の 21% しか正解できませんでした。それに比べて、人間は ARC の問題を 80% の確率で正しく解決します7。現在、複数の研究チームが ARC を使用して大規模な言語モデルの機能をテストしていますが、人間のパフォーマンスに及ばないチームはありません。

ミッチェルと彼女の同僚は、ARC にインスピレーションを得た新しいパズルセット (ConceptARC と呼ばれる) を開発しましたが、主に 2 つの違いがあります。 ConceptARC はさらに簡単です。ミッチェルのチームは、ベンチマークにマシンの機能の進歩を少しでも反映できるようにしたいと考えていました。次に、チームはテストする特定の概念を選択し、各概念に基づいてテーマに関連した一連のパズルのバリエーションを作成しました。

たとえば、恒等性の概念をテストするには、ある問題ではソルバーが同じ形状のオブジェクトを所定の位置に保持する必要があり、別の問題ではソルバーが同じ形状のオブジェクトを軸に沿って整列させる必要があります。その考えは、概念を理解せずに AI システムがテストに合格する可能性を減らすことです。

パフォーマンスが悪いとはどういう意味ですか?

研究者らはConceptARCタスクをGPT-4にリリースし、400人の被験者を募集した。人間の得点はすべての概念グループで平均 91% (最高得点グループは 97%)、最高得点の GPT-4 グループでは 33%、残りの概念グループでは 30% にすぎませんでした。

「私たちは、この機械がまだ人間レベルの知能に達していないことを示しました。しかし驚くべきことに、訓練を受けていないにも関わらず、これらの問題のいくつかを解決することができたのです。」とミッチェル氏は語った。

チームは、Chollet コンテストで優勝したロボットもテストしました。これらのロボットは、大規模な言語モデルのような一般的な機能を備えたシステムではなく、ARC などの視覚の問題に特化して訓練されました。全体として、GPT-4 よりも優れたパフォーマンスを示しましたが、それでも人間よりは劣っており、最高のコンセプトグループでは 77% のスコアを獲得しましたが、ほとんどのコンセプトグループでは 60% 未満でした1。

しかし、ボーマン氏は、GPT-4 が ConceptARC のトレーニングに合格しなかったということは、GPT-4 に潜在的な抽象推論能力が欠けていることを証明するものではないと考えています。彼の見解では、ConceptARC と GPT-4 の間にはバイアスがあり、結局のところ視覚テストです。「たとえこれらのモデルがこの種の概念的推論に非常に優れていたとしても、最初からそのようなテストで良いスコアを獲得できる可能性は低いです。」

テスト方法の制限も、GPT-4 のパフォーマンス低下の影響要因である可能性があります。 Big Language Model の公開バージョンはテキスト入力のみを受け入れることができるため、研究者らは画像を説明する数値の配列を提出しました。 (たとえば、空白のピクセルは 0 で表され、色付きの正方形は対応する数字で表される場合があります。) 対照的に、人間の被験者は画像を直接見ることができました。ミッチェル氏も認めています。「私たちは純粋な言語システムと人間を比較していますが、人間は高度に発達した視覚システムを持っているので、この比較は完全に公平ではないのではないかと思います。」

OpenAI は、画像入力を直接受け入れることができる GPT-4 の「マルチモーダル」バージョンを構築しました。ミッチェル氏のチームは、ConceptARC を再度実施できるよう、この技術が正式に公開されるのを待っている。しかし彼女は、マルチモーダル GPT-4 がはるかに優れているとは考えておらず、「これらのシステムには、人間に匹敵する抽象化と推論のレベルがまだ備わっていないと思います。」

マサチューセッツ工科大学の計算認知科学者サム・アクアビバ氏もこれに同意し、パターンはグリッド 8 ではなく単一行に限定されています。これにより、不公平性の問題の一部が解消されるはずですが、Acquaviva 氏は、GPT-4 のパフォーマンスは向上しましたが、大規模な言語モデルに対する信頼できるルールの理解と推論を実証するには不十分であると考えています。

推論引数

ボーマン氏は他のいくつかの実験についても言及しており、総合的な結果によると、大規模言語モデルは少なくとも抽象概念について推論する基本的な能力を習得しているとのことです。あるケースでは、ハーバード大学のコンピューター科学者ケネス・リーと彼の同僚は、プレーヤーが 8 x 8 のグリッド上に白と黒のピースを配置するデジタルバージョンのリバーシを使用しました。彼らは、大規模な言語モデルがテキストを生成するために記憶された言語統計的関係に依存しているのか、それとも人間のような現象の内部表現を実際に構築できるのかを評価したいと考えています。

人間のプレイヤーのアクションのトレーニングセットを大規模言語モデルに送信した後、AI は次の動きに向けて正しい戦略を選択する能力をすぐに習得しました。研究者らは、これは大規模な言語モデルがチェス盤上の状況さえも理解し、現在の機能に基づいてチェスの手を提案できることを示しており、これは明らかにテキスト形式の束縛を打ち破るものだと考えています9。

ボーマン氏は、大規模な言語モデルの推論能力は一般に「さまざま」と表現でき、人間の推論の高みには達していないことを認めています。しかし、彼は推論能力が存在し、モデルのサイズが大きくなるにつれて向上すると考えています。言い換えれば、将来の大規模言語モデルのパフォーマンスはますます向上するでしょう。「これらのシステムは、私たちが望んでいるほど信頼性や汎用性が低く、ある種の抽象的な推論については完全に混乱しています。しかし、それらの基本的な推論能力は客観的に存在すると思います。」

ボウマン氏やミッチェル氏などの研究者らも、抽象推論やその他の知性の指標について、大規模な言語モデルをより適切にテストする方法が依然として未解決の問題であることに同意している。スタンフォード大学の認知科学者マイケル・フランクは、チューリングテストを完全に置き換えることができる単一の包括的なテストは存在しないと考えています。その代わりに、研究者はさまざまなシステムの長所と短所を定量化するために広範なテストを考案する必要があると彼は主張します。「これらのエージェントは優れていますが、非常に多くの点で欠陥があるだけです。したがって、最も重要なことは、これを体系的に調査することです。」

ワーサム氏は、AI システムを初めて使用する人に対して、擬人化への執着を避けるようアドバイスしています。「私たちは人間としての知性を示すものは何でも理解しようとしますが、それは本当に不必要です。」

「それは呪われています。つまり、私たち以外に明確な目標指向を示す知性の形態を想像できないということです。私たちは、知性が私たちと同じ深い思考方法でそうしているのではないかと常に希望的観測をしています。」

参考:

Moskvichev, A.、Odouard, VV & Mitchell, M. プレプリント (2023)。

チューリング、AM Mind LIX、433–460 (1950)。

記事 Google Scholar

Jannai , D. 、Meron , A. 、Lenz , B. 、 Levine , Y. & Shoham , Y. プレプリント (2023)。

オープンAI。 (2023) にプレプリント。

Bubeck, S. et al. (2023) にプレプリント。

Chollet、F. プレプリント (2019)。

Johnson, A.、Vong, WK、Lake, BM & Gureckis, TM プレプリント (2021)。

Xu、Y.、Li、W.、Vaezipoor、P.、Sanner。 S. & Khalil、EB プレプリント (2023)。

リー、Ｋら。手順第11国際会議学び。代表する。（2023年）。

元のリンク:

原文表示

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.