This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
MIT の学部数学試験に GPT-4 の満点で合格しました。この一連のプロンプトは有効です
出典: 量子ビット
意外なことに、MIT の数学テストは GPT-4 によって破られました? !
突然、誰かが最新の論文で注目を集める発表を行いました。
GPT-4 MIT の数学および EECS (電気工学およびコンピュータ サイエンス学科) の学位試験において、卒業要件を完全に満たす能力を実証。
そしてちゃんと満点を獲得してください!
ご存知のとおり、この結果を測定したのは他でもない、MIT、ボストン大学、コーネル大学の研究チームです。
前世代の王者 GPT-3.5 よりも強力で、同じテストでは 3 分の 1 しか成功しませんでした。
この紙が出てくるとすぐに、数え切れないほどの視線が集まりました。
GPT-4 オープン MIT 試験
具体的には、今回 GPT-4 は次のようなテストに参加しました。
研究チームは、4,550 の問題と解決策を含むデータセットを厳選しました。
これらの 4,550 の問題と解答は、MIT 数学学部および EECS の学生**が学士号を取得するために勉強する必要があるコースの問題セット、中間試験、および最終試験からのものです。 **
含む:
6-1: 電気科学および工学; 6-2: 電気工学とコンピュータサイエンス。 6-3: コンピュータサイエンスとエンジニアリング。 6-4: 人工知能と意思決定。 18-1: 一般数学; 18-2: 応用数学; 18-3: 純粋数学。 18-C: 数学とコンピューターサイエンス。
各専攻の詳細な分類まとめ
質問はすべて MIT データセットからのもので、そこから 228 個の質問がランダムに生成されます。画像や既存の解決策を含まない問題です。
トピックの難易度は、簡単なものから難しいものの順に、演習、演習、中間試験、期末試験、実験、特別プロジェクトとなっています。
質問の難易度は、答えの種類ごとに簡単なものから難しいものまで、プログラミング、オープン、多肢選択、数値、表現、画像の順に並べられています。
今回はGPT-4とGPT-3.5だけでなく、StableVicuna-13B、LLaMA-30B、LLaMA-60B**もテストに参加しています。
これら 4 つの大型モデルは、「最先端の大型言語モデル」であるため、テスト対象として選ばれました。
最終試験のスコア
表のデータからわかるように、調整された GPT-4 はスコア率 100% で最も高いスコアを持っていますが、最も一般的なパフォーマンスは LLaMA-30B であり、スコアの 30% のみをスコアしています。
GPT-4 のオリジナル バージョンはまったくチューニングせずにそのまま使用され、この MIT 試験でも 90% のスコアを獲得したことは注目に値します。
少数ショット + CoT + 自己批評 + 専門家を含むチューニング プロセス。
さらに、研究チームはプロンプト ボックスでエンジニアリングの最適化も実行しました。**具体的な「呪文」**は次のとおりです。
待って、評価者は GPT-4 自身ですか?
このような結果を見て、多くのネチズンは数学試験におけるLLMの進歩が少し速いと感じました。
「シャオミンは 5 本のレモンの木を植え、毎年各木から 6 個のレモンを収穫しました。10 年間で合計で何個のレモンを収穫しましたか?」 に似ています。
MIT の学部基礎数学コースからランダムに選択された 6 つのサンプル問題を学習しました。6 つのコースのそれぞれがランダムに生成した 25 問と、ACT レベル (アメリカの大学入学試験) のデータセットからの 60 問をランダムに生成しました。
**合計 210 問、AI が全問正解しました。 **
なぜなら、当時の評価ではコーデックスは読み書きを担当しており、解くことは含まれていなかったからです。
ということで、今回のGPT-4は大活躍で、素晴らしいの一言でした~。
主に 2 つの主要スロットがあります。
まず疑問に思うべきことは、OpenAI のトレーニング データセットが完全にはリリースされていないということです。
これは、データセット内の 4550 の問題と解決策が GPT-4 トレーニング セットに存在しないことを証明できないことも意味します。
言い換えれば、GPT-4 が事前トレーニング段階でテスト問題にさらされていれば、最終的には満点を獲得し、驚くようなことはありません。
一部のネチズンが不謹慎に yygq を行い、GPT-4 がそのような結果を得たと信じているのも不思議ではありません。データセットがトレーニング データに含まれているに違いありません。
詳しく見てみると、この論文のセクション 2.6 に重要なポイントがあります。
チームは、データセット上のオープンソースの大規模モデルを微調整します。「質問 Q、グラウンド トゥルース ソリューション S、LLM 回答 A が与えられた場合、GPT-4 を使用してモデルの応答を自動的にスコアリングします。」
実際には、各大規模モデルがこのテストの回答を生成し、GPT-4 を送信してスコアを 0 ~ 5 の間でスコア付けします。
**つまり、GPT-4 に満点を与えたのは、実際には GPT-4 自体です。 **
ああ、これは…王坡がメロンを売って自慢している疑いがないとは言い難い。
「良いヒント」とは一体何でしょうか?定義するのは不可能のようです。
## もう一つ
小さなイースターエッグ:
基本的にラップトップ上で展開して実行できる StableVicuna-13B も、テスト全体を通じて 48% のスコアを獲得しました。
モデルのサイズと機能の相関関係について、人々は何らかの考え方に陥る必要があります。
参考リンク: [1] [2] [3] [4]