來源:量子位萬萬想不到啊,MIT數學考試,被GPT-4攻破了? !突然有人在最新論文工作中高調宣布:GPT-4在MIT的數學和EECS(電氣工程和計算機科學系)本科學位考試中,**表現出的能力完全滿足畢業要求**。而且妥妥地**拿下滿分**!要知道,測出這個結果的不是別人,正是來自MIT和波士頓大學、康奈爾大學的研究團隊。而且強如上一代王者GPT-3.5,在同樣的測試中,只成功搞定了三分之一。 △GPT-3.5考試成績論文一出,無數目光迅速被吸引過來。 GPT-4這樣看似開掛的行為,自然引發了不少網友的感慨。> 比GPT-3.5強好多,好耶!> 咱就是說,有沒有可能以後不需要比GPT-4更強的模型,來解決學術問題了? 還有網友展現了自己網上沖浪的“前沿性”,玩了個這兩天Yann LeCun吐槽“GPT-4智商不如狗”的梗:## GPT-4開掛MIT考試具體來說,GPT-4這次是參與了這樣一場測試:研究團隊策劃了一個數據集,其中包含4550個問題和解決方案。這4550個問題和解決方案,來自MIT數學系和EECS的學生**獲得本科學位,需要學習的課程問題集、期中考試和期末考試。 **包括:6-1:電氣科學與工程;6-2:電氣工程與計算機科學;6-3:計算機科學與工程;6-4:人工智能與決策;18-1:普通數學;18-2:應用數學;18-3:純數學;18-C:數學與計算機科學。## 每個專業的詳細分類總結題目統統出自MIT的數據集,從中隨機生成228個問題,**不涉及圖像和已有解決方案的問題**。題目的難度等級由易到難依次為:練習、習題、 期中考試、期末考試、實驗和專題。按答案類型排序,題目的難度由易到難依次為:編程、開放、選擇題、數值、表達式和圖像。這一次,參與考試的**不只有GPT-4和GPT-3.5,還有StableVicuna-13B、LLaMA-30B和LLaMA-60B**。選擇讓這4個大模型作為考試參賽選手,原因是它們是“最先進的大語言模型”。## 最終考試成績通過表格里的數據可以看到,得分最高的是經過調優後的GPT-4,得分率100%;表現最一般的是LLaMA-30B,只拿下了30%的分數。值得關注的是,**原始版本的GPT-4開箱即用,完全不經過調優,在本次MIT考試中也拿到了90%的分數**。調優流程,包括Few-Shot+CoT+Self-critique+Experts。 從最終考試成績的表格數據可以看到,從左到右每增加一個環節,調優後的GPT-4得分都會更上一層樓。此外,研究團隊還在提示框裡進行了工程優化,**具體的“咒語”**如下:## 等等,評分人是GPT-4自己?看到這樣的結果,不少網友心生感慨,LLM在數學考試上的進步,未免有些神速了哈。 2年前,AI還在苦苦掙扎小學數學問題。類似**“小明種了5棵檸檬樹,每年從每棵樹上得到6個檸檬,10年間他總共得到多少檸檬”**這種。 去年年初,MIT+哈佛+哥倫比亞大學+滑鐵盧大學的聯合研究表示,把數學問題轉換成等價的編程問題,就可以讓GPT-3的同門師兄弟——OpenAI的Codex掌握高數,達到**MIT本科水平**。學了6門MIT本科基礎數學課裡隨機抽取的例題,6門課程每門隨機出25道題,再加上一個ACT水平(美國高考)的數據集裡的60道題。**總計210道題,AI全部答對。 ** 不過有人提出,AI達到的“MIT本科水平”,實際是Codex在做語言題而非數學題——因為當時的評測中,Codex負責讀寫,並不包括求解。所以,這一回GPT-4表現奇佳,怎一個妙字了得~ 好了,知道你很著急誇它,但你先別著急誇它,因為很快有人發現了一些“詭異”。主要有**2大槽點**。第一個值得質疑一番的,就是OpenAI的訓練數據集沒有完全公佈。這也就意味著,**無法證明數據集中的4550個問題和解決方案,在GPT-4的訓練集中不存在**。換句話說,如果GPT-4在預訓練階段已經接觸到了這次的考題們,那最終拿下完美得分,就沒什麼好驚喜的了。也難怪乎有網友毫不客氣地yygq,認定GPT-4拿到這樣的結果,一定是數據集已經包含在訓練數據裡了。 第二個槽點,就是GPT-4最後100%的得分率,似乎哪裡不對勁? ? ?定睛一看,在論文的第2.6節有一句很關鍵的點:團隊在數據集上微調開源大模型,“給定問題Q、基本事實解S和LLM答案A,我們使用GPT-4自動對模型響應進行評分”。實際操作上,就是每個大模型生成這次考試的答案,然後派出GPT-4打分,分值在0-5之間。**所以給GPT-4打出滿分的,實際上是GPT-4自己。 **啊這……很難說沒有王婆賣瓜自賣自誇的嫌疑。 此外,關於要給GPT-4提供“好的提示”,才能讓它達到滿分成績,也讓許多人抱有微詞。到底什麼算“好的提示”呢?似乎無法定義。 甚至有人喊著,應該把這些題丟給MIT數學和EECS的學生去做,並不斷給他們“好的提示”,這樣人類學生也能拿下100%的吧……## 還有一件事一個小小的彩蛋:整個測試中,基本上可以在筆記本電腦上部署運行的**StableVicuna-13B**,也有48%的得分率。 這個成績,不僅比模型更大的LLaMA-65B高出近10個百分點,就連MIT fine-tuing過後的LLaMA-30B,還要高。讓人不得不陷入一些關於模型規模與能力相關性的思考。參考鏈接:[1][2][3][4]
GPT-4滿分通過MIT本科數學考試!這套提示詞火了
來源:量子位
萬萬想不到啊,MIT數學考試,被GPT-4攻破了? !
突然有人在最新論文工作中高調宣布:
GPT-4在MIT的數學和EECS(電氣工程和計算機科學系)本科學位考試中,表現出的能力完全滿足畢業要求。
而且妥妥地拿下滿分!
要知道,測出這個結果的不是別人,正是來自MIT和波士頓大學、康奈爾大學的研究團隊。
而且強如上一代王者GPT-3.5,在同樣的測試中,只成功搞定了三分之一。
論文一出,無數目光迅速被吸引過來。
GPT-4開掛MIT考試
具體來說,GPT-4這次是參與了這樣一場測試:
研究團隊策劃了一個數據集,其中包含4550個問題和解決方案。
這4550個問題和解決方案,來自MIT數學系和EECS的學生**獲得本科學位,需要學習的課程問題集、期中考試和期末考試。 **
包括:
6-1:電氣科學與工程; 6-2:電氣工程與計算機科學; 6-3:計算機科學與工程; 6-4:人工智能與決策; 18-1:普通數學; 18-2:應用數學; 18-3:純數學; 18-C:數學與計算機科學。
每個專業的詳細分類總結
題目統統出自MIT的數據集,從中隨機生成228個問題,不涉及圖像和已有解決方案的問題。
題目的難度等級由易到難依次為:練習、習題、 期中考試、期末考試、實驗和專題。
按答案類型排序,題目的難度由易到難依次為:編程、開放、選擇題、數值、表達式和圖像。
這一次,參與考試的不只有GPT-4和GPT-3.5,還有StableVicuna-13B、LLaMA-30B和LLaMA-60B。
選擇讓這4個大模型作為考試參賽選手,原因是它們是“最先進的大語言模型”。
最終考試成績
通過表格里的數據可以看到,得分最高的是經過調優後的GPT-4,得分率100%;表現最一般的是LLaMA-30B,只拿下了30%的分數。
值得關注的是,原始版本的GPT-4開箱即用,完全不經過調優,在本次MIT考試中也拿到了90%的分數。
調優流程,包括Few-Shot+CoT+Self-critique+Experts。
此外,研究團隊還在提示框裡進行了工程優化,**具體的“咒語”**如下:
等等,評分人是GPT-4自己?
看到這樣的結果,不少網友心生感慨,LLM在數學考試上的進步,未免有些神速了哈。
類似**“小明種了5棵檸檬樹,每年從每棵樹上得到6個檸檬,10年間他總共得到多少檸檬”**這種。
學了6門MIT本科基礎數學課裡隨機抽取的例題,6門課程每門隨機出25道題,再加上一個ACT水平(美國高考)的數據集裡的60道題。
**總計210道題,AI全部答對。 **
因為當時的評測中,Codex負責讀寫,並不包括求解。
所以,這一回GPT-4表現奇佳,怎一個妙字了得~
主要有2大槽點。
第一個值得質疑一番的,就是OpenAI的訓練數據集沒有完全公佈。
這也就意味著,無法證明數據集中的4550個問題和解決方案,在GPT-4的訓練集中不存在。
換句話說,如果GPT-4在預訓練階段已經接觸到了這次的考題們,那最終拿下完美得分,就沒什麼好驚喜的了。
也難怪乎有網友毫不客氣地yygq,認定GPT-4拿到這樣的結果,一定是數據集已經包含在訓練數據裡了。
定睛一看,在論文的第2.6節有一句很關鍵的點:
團隊在數據集上微調開源大模型,“給定問題Q、基本事實解S和LLM答案A,我們使用GPT-4自動對模型響應進行評分”。
實際操作上,就是每個大模型生成這次考試的答案,然後派出GPT-4打分,分值在0-5之間。
**所以給GPT-4打出滿分的,實際上是GPT-4自己。 **
啊這……很難說沒有王婆賣瓜自賣自誇的嫌疑。
到底什麼算“好的提示”呢?似乎無法定義。
## 還有一件事
一個小小的彩蛋:
整個測試中,基本上可以在筆記本電腦上部署運行的StableVicuna-13B,也有48%的得分率。
讓人不得不陷入一些關於模型規模與能力相關性的思考。
參考鏈接: [1] [2] [3] [4]