初中題都不會了,ChatGPT、文心一言、Claude露出雞腳了?

“我用幾個模型計算得到的結果都不一樣……”

7月14日,一位群友使用AI幫助計算一道數學題:高為11cm,上底直徑為7.8cm,下底直徑為6.2cm的圓台的容積為多少毫升?

這位網友使用了Claude-2、GPT-4、ChatGPT,得出的結果分別是:3634.57毫升、359.4毫升、469.3毫升。

另一位群友用文心一言得出的結果是64474.666666666635毫升。

“初中題不會了”,“好傢伙,各不相同”群友們七嘴八舌地評價。

我也好奇地使用ChatGPT測試了一下,得出的結果是1436.08毫升。

ChatGPT給出的計算步驟是完全正確的,圓台的容積公式=πh*(R^2+r^2+R*r)/3。

然而計算的結果是錯誤的。

我讓ChatGPT再次回答,得出的結果是513.47毫升。

就離譜,計算步驟完全正確,最後的結果竟然每次都不一樣。

我又使用了百度瀏覽器自帶的“AI”,這是由文心一言支持的大模型。

第一次得出的結果是:193522.10746113118毫升

這錯的太離譜了,我又問了一下得出的結果是:1168.75毫升

還是不對,我又問了一下,結果是:1099620毫升

再三追問下,百度AI不裝了,徹底擺爛了。

此前報導,GPT-4在MIT的數學本科學位考試中拿下滿分,後來被曝出測試數據集的很大一部分被污染了。也就是說,模型就像一個學生在考試前被告知了答案,這是赤裸裸的「作弊」。

此前還有報導,ChatGPT在參加中國高考數學考試中翻車‌。

大模型無疑是最近被追捧的技術,然而頻出的翻車案例,似乎如此前物理學者、科普作家張天蓉所說,語言模型本質是概率論的勝利‌,通俗的意思就是一個會“文字接龍”的機器,變換器對輸入進行一個合理的延續,鬧出一本正經地胡說八道的笑話也就不難理解了。

若大模型是概率論的勝利,那麼人工智能覺醒還遠未到來。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)