“我用幾個模型計算得到的結果都不一樣……”
7月14日,一位群友使用AI幫助計算一道數學題:高為11cm,上底直徑為7.8cm,下底直徑為6.2cm的圓台的容積為多少毫升?
這位網友使用了Claude-2、GPT-4、ChatGPT,得出的結果分別是:3634.57毫升、359.4毫升、469.3毫升。
另一位群友用文心一言得出的結果是64474.666666666635毫升。
“初中題不會了”,“好傢伙,各不相同”群友們七嘴八舌地評價。
我也好奇地使用ChatGPT測試了一下,得出的結果是1436.08毫升。
ChatGPT給出的計算步驟是完全正確的,圓台的容積公式=πh*(R^2+r^2+R*r)/3。
然而計算的結果是錯誤的。
我讓ChatGPT再次回答,得出的結果是513.47毫升。
就離譜,計算步驟完全正確,最後的結果竟然每次都不一樣。
我又使用了百度瀏覽器自帶的“AI”,這是由文心一言支持的大模型。
第一次得出的結果是:193522.10746113118毫升
這錯的太離譜了,我又問了一下得出的結果是:1168.75毫升
還是不對,我又問了一下,結果是:1099620毫升
再三追問下,百度AI不裝了,徹底擺爛了。
此前報導,GPT-4在MIT的數學本科學位考試中拿下滿分,後來被曝出測試數據集的很大一部分被污染了。也就是說,模型就像一個學生在考試前被告知了答案,這是赤裸裸的「作弊」。
此前還有報導,ChatGPT在參加中國高考數學考試中翻車。
大模型無疑是最近被追捧的技術,然而頻出的翻車案例,似乎如此前物理學者、科普作家張天蓉所說,語言模型本質是概率論的勝利,通俗的意思就是一個會“文字接龍”的機器,變換器對輸入進行一個合理的延續,鬧出一本正經地胡說八道的笑話也就不難理解了。
若大模型是概率論的勝利,那麼人工智能覺醒還遠未到來。
14k 熱度
515 熱度
45k 熱度
42 熱度
7k 熱度
3k 熱度
10k 熱度
150k 熱度
44k 熱度
初中題都不會了,ChatGPT、文心一言、Claude露出雞腳了?
“我用幾個模型計算得到的結果都不一樣……”
7月14日,一位群友使用AI幫助計算一道數學題:高為11cm,上底直徑為7.8cm,下底直徑為6.2cm的圓台的容積為多少毫升?
這位網友使用了Claude-2、GPT-4、ChatGPT,得出的結果分別是:3634.57毫升、359.4毫升、469.3毫升。
另一位群友用文心一言得出的結果是64474.666666666635毫升。
我也好奇地使用ChatGPT測試了一下,得出的結果是1436.08毫升。
ChatGPT給出的計算步驟是完全正確的,圓台的容積公式=πh*(R^2+r^2+R*r)/3。
然而計算的結果是錯誤的。
我又使用了百度瀏覽器自帶的“AI”,這是由文心一言支持的大模型。
若大模型是概率論的勝利,那麼人工智能覺醒還遠未到來。