初中題都不會了，ChatGPT、文心一言、Claude露出雞腳了？

Question

“我用幾個模型計算得到的結果都不一樣……”7月14日，一位群友使用AI幫助計算一道數學題：高為11cm，上底直徑為7.8cm，下底直徑為6.2cm的圓台的容積為多少毫升？這位網友使用了Claude-2、GPT-4、ChatGPT，得出的結果分別是：3634.57毫升、359.4毫升、469.3毫升。另一位群友用文心一言得出的結果是64474.666666666635毫升。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-afed2679da-dd1a6f-7649e1) “初中題不會了”，“好傢伙，各不相同”群友們七嘴八舌地評價。我也好奇地使用ChatGPT測試了一下，得出的結果是1436.08毫升。ChatGPT給出的計算步驟是完全正確的，圓台的容積公式=πh\*(R^2+r^2+R\*r)/3。然而計算的結果是錯誤的。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9a31212f99-dd1a6f-7649e1) 我讓ChatGPT再次回答，得出的結果是513.47毫升。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2754e26cc3-dd1a6f-7649e1) 就離譜，計算步驟完全正確，最後的結果竟然每次都不一樣。我又使用了百度瀏覽器自帶的“AI”，這是由文心一言支持的大模型。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-95046ef637-dd1a6f-7649e1) 第一次得出的結果是：193522.10746113118毫升![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d16e243b24-dd1a6f-7649e1) 這錯的太離譜了，我又問了一下得出的結果是：1168.75毫升![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-12f423d093-dd1a6f-7649e1) 還是不對，我又問了一下，結果是：1099620毫升![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-09c4c1692b-dd1a6f-7649e1) 再三追問下，百度AI不裝了，徹底擺爛了。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-381179b6de-dd1a6f-7649e1) 此前報導，GPT-4在MIT的數學本科學位考試中拿下滿分，後來被曝出測試數據集的很大一部分被污染了。也就是說，模型就像一個學生在考試前被告知了答案，這是赤裸裸的「作弊」。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-04ff92079c-dd1a6f-7649e1) 此前還有報導，ChatGPT在參加中國高考數學考試中翻車‌。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5ebc9de8ce-dd1a6f-7649e1) 大模型無疑是最近被追捧的技術，然而頻出的翻車案例，似乎如此前物理學者、科普作家張天蓉所說，語言模型本質是概率論的勝利‌，通俗的意思**就是一個會“文字接龍”的機器**，變換器對輸入進行一個合理的延續，鬧出一本正經地胡說八道的笑話也就不難理解了。若大模型是概率論的勝利，那麼人工智能覺醒還遠未到來。