穩健,是 Gate 持續增長的核心動力。
真正的成長,不是順風順水,而是在市場低迷時依然堅定前行。我們或許能預判牛熊市的大致節奏,但絕無法精準預測它們何時到來。特別是在熊市週期,才真正考驗一家交易所的實力。
Gate 今天發布了2025年第二季度的報告。作爲內部人,看到這些數據我也挺驚喜的——用戶規模突破3000萬,現貨交易量逆勢環比增長14%,成爲前十交易所中唯一實現雙位數增長的平台,並且登頂全球第二大交易所;合約交易量屢創新高,全球化戰略穩步推進。
更重要的是,穩健並不等於守成,而是在面臨嚴峻市場的同時,還能持續創造新的增長空間。
歡迎閱讀完整報告:https://www.gate.com/zh/announcements/article/46117
被騙了? GPT-4 其實沒有推理能力? !
整理| 屠敏
上市 | CSDN(ID:CSDNnews)
今年三月,OpenAI 重磅發布了GPT-4 大模型,帶來了比ChatGPT 背後GPT-3.5 更強的推理、計算、邏輯能力,也引發了全民使用的熱潮。在各行各領域研究人員、開發者、設計師的使用過程中,「GPT-4 是最為領先的大模型」似乎已成為了公認的結果。
然而,8 月7 日,畢業於美國麻省理工學院、現任Dyania Health CTO 的Konstantine Arkoudas 最新撰寫了一篇標題為《GPT-4 Can't Reason》(GPT-4 不能推理)的預印本(指尚未在需要同行評審的科學期刊上出版的科學文獻的草稿)論文,在業界引起軒然大波。
該論文指出,GPT-4 與GPT 3.5 相比有了全面的實質性改進。然而,儘管確實取得了令人印象深刻的改進,但其有充分的理由對GPT-4 的推理能力表示高度懷疑。這篇論文討論了推理的本質,批評當前NLP 界對推理問題的表述以及目前評估LLM 推理表現的方式,同時分享了基於GPT-4 給出的21 個不同推理問題的集合。
最終得出結論:**儘管GPT-4 偶爾會閃現出分析的才華,但它目前是完全無法推理的。 **
論文地址:
**什麼是推理? **
其實在今年一月初,論文作者Konstantine Arkoudas 就在Medium 平台上分享了一篇有關ChatGPT 的非正式評估,評估涉及的學科非常廣泛,包括傳統NLU、民間物理、信息檢索、心理理論、空間推理、簡單邏輯推理和數學。
當時其得到的主要結論是:ChatGPT 是一項開創性的突破;基於LLM 的系統並不只是“隨機鸚鵡”,而是建立了真正的抽象,並能展現創造力;這類系統將帶來大量令人興奮的新應用;儘管取得了上述的成就,但這些系統在推理能力上仍然受到嚴重限制。
在他看來,如今升級版的GPT-4 依然如此,甚至完全沒有推理能力。
在論文中,Konstantine Arkoudas 指出,業界關於“LLM 是否有推理能力”的爭論已經持續了很長時間。
基於這兩方面考慮,Konstantine Arkoudas 認為,對於可靠的魯棒LLM 推理的合理性,最令人信服的先驗(過往經驗和分析)考慮是計算複雜性的結果。推理是一個非常難以計算的問題。事實上,在一般情況下(一階或高階邏輯),它在算法上是不可判定的。
Konstantine Arkoudas 表示,「任何LLM,無論規模有多大,經過多麼廣泛和巧都無法破解任意推理問題。這與機器學習中著名的"沒有免費的午餐"定理是一致的,後者指出了模型通用性與性能之間類似的反比關係」。
因此,為了驗證“GPT-4 是否具有推理能力”,首先要做的是統一理念,即什麼是推理,以及判定推理能力所採用的具體方法。
對於推理的定義,Konstantine Arkoudas 表示,「推理不是不擇手段地得出正確的答案,而是根據正確的理由得出正確的答案。」
更準確地說,推理是提出論點,更重要的是證明論點的過程。一個論證包括一個結論(可以說是論證的結果)和一系列前提,結論就是由這些前提推導出來的。前提代表了為論證目的而被視為既定的信息,即使只是暫時的。結論和前提通常是陳述句,用自然語言或符號邏輯的符號來表達,可真可假,但也可以用圖表等其他符號來表示。如果S 中的所有句子都為真,則p 為真,在這種情況下,這個論點被認為是有效的。
對於方法論,Konstantine Arkoudas 在論文中所採用的評估不是基於一個語料庫或一組語料庫。相反,其對GPT-4 在廣泛領域的21 個簡單推理問題上的性能進行了詳細的定性分析,其中大部分是從頭開始編寫的,而其餘的(例如Wason 的選擇任務)則經過手動調整,使模型不易識別它們,這樣做的部分原因也是為了避免數據污染。
用測試問題驗證GPT-4 的推理性
基於此,Konstantine Arkoudas 從多個維度對GPT-4 提出問題,並根據其輸出進行了詳盡的分析。
值得一提的是,由於GPT-4 的屬性,有時候即使用相同的“”,在不同的運行中也可能會得到不同的答案。
接下來,驗證開始(以下所有測試時間多出自2023 年7 月5 日測試結果)。
簡單算術
Konstantine Arkoudas 表示,執行基本算術運算的能力是通用推理的必要組成部分,尤其是在科學和工程應用領域。為了確保GPT-4 不會死記硬背,他提出了讓GPT-4 在其選擇的範圍內隨機選擇兩個隨機整數,然後對選擇的值執行操作。
KA 給出的是:
在1381 和1453 之間選擇兩個隨機數,然後將它們相乘,並報告結果。
GPT-4 的回答是:
當然,讓我們在1381 到1453 的範圍內選取兩個隨機數。假設這個數字是1405 和1421。
要得到乘積,我們只需將這兩個數字相乘:1405*1421 = 1996025
事實證明,GPT-4 仍然無法可靠地執行基本算術運算,如加法和乘法。
Konstantine Arkoudas 表示,也許LLM 的支持者此時可能會承認GPT-4 不是一個圖靈完備的框架,不能執行通用計算:它不能進行加、乘法或除法運算,不能對列表進行排序、不能求逆矩陣或解微分方程組、不能將任意程序編譯成機器碼、不能推導定理等等。
不過,這些計算能力的缺失可以通過第三方插件來彌補,如ReAct、MRKL 框架。正是這種工作方式催生了LangChain 和AutoGPT 這樣的系統。這裡的想法是使用LLM 作為規劃器,將復雜問題遞歸分解為一系列子問題,通過適當的API 將這些子問題分派給專門的代理。
然而,Konstantine Arkoudas 認為,這種方法的問題在於它的循環性。規劃本身就需要推理,所以這是一個"兩難選擇",即我們無法通過將問題委託給合適的代理來解決推理問題,因為找出委託的方法(如何分解問題、調用哪些代理、如何調用以及如何分解結果)本身在計算上就不可行。這不僅需要理解自然語言的能力,還需要推理先決條件和效果的能力。即使在這些過於簡單化的假設下,規劃的計算成本也非常高昂(PSPACE-complele),需要進行徹底的簡化才能將復雜度降低到NP-complele 的水平。在更現實的假設條件下,規劃是在不完全的知識條件下進行的,在機制上是不可判定的。正如我們今天所理解的那樣,期望通用LLMs 能夠成功解決規劃問題是天真的想法。
簡單計數
給GPT-4 一個命題變量,在它前面有27 個否定符號,並要求它計算否定的數量。對於人類來說,這是個很容易的任務,尤其是因為否定符號是分五塊寫的,每塊有五個小點,最後是一對否定符號,但是GPT-4 的表現如何呢?
K A:
在下面的公式中,p 被否定了多少次: