📢 Gate廣場專屬 #WXTM创作大赛# 正式開啓!
聚焦 CandyDrop 第59期 —— MinoTari (WXTM),總獎池 70,000 枚 WXTM 等你贏!
🎯 關於 MinoTari (WXTM)
Tari 是一個以數字資產爲核心的區塊鏈協議,由 Rust 構建,致力於爲創作者提供設計全新數字體驗的平台。
通過 Tari,數字稀缺資產(如收藏品、遊戲資產等)將成爲創作者拓展商業價值的新方式。
🎨 活動時間:
2025年8月7日 17:00 - 8月12日 24:00(UTC+8)
📌 參與方式:
在 Gate廣場發布與 WXTM 或相關活動(充值 / 交易 / CandyDrop)相關的原創內容
內容不少於 100 字,形式不限(觀點分析、教程分享、圖文創意等)
添加標籤: #WXTM创作大赛# 和 #WXTM#
附本人活動截圖(如充值記錄、交易頁面或 CandyDrop 報名圖)
🏆 獎勵設置(共計 70,000 枚 WXTM):
一等獎(1名):20,000 枚 WXTM
二等獎(3名):10,000 枚 WXTM
三等獎(10名):2,000 枚 WXTM
📋 評選標準:
內容質量(主題相關、邏輯清晰、有深度)
用戶互動熱度(點讚、評論)
附帶參與截圖者優先
📄 活動說明:
內容必須原創,禁止抄襲和小號刷量行爲
獲獎用戶需完成 Gate廣場實名
AI能理解自己生成的東西嗎? 在GPT-4、Midjourney上實驗后,有人破案了
文章來源:機器之心
編輯:大盤雞、蛋醬
從 ChatGPT 到 GPT4,從 DALL・E 2/3 到 Midjourney,生成式 AI 引發了前所未有的全球關注。 強大的潛力讓人們對 AI 產生了許多期待,但是強大的智慧也會引發人們的恐懼和擔憂。 近期大牛們針對該問題還上演了一場激烈的論戰。 先是圖靈得獎主們「混戰」,後有吳恩達下場加入。
在語言和視覺領域,目前的生成模型只需要幾秒鐘就可輸出,甚至能夠挑戰具有多年技能和知識的專家。 這似乎為模型已經超越人類智能的說法提供了令人信服的動機。 但是,同樣需要注意到的是,模型輸出中常有理解性的基本錯誤。
這樣看來,似乎出現了一個悖論:我們要如何協調這些模型看似超人的能力與持續存在的大多數人類都能糾正的基本錯誤?
近日,華盛頓大學與艾倫人工智慧研究院(Allen Institute for AI)聯合發佈論文,對這一悖論進行研究。
本文認為,之所以會出現這樣的現象,是因為當今生成模型中的能力配置與人類的智慧配置相背離。 本文提出並測試了生成式 AI 悖論假設:生成模型通過訓練,直接輸出媲美專家的結果,該過程直接跳過了理解生成該質量輸出的能力。 然而,對於人類來說,這截然不同,基本的理解往往是專家級輸出能力的先決條件。
在本文中,研究者通過對照實驗來檢驗這一假設,分析生成模型對文本和視覺的生成、理解能力。 本文首先通過兩個角度講生成模型的「理解」概念化:
研究者發現,在選擇性評估中,模型在生成任務設置中的表現往往與人類相當甚至優於人類,但在判別(理解)設置中,模型的表現卻不及人類。 進一步的分析表明,與 GPT-4 相比,人類的判別能力與生成能力聯繫更為緊密,而且人類的判別能力對對抗性輸入也更為魯棒,模型與人類的判別能力差距隨著任務難度的增加而增大。
同樣,在詢問性評估中,雖然模型可以在不同任務中產生高質量的輸出,但研究者觀察到模型在回答有關這些輸出的問題時經常出現錯誤,模型的理解能力再次低於人類的理解能力。 本文討論了生成模型與人類在能力配置上出現分歧的一系列潛在原因,包括模型訓練目標、輸入的大小和性質。
這項研究的意義在於,首先,這意味著從人類經驗中得出的現有智慧概念可能無法推廣到 AI,即使 AI 的能力在很多方面似乎模仿或超越了人類智慧,但其能力可能與人類的預期模式存在根本性差異。 另一方面,本文研究結果也建議,在研究生成模型以深入瞭解人類智慧和認知時要謹慎,因為看似專家級的類人輸出可能掩蓋了非人類的機制。
總之,生成式 AI 悖論鼓勵人們把模型作為一個人類智慧的有趣對立面來研究,而不是作為一個平行的對立面來研究。
「生成式 AI 悖論強調了一個有趣的概念,即 AI 模型可以創造出它們自己可能無法完全理解的內容。 這就提出了人工智慧存在理解的局限性及其強大的生成能力背後所面臨的潛在問題。」 網友表示。
何謂生成式 AI 悖論
我們首先瞭解一下生成式 AI 悖論以及測試它的實驗設計。
生成模型獲得生成能力似乎比獲得理解能力更有效,這與人類的智慧形成鮮明對比,後者通常是獲得生成能力更難。
要驗證這一假設,需要對悖論的各個方面進行操作性定義。 首先,對於給定的模型和任務 t,以人類智慧為基線,生成能力比理解能力「更有效」意味著什麼。 將 g 和 u 作為生成和理解的一些性能指標,研究者將生成式人工智慧悖論假設正式表述為:
生成的操作性定義很簡單:給定一個任務輸入(問題 / 提示),生成就是生成可觀察到的內容以滿足該輸入。 因此,可以自動或由人類對性能 g 進行評估(如風格、正確性、偏好)。 雖然理解能力不是由一些可觀察到的輸出來定義的,但可以通過明確定義其效果來進行測試:
這些關於理解的定義提供了一個評估「生成式 AI 悖論」的藍圖,讓研究者能夠檢驗假設 1 是否在不同模式、任務和模型中都成立。
**當模型可以生成時,它們能否判別? **
首先,研究者在選擇性評估中對生成性任務和判別性任務的變體進行了並列性能分析,以評估模型在語言和視覺模式下的生成和理解能力。 他們將這種生成和判別性能與人類進行比較。
下圖 2 比較了 GPT-3.5、GPT-4 和人類的生成和判別性能。 可以看到,在13個數據集中的10個數據集中,至少有一個模型支援子假設1,模型的生成能力優於人類,但判別能力低於人類。 在13個數據集中,有7個數據集的兩個模型都支援子假設1。
圖 4(右)展示了 OpenCLIP 與人類在不同難度下的判別性能對比。 總之,這些結果突出表明,即使面對具有挑戰性或對抗性的樣本,人類也有能力判別出正確答案,但這種能力在語言模型中並不那麼強大。 這種差異引發了人們對這些模型真正理解程度的疑問。
**模型能理解自己生成的結果嗎? **
上一節展示了模型通常擅長生成準確的答案,而在判別任務中卻落後於人類。 現在,在提問式評估中,研究者通過直接向模型提出有關生成內容的問題,以研究模型能在多大程度上展示出對生成內容有意義的理解 —— 而這正是人類的強項。
因此研究者預計,如果將模型與人類專家進行比較,在理解自己生成內容方面的性能差距會進一步拉大,因為人類專家很可能以接近完美的準確度回答此類問題。
圖 6(右)展示的是視覺模式下的提問結果。 可以看到,圖像理解模型在回答有關生成圖像中元素的簡單問題時,其準確性仍然無法與人類相比。 同時,圖像生成 SOTA 模型在生成圖像的品質和速度上都超過了大多數普通人(預計普通人很難生成類似的逼真圖像),這表明視覺 AI 在生成(較強)和理解(較弱)方面與人類存在相對差距。 令人驚訝的是,與先進的多模態 LLM(即 Bard 和 BingChat)相比,簡單模型與人類之間的性能差距較小,後者具有一些引人入勝的視覺理解能力,但仍難以回答有關生成圖像的簡單問題。