研究:人類決策的不確定性會是改善AI 的關鍵嗎?

撰文:Kevin Dickinson

來源:FreeThink

圖片來源:由無界AI工具產生

許多人工智慧模型都假定人類對自己的決定總是確定的。這會帶來不幸的後果。

對我們許多人來說,科技提供了一種解決不確定性的方法。如果我們想不起來某個事實或弄不清楚某件事情,我們只需搜尋一下,就能得到答案。巴黎和會是哪一年結束的?谷歌一下…1920 年。 10 公里跑有多少英哩? 6.2 英里。誰與奧斯卡影帝布蘭登- 弗雷澤(Brendan Fraser)一起主演了他的處女作《恩西諾人》?肖恩- 阿斯汀和保利- 肖爾。

有趣的是,相反的情況也越來越多-- 電腦正在依賴人類來檢查它們的工作。 「人機回環」(Human-in-the-loop)AI 系統依賴人類的干預,以確保AI 沒有誤讀資訊並做出不準確的預測。這種情況往往比電影花絮更為關鍵。

例如,放射科醫生會查看人工智慧的X 光診斷,以確定它是否遺漏了骨折或病變。然後,人類可以糾正任何錯誤,確保病人得到適當的治療。這是一種非常好的合作關係,但其中也有一個小問題:人類很少能百分之百確定自己的結論。

同一位放射科醫師可能會在X 光片上看到一個顏色不同的骨組織區域,然後會想:「這是病變還是X 光片本身的不規則?如果是病變,原因是什麼,是良性還是惡性?」即使是訓練有素的專家-- 也許尤其是專家-- 也經常在他們的觀察和決定中加入這種不確定性。如果他們認為有10% 的幾率會有其他診斷結果,他們就可以與病人討論,並制定相應的計劃。

雖然這在我們看來很自然,但人機回環系統卻不會這樣推理。它們將人類的干預視為二元:人類要麼知道自己知道什麼,要麼不知道。反過來,這可能會限制AI 系統在合作關係中降低人為錯誤風險的能力。

那麼,這些系統是否有可能更好地理解人類決策的細微差別,從而提高它們的能力,以及我們自己的表現?劍橋大學的研究團隊在一篇新的研究論文中對這個問題進行了測試。

**你確定嗎? **

在首次測試中,研究人員使用了基於概念的模型-- 透過人類回饋改進預測的機器學習模型-- 兩個資料集。第一個資料集名為“CheXpert”,將胸部X 光片進行分類。另一個資料集名為UMNIST,對手寫樣本中的數字加總。與大多數基於概念的模型一樣,這兩種模型之前都沒有接受過不確定性訓練,因此研究人員想看看它們將如何處理不確定性。

這項研究的第一作者、劍橋大學工程系研究生Katherine Collins 表示:「很多開發人員都在努力解決模型的不確定性問題,但從人的角度解決不確定性問題的工作還比較少。」“我們想看看當人們表達不確定性時會發生什麼,這在安全關鍵環境中尤其重要。”

答案是:不是很好。研究人員發現,即使模擬的不確定性較低,模型的表現也會下降,並且隨著不確定性的增加而繼續下降。這表明,這些模型在接受完全確定的干預時雖然準確,但「無法推廣到干預使用者對某些概念的性質不確定的環境中」。

在下一次測試中,研究人員使用了鳥類影像分類資料集,並引入了真實的人類參與者。這些參與者被要求識別圖像中鳥類的具體特徵。鳥是多色的、純色的、斑點的還是條紋的?它的尾巴形狀是叉形、圓形、扇形還是方形?等等。

然而,圖片並不總是能最好地表現鳥類。圖片中的鳥可能是明亮背景下的剪影,或是尾羽被樹枝遮擋。因此,研究人員賦予人類參與者使用「軟標籤」的能力-- 這些概念並非非此即彼,而是允許人類在0-100 之間標註可信度(0 代表不知道,100 代表絕對肯定) 。

例如,如果受試者認為鳥的翅膀形狀寬大是非常可信的,他們可以將滑塊移動到80。但如果他們不太確定翅膀是圓的還是尖的,就可以少移動滑塊(例如分別移動到20 和10)。

研究人員發現,當機器被人類取代時,性能會下降。不過,他們也發現,如果對模型進行不確定性訓練,就能緩解人類參與者的一些錯誤。然而,這些模型並不完美。有時,人類的不確定性會有所幫助;而有時,它會損害模型的表現。

「我們需要更好的工具來重新校準這些模型,以便讓使用這些模型的人有能力在不確定的時候說出來,」這項研究的共同作者Matthew Barker 說。 「在某些方面,這項工作提出的問題比回答的問題要多,但即使人類在不確定性方面可能會出現誤判,我們也可以透過考慮人類行為來提高這些人機回環系統的可信度和可靠性」。

普林斯頓大學、阿蘭- 圖靈研究所和谷歌DeepMind 的研究人員也加入了劍橋團隊的研究。他們在蒙特婁舉行的2023 年AAI/ACM 人工智慧、倫理與社會會議上發表了論文。該論文目前已作為預印本發佈在arXiv 上。

邁向不確定的未來

研究人員希望他們的論文能有助於在有朝一日發展出考慮不確定性的人機回環系統,從而降低人類和人工智慧出錯的風險。然而,這項研究只是朝著這個目標邁出的第一步。

它也揭示了未來研究面臨的幾個挑戰。這些挑戰包括:如何開發人工智慧模型和介入策略,以考慮到眾所周知的人類預測錯誤(如過度自信偏差);創建可幫助人類衡量其不確定性的介面;以及訓練人工智慧模型來處理不同類型的不確定性,例如質疑自己的知識與隨機效應將如何發揮作用之間的差異。

如果能解決這些問題,人類的不確定性就能更好地支持「人機回環」中「人」的部分,從而幫助提高這些模型的性能。

「正如我們的一些同事所說,不確定性是一種透明度,這一點非常重要,」Collins 補充道。 “我們需要弄清楚什麼時候可以相信模型,什麼時候應該相信人,以及為什麼。在某些應用中,我們關注的是機率而不是可能性。”

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)