ChatGPT 多模態能力引發熱潮,但自家論文揭示GPT-4V 仍有缺陷

撰文:Kyle Wiggers

來源:TechCrunch

圖片來源:由無界AI工具產生

當OpenAI 首次發布其旗艦文本生成人工智慧模型GPT-4 時,該公司吹捧了該模型的多模態性-- 換句話說,它不僅能理解文本,還能理解圖像。 OpenAI 表示,GPT-4 可以為相對複雜的圖片添加字幕,甚至進行解釋,例如從插入iPhone 的圖片中識別出Lightning Cable 適配器。

但自從GPT-4 於3 月底發布以來,OpenAI 一直在保留模型的圖像功能,據說是因為擔心濫用和隱私問題。直到最近,這些擔憂的確切性質仍然是個謎。而在本周初,OpenAI 發表了一篇技術論文,詳細介紹了其為減少GPT-4 影像分析工具中問題較多的方面所做的工作。

迄今為止,有視覺功能的GPT-4(OpenAI 內部簡稱為“GPT-4V”)僅被Be My Eyes(一款幫助視弱群體和盲人瀏覽周圍環境的應用程式)的數千名用戶定期使用。然而,據該論文稱,在過去幾個月裡,OpenAI 也開始與「紅隊人員」合作,探究該模型是否存在意外行為的跡象。

在論文中,OpenAI 聲稱它已經採取了保障措施來防止GPT-4V 被惡意使用,例如破解驗證碼、識別一個人或估計其年齡或種族,以及根據照片中不存在的資訊得出結論。 OpenAI 也表示,它已經努力抑制GPT-4V 中更有害的偏見,尤其是那些與人的外表、性別或種族有關的偏見。

但與所有人工智慧模式一樣,保障措施也只能做到這麼多。

論文顯示,GPT-4V 有時很難做出正確的推斷,例如,它會錯誤地將圖像中的兩串文字組合在一起,創造出一個虛構的術語。與基礎GPT-4 一樣,GPT-4V 也容易產生幻覺,或以權威的口吻捏造事實。此外,它還會遺漏文字或字元、忽略數學符號,以及無法辨識相當明顯的物體和地點設定。

因此,OpenAI 明確表示GPT-4V 不能用於發現影像中的危險物質或化學物質,也就不足為奇了。 (本報記者甚至沒有想到會有這樣的用例,但顯然,OpenAI 對這一前景非常關注,因此公司認為有必要將其指出)。紅隊人員發現,雖然該模型偶爾能正確識別有毒食物(如毒蘑菇),但它也會在化學結構圖像中錯誤地識別出芬太尼、卡芬太尼和可卡因等物質。

當應用到醫學影像領域時,GPT-4V 的表現也不盡如人意,有時會對同一問題給出錯誤的回答,而它在先前的情況下卻回答正確。此外,GPT-4V 也沒有意識到一些標準做法,例如在查看影像掃描時,病人是面對著你的(這意味著影像上的右側對應病人的左側),而這也會導致誤診。

OpenAI 警告說,在其他地方,GPT-4V 也不理解某些仇恨符號的細微差別-- 例如,它不知道聖殿十字架(白人至上主義)在美國的現代意義。更奇怪的是,也許是其幻覺傾向的一種表現,人們觀察到GPT-4V 在獲得某些仇恨人物或團體的圖片時,會創作歌曲或詩歌來進行讚美,即使這些人物或團體並沒有被明確點名。

GPT-4V 也會歧視某些性別和體型-- 儘管只有在禁用OpenAI 的產出保障措施時才會發生。 OpenAI 寫道,在一次測試中,當被要求給一位穿著泳衣的女性建議時,GPT-4V 給出的答案幾乎完全與這位女性的體重和身體狀況的概念有關。我們猜想,如果圖片上的人是男性,情況就不會是這樣。

從論文的注意事項來看,GPT-4V 在很大程度上仍是一項正在進行中的工作-- 距離OpenAI 最初的設想還差幾步。在許多情況下,該公司不得不實施過於嚴格的保障措施,以防止模型傳播有毒或錯誤訊息,或洩露個人隱私。

OpenAI 聲稱,它正在建立“緩解措施”和“流程”,以“安全”的方式擴展模型的能力,例如允許GPT-4V 在不指名道姓的情況下描述人臉和人物。但這篇論文顯示,GPT-4V 並不是萬能的,OpenAI 還有很多工作要做。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)