ChatGPT 多模態能力引發熱潮，但自家論文揭示GPT-4V 仍有缺陷

2023-09-27 06:24:33

撰文：Kyle Wiggers

來源：TechCrunch

圖片來源：由無界AI工具產生

當OpenAI 首次發布其旗艦文本生成人工智慧模型GPT-4 時，該公司吹捧了該模型的多模態性-- 換句話說，它不僅能理解文本，還能理解圖像。 OpenAI 表示，GPT-4 可以為相對複雜的圖片添加字幕，甚至進行解釋，例如從插入iPhone 的圖片中識別出Lightning Cable 適配器。

但自從GPT-4 於3 月底發布以來，OpenAI 一直在保留模型的圖像功能，據說是因為擔心濫用和隱私問題。直到最近，這些擔憂的確切性質仍然是個謎。而在本周初，OpenAI 發表了一篇技術論文，詳細介紹了其為減少GPT-4 影像分析工具中問題較多的方面所做的工作。

迄今為止，有視覺功能的GPT-4（OpenAI 內部簡稱為“GPT-4V”）僅被Be My Eyes（一款幫助視弱群體和盲人瀏覽周圍環境的應用程式）的數千名用戶定期使用。然而，據該論文稱，在過去幾個月裡，OpenAI 也開始與「紅隊人員」合作，探究該模型是否存在意外行為的跡象。

在論文中，OpenAI 聲稱它已經採取了保障措施來防止GPT-4V 被惡意使用，例如破解驗證碼、識別一個人或估計其年齡或種族，以及根據照片中不存在的資訊得出結論。 OpenAI 也表示，它已經努力抑制GPT-4V 中更有害的偏見，尤其是那些與人的外表、性別或種族有關的偏見。

但與所有人工智慧模式一樣，保障措施也只能做到這麼多。

論文顯示，GPT-4V 有時很難做出正確的推斷，例如，它會錯誤地將圖像中的兩串文字組合在一起，創造出一個虛構的術語。與基礎GPT-4 一樣，GPT-4V 也容易產生幻覺，或以權威的口吻捏造事實。此外，它還會遺漏文字或字元、忽略數學符號，以及無法辨識相當明顯的物體和地點設定。

因此，OpenAI 明確表示GPT-4V 不能用於發現影像中的危險物質或化學物質，也就不足為奇了。（本報記者甚至沒有想到會有這樣的用例，但顯然，OpenAI 對這一前景非常關注，因此公司認為有必要將其指出）。紅隊人員發現，雖然該模型偶爾能正確識別有毒食物（如毒蘑菇），但它也會在化學結構圖像中錯誤地識別出芬太尼、卡芬太尼和可卡因等物質。

當應用到醫學影像領域時，GPT-4V 的表現也不盡如人意，有時會對同一問題給出錯誤的回答，而它在先前的情況下卻回答正確。此外，GPT-4V 也沒有意識到一些標準做法，例如在查看影像掃描時，病人是面對著你的（這意味著影像上的右側對應病人的左側），而這也會導致誤診。

OpenAI 警告說，在其他地方，GPT-4V 也不理解某些仇恨符號的細微差別-- 例如，它不知道聖殿十字架（白人至上主義）在美國的現代意義。更奇怪的是，也許是其幻覺傾向的一種表現，人們觀察到GPT-4V 在獲得某些仇恨人物或團體的圖片時，會創作歌曲或詩歌來進行讚美，即使這些人物或團體並沒有被明確點名。

GPT-4V 也會歧視某些性別和體型-- 儘管只有在禁用OpenAI 的產出保障措施時才會發生。 OpenAI 寫道，在一次測試中，當被要求給一位穿著泳衣的女性建議時，GPT-4V 給出的答案幾乎完全與這位女性的體重和身體狀況的概念有關。我們猜想，如果圖片上的人是男性，情況就不會是這樣。

從論文的注意事項來看，GPT-4V 在很大程度上仍是一項正在進行中的工作-- 距離OpenAI 最初的設想還差幾步。在許多情況下，該公司不得不實施過於嚴格的保障措施，以防止模型傳播有毒或錯誤訊息，或洩露個人隱私。

OpenAI 聲稱，它正在建立“緩解措施”和“流程”，以“安全”的方式擴展模型的能力，例如允許GPT-4V 在不指名道姓的情況下描述人臉和人物。但這篇論文顯示，GPT-4V 並不是萬能的，OpenAI 還有很多工作要做。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。