迎戰GPT-4V! 谷歌PaLI-3視覺語言模型問世,更小、更快、更強

來源:學術頭條

圖片來源:由無界 AI生成

上個月,ChatGPT 正式具備了圖像與語音辨識能力。

本月初,微軟更是公佈了 166 頁的多模態版 GPT-4V 的相關文檔,詳細探討了 GPT-4V 的功能和使用方式,這一舉動引起了業界的廣泛關注。

**然而,在視覺語言模型的角逐中,谷歌也不甘示弱。 **

近日,**Google Research、Google DeepMind 和 Google Cloud 共同推出了一個更小、更快、更強大的視覺語言模型(VLM)——PaLI-3,**該模型與相似的體積大 10 倍的模型相比具有顯著競爭力。

研究人員使用分類目標預訓練的視覺變換器(ViT)模型與對比性預訓練的模型(SigLIP)進行了比較,結果發現,PaLI-3 雖然在標準圖像分類基準上略微表現不佳,但基於 SigLIP 的 PaLI 在各種多模態基準測試中表現出卓越的性能,特別是在定位和文本理解方面。

相關研究論文以“PaLI-3 Vision Language Models: Smaller, Faster, Stronger”為題,已發表到預印本網站 arXiv 上。

研究團隊認為,僅有 50 億參數的 PaLI-3 重新點燃了關於複雜 VLM 核心組成部分的研究,可能推動新一代規模更大的模型的發展。

更高解析度的多模態學習

最近,大型視覺語言模型在其更大的模型中使用預訓練的圖像編碼器,其中一些使用監督分類進行預訓練(如PaLI,PaLI-X,Flamingo,PaLM-E),一些使用預訓練的CLIP編碼器(如BLIPv2,CrossTVR,ChatBridge,還有一些使用自定義多模態預訓練(如 BEiT3,CoCa,SimVLM)。

**本次研究的訓練方法包括三個主要組成部分:在網路規模的圖像文本數據上進行圖像編碼器的對比性預訓練,改進的 PaLI 多模態訓練數據混合以及以更高解析度進行訓練。 **

在單模態預訓練階段,圖像編碼器在 Web 上的圖像文本配對上採用 SigLIP 訓練協議進行對比預訓練。 研究人員採用了一種基於模型的過濾方法,保留了大約 40% 的配對。 圖像編碼器在 224×224 的解析度下進行訓練。 文本編碼器-解碼器是一個 3B UL2 模型,按照混合去噪程序進行訓練。

在多模態訓練階段,研究人員將圖像編碼器與文本編碼器-解碼器結合在一起,形成了PaLI模型。 這個模型針對多模態任務進行訓練,保持圖像編碼器的凍結狀態,使用原生解析度(224×224)。

主要的數據混合來自 WebLI 數據集,經過篩選和使用特定的訓練目標。 其他元素包括多語言字幕、OCR處理、跨語言 VQA 和 VQG、物體感知 VQA 以及物體檢測。 雖然沒有包括來自視頻的任務或數據,但由於強大的圖像編碼器,PaLI-3 在這些基準上仍然具有競爭力。 此外,通過向 WebLI 添加了包含稠密文本和網路圖像(如海報或文檔)的 PDF 文檔,以及支援 100 多種語言的文本,文檔和圖像理解能力得到了進一步的提高。

在提高解析度階段,研究通過對整個模型進行微調(解凍圖像編碼器)並使用逐漸增加解析度的短期課程來提高 PaLI-3 的解析度,保持在 812×812 和 1064×1064 解析度處的檢查點。 數據混合主要集中在涉及視覺定位文本和物體檢測的部分。

提升圖像理解與文本定位任務

首先,研究人員在PaLI框架內進行了對不同的ViT模型的有控制的比較。 結果發現,**雖然 SigLIP 模型的少樣本線性分類性能較差,但當在 PaLI-3 中使用時,SigLIP 模型在“簡單”任務(如字幕和問答)上提供了適度的性能提升,並在更“複雜”的場景文本和空間理解任務(如 TextVQA 和 RefCOCO 變體)上提供了大幅提升。 **

隨後,研究又在視覺定位文本理解任務中評估了PaLI-3,這些數據集中的圖像涉及自然圖像、插圖、文檔和使用者介面等各種領域。 **PaLI-3 在絕大多數字幕和 VQA 基準上,無論是否有外部 OCR 輸入,都取得了最先進的性能。 **唯一的例外是 AI2D 和 ChartQA,它們不僅需要理解,還需要對圖表進行強大的推理能力。 對於這兩個基準,PaLI-3 稍微落後於PaLI-X。

另外,研究人員還擴展了PaLI-3的功能,使其能夠通過語言類似的輸出來預測分割遮罩。 實驗結果表明,對於這種類型的定位任務,對比預訓練要比分類預訓練更為有效。 **完整的PaLI-3模型能夠在指代表達分割方面稍微優於最先進的方法。 **

在自然圖像理解部分,研究對PaLI-3在通用視覺語言理解任務上進行了評估,包括COCO字幕和VQAv2,**儘管與最近的SOTA模型相比,PaLI-3的規模要小得多,但在這些基準上表現非常出色。 **

在視頻字幕和問答部分,研究人員在 4 個視頻字幕基準上對 PaLI-3 模型進行了微調和評估:MSR-VTT、VATEX、ActivityNet Captions 和 Spoken Moments in Time。 然後,對 3 個視頻問題解答基準進行了同樣的測試:NExT-QA、MSR-VTT-QA 和 ActivityNet-QA。 **儘管沒有使用視頻數據進行預訓練,PaLI-3 仍然以較小的模型規模取得了出色的視頻品質保證結果。 **

總而言之,在本研究中,研究人員深入研究了 VLM 中圖像編碼器的預訓練,特別是 PaLI 類型的模型。 研究首次明確比較了分類預訓練和圖像文本(對比性)預訓練這兩種方法,發現後者可以帶來更好和更高效的 VLM,特別是在定位和文本理解任務方面。

另外,研究人員在論文中指出:「這隻是 VLM 的一個小方面,我們希望這項研究和其結果能夠激勵對 VLM 訓練的眾多其他方面進行深入探討。 ”

論文連結:

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)