迎戰GPT-4V！谷歌PaLI-3視覺語言模型問世，更小、更快、更強

巴比特_

2023-10-17 09:36:42

來源：學術頭條

圖片來源：由無界 AI生成

上個月，ChatGPT 正式具備了圖像與語音辨識能力。

本月初，微軟更是公佈了 166 頁的多模態版 GPT-4V 的相關文檔，詳細探討了 GPT-4V 的功能和使用方式，這一舉動引起了業界的廣泛關注。

**然而，在視覺語言模型的角逐中，谷歌也不甘示弱。 **

近日，**Google Research、Google DeepMind 和 Google Cloud 共同推出了一個更小、更快、更強大的視覺語言模型（VLM）——PaLI-3，**該模型與相似的體積大 10 倍的模型相比具有顯著競爭力。

研究人員使用分類目標預訓練的視覺變換器（ViT）模型與對比性預訓練的模型（SigLIP）進行了比較，結果發現，PaLI-3 雖然在標準圖像分類基準上略微表現不佳，但基於 SigLIP 的 PaLI 在各種多模態基準測試中表現出卓越的性能，特別是在定位和文本理解方面。

相關研究論文以“PaLI-3 Vision Language Models： Smaller， Faster， Stronger”為題，已發表到預印本網站 arXiv 上。

研究團隊認為，僅有 50 億參數的 PaLI-3 重新點燃了關於複雜 VLM 核心組成部分的研究，可能推動新一代規模更大的模型的發展。

更高解析度的多模態學習

最近，大型視覺語言模型在其更大的模型中使用預訓練的圖像編碼器，其中一些使用監督分類進行預訓練（如PaLI，PaLI-X，Flamingo，PaLM-E），一些使用預訓練的CLIP編碼器（如BLIPv2，CrossTVR，ChatBridge，還有一些使用自定義多模態預訓練（如 BEiT3，CoCa，SimVLM）。

**本次研究的訓練方法包括三個主要組成部分：在網路規模的圖像文本數據上進行圖像編碼器的對比性預訓練，改進的 PaLI 多模態訓練數據混合以及以更高解析度進行訓練。 **

在單模態預訓練階段，圖像編碼器在 Web 上的圖像文本配對上採用 SigLIP 訓練協議進行對比預訓練。研究人員採用了一種基於模型的過濾方法，保留了大約 40% 的配對。圖像編碼器在 224×224 的解析度下進行訓練。文本編碼器-解碼器是一個 3B UL2 模型，按照混合去噪程序進行訓練。

在多模態訓練階段，研究人員將圖像編碼器與文本編碼器-解碼器結合在一起，形成了PaLI模型。這個模型針對多模態任務進行訓練，保持圖像編碼器的凍結狀態，使用原生解析度（224×224）。

主要的數據混合來自 WebLI 數據集，經過篩選和使用特定的訓練目標。其他元素包括多語言字幕、OCR處理、跨語言 VQA 和 VQG、物體感知 VQA 以及物體檢測。雖然沒有包括來自視頻的任務或數據，但由於強大的圖像編碼器，PaLI-3 在這些基準上仍然具有競爭力。此外，通過向 WebLI 添加了包含稠密文本和網路圖像（如海報或文檔）的 PDF 文檔，以及支援 100 多種語言的文本，文檔和圖像理解能力得到了進一步的提高。

在提高解析度階段，研究通過對整個模型進行微調（解凍圖像編碼器）並使用逐漸增加解析度的短期課程來提高 PaLI-3 的解析度，保持在 812×812 和 1064×1064 解析度處的檢查點。數據混合主要集中在涉及視覺定位文本和物體檢測的部分。

提升圖像理解與文本定位任務

首先，研究人員在PaLI框架內進行了對不同的ViT模型的有控制的比較。結果發現，**雖然 SigLIP 模型的少樣本線性分類性能較差，但當在 PaLI-3 中使用時，SigLIP 模型在“簡單”任務（如字幕和問答）上提供了適度的性能提升，並在更“複雜”的場景文本和空間理解任務（如 TextVQA 和 RefCOCO 變體）上提供了大幅提升。 **

隨後，研究又在視覺定位文本理解任務中評估了PaLI-3，這些數據集中的圖像涉及自然圖像、插圖、文檔和使用者介面等各種領域。 **PaLI-3 在絕大多數字幕和 VQA 基準上，無論是否有外部 OCR 輸入，都取得了最先進的性能。 **唯一的例外是 AI2D 和 ChartQA，它們不僅需要理解，還需要對圖表進行強大的推理能力。對於這兩個基準，PaLI-3 稍微落後於PaLI-X。

另外，研究人員還擴展了PaLI-3的功能，使其能夠通過語言類似的輸出來預測分割遮罩。實驗結果表明，對於這種類型的定位任務，對比預訓練要比分類預訓練更為有效。 **完整的PaLI-3模型能夠在指代表達分割方面稍微優於最先進的方法。 **

在自然圖像理解部分，研究對PaLI-3在通用視覺語言理解任務上進行了評估，包括COCO字幕和VQAv2，**儘管與最近的SOTA模型相比，PaLI-3的規模要小得多，但在這些基準上表現非常出色。 **

在視頻字幕和問答部分，研究人員在 4 個視頻字幕基準上對 PaLI-3 模型進行了微調和評估：MSR-VTT、VATEX、ActivityNet Captions 和 Spoken Moments in Time。然後，對 3 個視頻問題解答基準進行了同樣的測試：NExT-QA、MSR-VTT-QA 和 ActivityNet-QA。 **儘管沒有使用視頻數據進行預訓練，PaLI-3 仍然以較小的模型規模取得了出色的視頻品質保證結果。 **

總而言之，在本研究中，研究人員深入研究了 VLM 中圖像編碼器的預訓練，特別是 PaLI 類型的模型。研究首次明確比較了分類預訓練和圖像文本（對比性）預訓練這兩種方法，發現後者可以帶來更好和更高效的 VLM，特別是在定位和文本理解任務方面。

另外，研究人員在論文中指出：「這隻是 VLM 的一個小方面，我們希望這項研究和其結果能夠激勵對 VLM 訓練的眾多其他方面進行深入探討。 ”

論文連結：

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

迎戰GPT-4V！ 谷歌PaLI-3視覺語言模型問世，更小、更快、更強

更高解析度的多模態學習

提升圖像理解與文本定位任務

迎戰GPT-4V！谷歌PaLI-3視覺語言模型問世，更小、更快、更強