📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
迎戰GPT-4V! 谷歌PaLI-3視覺語言模型問世,更小、更快、更強
來源:學術頭條
上個月,ChatGPT 正式具備了圖像與語音辨識能力。
本月初,微軟更是公佈了 166 頁的多模態版 GPT-4V 的相關文檔,詳細探討了 GPT-4V 的功能和使用方式,這一舉動引起了業界的廣泛關注。
近日,**Google Research、Google DeepMind 和 Google Cloud 共同推出了一個更小、更快、更強大的視覺語言模型(VLM)——PaLI-3,**該模型與相似的體積大 10 倍的模型相比具有顯著競爭力。
研究人員使用分類目標預訓練的視覺變換器(ViT)模型與對比性預訓練的模型(SigLIP)進行了比較,結果發現,PaLI-3 雖然在標準圖像分類基準上略微表現不佳,但基於 SigLIP 的 PaLI 在各種多模態基準測試中表現出卓越的性能,特別是在定位和文本理解方面。
相關研究論文以“PaLI-3 Vision Language Models: Smaller, Faster, Stronger”為題,已發表到預印本網站 arXiv 上。
更高解析度的多模態學習
最近,大型視覺語言模型在其更大的模型中使用預訓練的圖像編碼器,其中一些使用監督分類進行預訓練(如PaLI,PaLI-X,Flamingo,PaLM-E),一些使用預訓練的CLIP編碼器(如BLIPv2,CrossTVR,ChatBridge,還有一些使用自定義多模態預訓練(如 BEiT3,CoCa,SimVLM)。
**本次研究的訓練方法包括三個主要組成部分:在網路規模的圖像文本數據上進行圖像編碼器的對比性預訓練,改進的 PaLI 多模態訓練數據混合以及以更高解析度進行訓練。 **
在單模態預訓練階段,圖像編碼器在 Web 上的圖像文本配對上採用 SigLIP 訓練協議進行對比預訓練。 研究人員採用了一種基於模型的過濾方法,保留了大約 40% 的配對。 圖像編碼器在 224×224 的解析度下進行訓練。 文本編碼器-解碼器是一個 3B UL2 模型,按照混合去噪程序進行訓練。
在多模態訓練階段,研究人員將圖像編碼器與文本編碼器-解碼器結合在一起,形成了PaLI模型。 這個模型針對多模態任務進行訓練,保持圖像編碼器的凍結狀態,使用原生解析度(224×224)。
在提高解析度階段,研究通過對整個模型進行微調(解凍圖像編碼器)並使用逐漸增加解析度的短期課程來提高 PaLI-3 的解析度,保持在 812×812 和 1064×1064 解析度處的檢查點。 數據混合主要集中在涉及視覺定位文本和物體檢測的部分。
提升圖像理解與文本定位任務
首先,研究人員在PaLI框架內進行了對不同的ViT模型的有控制的比較。 結果發現,**雖然 SigLIP 模型的少樣本線性分類性能較差,但當在 PaLI-3 中使用時,SigLIP 模型在“簡單”任務(如字幕和問答)上提供了適度的性能提升,並在更“複雜”的場景文本和空間理解任務(如 TextVQA 和 RefCOCO 變體)上提供了大幅提升。 **
另外,研究人員還擴展了PaLI-3的功能,使其能夠通過語言類似的輸出來預測分割遮罩。 實驗結果表明,對於這種類型的定位任務,對比預訓練要比分類預訓練更為有效。 **完整的PaLI-3模型能夠在指代表達分割方面稍微優於最先進的方法。 **
在自然圖像理解部分,研究對PaLI-3在通用視覺語言理解任務上進行了評估,包括COCO字幕和VQAv2,**儘管與最近的SOTA模型相比,PaLI-3的規模要小得多,但在這些基準上表現非常出色。 **
總而言之,在本研究中,研究人員深入研究了 VLM 中圖像編碼器的預訓練,特別是 PaLI 類型的模型。 研究首次明確比較了分類預訓練和圖像文本(對比性)預訓練這兩種方法,發現後者可以帶來更好和更高效的 VLM,特別是在定位和文本理解任務方面。
另外,研究人員在論文中指出:「這隻是 VLM 的一個小方面,我們希望這項研究和其結果能夠激勵對 VLM 訓練的眾多其他方面進行深入探討。 ”
論文連結: