📢 Gate廣場 #MBG任务挑战# 發帖贏大獎活動火熱開啓!
想要瓜分1,000枚MBG?現在就來參與,展示你的洞察與實操,成爲MBG推廣達人!
💰️ 本期將評選出20位優質發帖用戶,每人可輕鬆獲得50枚MBG!
如何參與:
1️⃣ 調研MBG項目
對MBG的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與MBG相關活動(包括CandyDrop、Launchpool或現貨交易),並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是現貨行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
MBG熱門活動(帖文需附下列活動連結):
Gate第287期Launchpool:MBG — 質押ETH、MBG即可免費瓜分112,500 MBG,每小時領取獎勵!參與攻略見公告:https://www.gate.com/announcements/article/46230
Gate CandyDrop第55期:CandyDrop x MBG — 通過首次交易、交易MBG、邀請好友註冊交易即可分187,500 MBG!參與攻略見公告:https://www.gate.com/announcements
正面硬剛GPT-4V!浙大校友開源多模態大模型LLaVA-1.5,130億參數8個A100一天訓完
原文來源:新智元
9月底,OpenAI宣布ChatGPT多模態能力解禁。多模態GPT-4V的神奇能力讓眾人驚呼:這就是GPT-4.5吧?
這才沒多久,GPT-4V的開源競爭對手-LLaVA-1.5,就已經來了!
4月,來自威斯康辛大學麥迪遜分校、微軟研究院以及哥倫比亞大學的研究人員開源了一款全新的端對端多模態大模式LLaVA。
而現在,升級後的LLaVA-1.5,不僅在11個基準測試上實現了SOTA,甚至還可以直接對打GPT-4V。
結果顯示,架構更簡單的LLaVA-1.5只需要120萬公開數據,即可超越用了14.5億訓練數據的Qwen-VL和1.3億數據的HuggingFace IDEFICS(一個類似Flamingo的80B模型)。
其中,13B模型的訓練,只需要8個A100就可以在1天內完成。
號稱能和GPT-4V對打,那麼LLaVA-1.5的實力究竟如何?
我們來讓GPT-4V、LLaVA和LLaVA-1.5來pk一下。
問:「如果有事實性錯誤,請指出來。如果沒有,請告訴我,沙漠中正在發生什麼?」
而LLaVA則將錯就錯地回答:「在圖中,城市和海灘組成了城市天際線,人們正在享受日落。這個海灘場景居然在沙漠中,還挺不尋常的。」
唯一的滿分選手LLaVA-1.5給出了完美答案:「圖中根本沒有沙漠,有的是棕櫚樹海灘、城市天際線和一大片水域。」
另外,LLaVA-1.5還可以從圖中提取訊息,按照要求的格式進行回答,例如以JSON格式輸出。
同樣地,給LLaVA-1.5一張滿是水果蔬菜的圖片,它也能像GPT-4V一樣,把圖片轉換到JSON。
下面這題,可就沒那麼容易了──這幅圖是什麼意思?
LLaVA-1.5可沒有被難倒,它自信滿滿地作答:「這是一張關於電影《全面啟動》的圖。它顯示了夢境世界中的不同層次,每一層次用一條線表示。圖寫在一張紙上,紙放在一個檯面上。」
直接發給LLaVA-1.5,它火速就給你生成一份食譜。
它的慧眼十分犀利——
LLaVA模型的架構,是將一個預先訓練的視覺編碼器(CLIP ViT-L/14)與一個大規模語言模型(Vicuna)連接在一起。
在多模態指令跟隨資料集上,LLaVA表現出色,跟GPT-4相比,分數達到了85.1%。在Science QA上,LLaVA的準確率刷新了紀錄,達到92.53%。
這次,研究人員基於LLaVA框架,建立了更強大、更有實用性的基線。
MLP跨模態連接器和合併學術任務相關數據(如VQA),為LLaVA帶來了更強的多模態理解能力。
與InstructBLIP或Qwen-VL在數億甚至數十幾億的圖像文字配對資料上訓練的、專門設計的視覺重新採樣器相比,LLaVA用的是最簡單的LMM架構設計,只需要在600K個圖像-文字對上,訓練一個簡單的完全連接映射層即可。
最後的模型在8個A100上,1天內就能訓完,並且在各種基準測試中都取得了SOTA。
毫無疑問,這些經過改進、易於重現的基線能,將為開源LMM的未來提供很有價值的參考。
效能大幅提升,刷新11項SOTA
作為一個開源視覺指令微調模型,LLaVA在視覺推理能力方面的表現十分出色——在基於現實生活的視覺指令跟隨任務的基準測試中,LLaVA甚至超過了最新的模型。
不過,在通常需要簡短答案(如單字)的學術基準測試中,LLaVA的表現卻不盡人意。原因在於,LLaVA並沒有在大規模資料上進行預訓練。
模型縮放
首先,研究人員提高了輸入影像的分辨率,使LLM能夠清晰地「看到」影像的細節,並添加了GQA資料集,作為額外的視覺知識來源。並且,也加入ShareGPT數據,將LLM放大到13B。
MM-Vet的结果显示,当LLM扩展到13B时,改进最为显著,这也表明了,基础LLM在视觉对话方面的能力非常重要。
經過所有改進後的最終模型,被稱為LLaVA-1.5,它的性能令人印象深刻,大大超過了原始LLaVA。
與SOTA比較
隨後,研究人員在一系列學術VQA基準和專為指令跟隨LMM提出的基準上對LLaVA-1.5進行了測試。
結果表明,LLaVA-1.5不僅可以使用更少的預訓練和指令微調數據,還可以利用最簡單的架構、學術計算和公共數據集來實現最佳的性能——在12個基準中的11個上取得了SOTA。
此外,研究也發現,在提升LMM能力方面,視覺指令微調比預訓練發揮更重要的作用。
而這也讓我們重新思考視覺採樣器的優勢,以及額外的大規模預訓練在多模態指令跟隨能力上的必要性。
回應格式提示
研究人員發現,先前的InstructBLIP等方法無法在短格式和長格式的VQA之間取得平衡,主要原因在於—
首先,與回答格式有關的提示含糊不清。
例如,「Q:{問題} A: {答案}」並沒有明確指出理想的輸出格式,即使是自然的視覺對話,也可能導致LLM過度擬合到短格式的答案上。
第二,沒有對LLM進行微調。
例如,InstructBLIP只對Qformer進行了指令微調。雖然可以由此利用Qformer的視覺輸出token來控制LLM輸出的長度,但Qformer與LLaMA等LLM相比容量相對有限,因此可能無法正確地做到這一點。
為了解決這個問題,研究人員建議在VQA問題的結尾,加入一個可以明確輸出格式的提示,進而讓模型產生簡短答案。例如:「用一個單字或短語回答問題」。
當LLM使用此提示進行微調時,LLaVA能夠根據使用者的指示正確微調輸出格式,且不需要使用ChatGPT對VQA資料進行額外處理。
结果显示,仅在训练中加入VQAv2,LLaVA在MME上的性能就显著提高(1323.8 vs 502.8),比InstructBLIP高出了111分!
研究人員進一步增加了學術任務的VQA資料集,用於VQA、OCR和區域級感知,從不同方面提高模型的能力。
他們首先包含了InstructBLIP所使用的四個額外資料集:開放知識VQA。
其中,A-OKVQA被轉換成多選題的形式,並使用特定的回答格式提示——直接用給定選項中的字母作答。
僅使用了InstructBLIP所用資料集的子集,LLaVA就已經在表1中的三項任務中全部超越了InstructBLIP,這表明,LLaVA的設計非常有效。
此外,研究人員還發現,透過進一步添加區域級VQA資料集,可以提高模型定位細顆粒度視覺細節的能力。
Zero-shot格式指令泛化
雖然LLaVA-1.5只用了有限的格式指令來訓練,但它可以泛化到其他格式指令。
例如,VizWiz要求模型在所提供的內容不足以回答問題時,輸出「無法回答」,而LLaVA的回答格式提示就能有效地指示模型這樣做(無法回答的問題佔11.1%→67.8%)。
同時,LLaVA-1.5也沒有針對多語言指令進行微調。但由於ShareGPT中包含大量的相關數據,因此它仍能實現多種語言的多模態指令跟隨。
研究人員在MMBenchCN上定量評估了模型對中文的泛化能力,其中MMBench的問題被轉換為中文。
值得注意的是,LLaVA-1.5比Qwen-VL-Chat的準確率高出7.3%(63.6% vs 56.7%)。其中,Qwen在中文多模態指令上進行了微調,而LLaVA-1.5沒有。
計算成本
對於LLaVA-1.5,研究人員使用了與LCS-558K相同的預訓練資料集,並保持與LLaVA大致相同的指令微調訓練迭代次數和批次大小。
由於影像輸入解析度提高到336px,LLaVA-1.5的訓練時間是LLaVA的2倍:使用8個A100進行6小時的預訓練和20小時的視覺指令微調。
限制
儘管LLaVA-1.5取得了非常好的成績,但必須承認的是,它還存在一些限制。
首先,LLaVA使用了完整的圖像patch,這可能會延長每次訓練迭代的時間。
其次,LLaVA-1.5還不能處理多個影像,原因是缺乏此類指令跟隨數據,以及上下文長度的限制。
第三,儘管LLaVA-1.5能熟練地遵循複雜指令,但其解決問題的能力在某些領域仍會受到限制,這可以透過更強大的語言模型和高品質、有針對性的視覺指令微調資料來改善。
最後,LLaVA-1.5難免會產生幻覺和錯誤訊息,因此在關鍵應用(如醫療)中應謹慎使用。
作者介紹
Haotian Liu
他的研究方向是電腦視覺和機器學習,尤其是視覺感知和理解的高效演算法。最近的研究重點是根據人類的意圖建立可自訂的大模型。
Chunyuan Li
此前,他在杜克大學獲得了機器學習博士學位,導師是Lawrence Carin教授。並曾擔任NeurIPS、ICML、ICLR、EMNLP和AAAI的領域主席,以及IJCV的客座編輯。
他最近的研究重點是電腦視覺和自然語言處理中的大規模預訓練。例如,建構遵循人類意圖的大規模多模態模型、視覺和語言預訓練、大規模深度生成模型。
Yuheng Li
Yuheng Li是威斯康辛大學麥迪遜分校電腦科學的博士生,導師是Yong Jae Lee教授。此前,他在華中科技大學獲得學士學位。
他的研究方向是可控制的多模態影像生成與處理,以及其他與創意視覺相關的問題。
參考資料: