📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
在視覺提示中加入「標記」,微軟等讓GPT-4V看的更準、分的更細
原文來源:機器之心
最近一段時間,我們見證了大型語言模型(LLM)的顯著進步。 特別是,生成式預訓練 Transformer 或 GPT 的發佈引領了業界和學術界的多項突破。 自 GPT-4 發佈以來,大型多模態模型 (LMM) 引起了研究界越來越多的興趣,許多工作致力於構建多模態 GPT-4。
近日,GPT-4V (ision) 由於出色的多模態感知和推理能力得到了大家格外的關注。 然而,儘管 GPT-4V 具有前所未有的視覺語言理解能力,但其細粒度 visual grounding(輸入是圖片和對應的物體描述,輸出是描述物體的 box)能力相對較弱,或者尚未發揮出來。
舉例來說,當使用者詢問下圖中「放置在右邊筆記型電腦的左邊是什麼物體?」 GPT-4V 給出了馬克杯這個錯誤的答案。 當使用者接著詢問,「想找一個靠窗的座位,我可以坐在哪裡?」 GPT-4V 同樣回答不正確。
如圖 1(右)所示,SoM 採用互動式分割模型(例如 SAM)將圖像劃分為不同粒度級別的區域,並在這些區域上添加一組標記(mark),例如字母數位、掩碼(mask)、框(box)。 使用添加標記的圖像作為輸入,以解決上述問題。
我們先來看下效果,左為 GPT-4V,右為 GPT-4V+SoM,很明顯後者分類更細緻、準確。
使用 SoM GPT-4V 的獨特優點是它可以產生文字之外的輸出。 由於每個標記都與掩碼表徵的圖像區域特定關聯,因此可以追溯文本輸出中任何提到的標記的掩碼。
通過簡單的 工程,SoM 可以讓 GPT-4V 廣泛地用於多種視覺任務,例如:
實驗及結果
研究者使用「分而治之」(divide-and-conquer)的策略來運行實驗和評估。 對於每個實例,他們使用新的聊天視窗,這樣一來,評估期間就不會出現上下文洩露了。
具體來講,研究者從每個數據集中選擇了小規模的驗證數據子集。 對於數據集中的每個圖像,他們在使用圖像分割工具箱提取的區域上覆蓋了一組標記。 同時基於具體的任務,研究者利用不同的分割工具來提出區域。
下表 1 列出了每個任務的設置細節。
定量結果
詳細的實驗結果如下表 2 所示。
結果顯示,GPT-4V + SoM 的零樣本性能接近微調后的MaskDINO,並大幅優於OpenSeeD。 GPT-4V 在 COCO 和 ADE20K 上的相似性能表現出其對廣泛視覺和語義域任務的強大泛化能力。
然後是參考(referrring)任務,研究者評估了 RefCOCOg 數據集上的模型 RES 和 REC。 他們使用MaskDINO來提出掩碼,並在圖像上覆蓋上掩碼和數位。 同時使用 mIoU 作為評估指標,並與 SOTA 專用模型 PolyFormer 和 SEEM 進行比較。
結果顯示,GPT-4V+SoM 擊敗了 Grounding DINO、Polyformer 等專用模型以及 Shikra、LLaVA-1.5、MiniGPT-v2 和 Ferret 等最近的開源 LMM。
接著是 Flickr30K 上的短語關聯任務,研究者使用 Grounding DINO 為每個圖像生成框建議。 GPT-4V+SoM 實現了比 GLIPv2 和 Grounding DINO 更強的零樣本性能。
最後研究者在 DAVIS2017 數據集上評估了視頻分割任務。 GPT-4V+SoM 實現了優於其他專用視覺模型的最佳追蹤性能(78.8 J&F)。
消融研究
研究者探討了標記類型如何影響 Flickr30k 數據集上短語關聯任務的最終性能,並比較了兩種類型的標記。 第一種是數位和掩碼,第二種是數位、掩碼和框。
結果如下表 3 所示,添加額外的框可以顯著提升性能。
結果如下表 4 所示,在 SoM 中使用真值掩碼可以將 RefCOCOg 上的性能提升 14.5%(mIoU)。