📢 Gate廣場專屬 #WXTM创作大赛# 正式開啓!
聚焦 CandyDrop 第59期 —— MinoTari (WXTM),總獎池 70,000 枚 WXTM 等你贏!
🎯 關於 MinoTari (WXTM)
Tari 是一個以數字資產爲核心的區塊鏈協議,由 Rust 構建,致力於爲創作者提供設計全新數字體驗的平台。
通過 Tari,數字稀缺資產(如收藏品、遊戲資產等)將成爲創作者拓展商業價值的新方式。
🎨 活動時間:
2025年8月7日 17:00 - 8月12日 24:00(UTC+8)
📌 參與方式:
在 Gate廣場發布與 WXTM 或相關活動(充值 / 交易 / CandyDrop)相關的原創內容
內容不少於 100 字,形式不限(觀點分析、教程分享、圖文創意等)
添加標籤: #WXTM创作大赛# 和 #WXTM#
附本人活動截圖(如充值記錄、交易頁面或 CandyDrop 報名圖)
🏆 獎勵設置(共計 70,000 枚 WXTM):
一等獎(1名):20,000 枚 WXTM
二等獎(3名):10,000 枚 WXTM
三等獎(10名):2,000 枚 WXTM
📋 評選標準:
內容質量(主題相關、邏輯清晰、有深度)
用戶互動熱度(點讚、評論)
附帶參與截圖者優先
📄 活動說明:
內容必須原創,禁止抄襲和小號刷量行爲
獲獎用戶需完成 Gate廣場實名
突破性技術! 開源多模態模型—MiniGPT-5
原文來源:AIGC開放社區
多模態生成一直是OpenAI、微軟、百度等科技巨頭的重要研究領域,但如何實現連貫的文本和相關圖像是一個棘手的難題。
為了突破技術瓶頸,加州大學聖克魯斯分校研發了MiniGPT-5模型,並提出了全新技術概念“Generative Vokens ”,成為文本特徵空間和圖像特徵空間之間的“橋樑”,實現了普通訓練數據的有效對齊,同時生成高品質的文本和圖像。
為了評估MiniGPT-5的效果,研究人員在多個數據集上進行了測試,包括CC3M、VIST和MMDialog。 結果顯示,MiniGPT-5在多個指標上都優於多個對比基線,能夠生成連貫、高品質的文本和圖像。
例如,在VIST數據集上,MiniGPT-5生成的圖像CLIP分數高於fine-tunedStable Diffusion 2; 在人類評估中,MiniGPT-5生成的語言連貫性更好(57.18%),圖像品質更高(52.06%),多模態連貫性更強(57.62%)。
開源位址:
論文位址:
2)提出了無需完整圖像描述的雙階段訓練策略:第一階段,專注文本與圖像的簡單對齊; 第二階段,進行多模態細粒度特徵學習。
3)在訓練中引入了“無分類器指導”技術,可有效提升多模態生成的內容品質。 主要模組架構如下。
生成式 Vokens
MiniGPT-5的核心創新就是提出了“Generative Vokens”技術概念,實現了大語言模型與圖像生成模型的無縫對接。
具體來說,研究人員向模型的詞表中加入了8個特殊的Voken詞元[IMG1] [IMG8]- 。 這些Voken在模型訓練時作為圖像的佔位元使用。
在輸入端,圖像特徵會與Voken的詞向量拼接,組成序列輸入。 在輸出端,模型會預測這些Voken的位置,對應的隱狀態h_voken用於表示圖像內容。
在Stable Diffusion中,ˆh_voken作為指導圖像生成的條件輸入。 整個pipeline實現了從圖像到語言模型再到圖像生成的對接。
這種通過Voken實現對齊的方式,比逆向計算要直接,也比利用圖像描述更為通用。 簡單來說,Generative Vokens就像是一座“橋樑”,使不同模型域之間信息傳遞更順暢。
雙階段訓練策略
考慮到文本和圖像特徵空間存在一定的域差異,MiniGPT-5採用了兩階段的訓練策略。
**第一階段是單模態對齊階段:**只使用單個圖像-文本對的數據,如CC3M。 模型學習從圖像標題生成對應的Voken。 同時,加入輔助的圖像標題損失,説明Voken與圖像內容對齊。
**第二階段是多模態學習階段:**使用包含連續多模態樣本的數據,如VIST,進行微調。 設置不同的訓練任務,包括生成文本、生成圖像和同時生成兩者。 增強了模型處理多模態資訊的能力。
這種分階段策略,可以緩解直接在有限數據上訓練帶來的問題。 先進行粗粒度對齊,再微調細粒度特徵,並提升了模型的表達能力和魯棒性。
無分類器指導
為進一步提升生成文本和圖像的連貫性,MiniGPT-5還採用了“無分類器指導”的技術。
其核心思想是,在圖像擴散過程中,以一定概率用零特徵替換條件Voken,實現無條件生成。
在推理時,將有條件和無條件的結果作為正負樣本,模型可以更好地利用兩者的對比關係,產生連貫的多模態輸出。 這種方法簡單高效,不需要引入額外的分類器,通過數據對比自然指導模型學習。
文字到圖像生成模型
MiniGPT-5使用了Stable Diffusion 2.1和多模態模型MiniGPT-4作為文本到圖像生成模型。 可以根據文本描述生成高品質、高解析度的圖片。
Stable Diffusion使用Diffusion模型和U-Net作為主要元件。 Diffusion模型可以將圖片表示成雜訊數據,然後逐步進行去噪和重構。
U-Net則利用文本特徵作為條件,指導去噪過程生成對應的圖片。 相比GAN,Diffusion模型更穩定,生成效果也更清晰逼真。
文本空間損失説明模型學習標記的正確位置,而潛在擴散損失直接將標記與適當的視覺特徵對齊。 由於生成Vokens的特徵直接由圖像引導,因此,不需要圖像的全面描述就能實現無描述學習。
研究人員表示,MiniGPT-5的最大貢獻在於實現了文本生成和圖像生成的有效集成。 只需要普通的文本、圖像進行預訓練,就可以進行連貫的多模態生成,而無需複雜的圖像描述。 這為多模態任務提供了統一的高效解決方案。