📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
在圖像、視頻生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵
大型語言模型(LLM 或 LM)一開始是用來生成語言的,但隨著時間的推移,它們已經能夠生成多種模態的內容,並在音訊、語音、代碼生成、醫療應用、機器人學等領域開始佔據主導地位。
當然,LM 也能生成圖像和視頻。 在此過程中,圖像圖元會被視覺tokenizer映射為一系列離散的 token。 然後,這些 token 被送入 LM transformer,就像詞彙一樣被用於生成建模。 儘管 LM 在視覺生成方面取得了顯著進步,但 LM 的表現仍然不如擴散模型。 例如,在圖像生成的金標基準 —ImageNet 數據集上進行評估時,最佳語言模型的表現比擴散模型差了 48% 之多(以 256ˆ256 解析度生成圖像時,FID 為 3.41 對 1.79)。
為什麼語言模型在視覺生成方面落後於擴散模型? 來自谷歌、CMU 的研究者認為,主要原因是缺乏一個良好的視覺表示,類似於我們的自然語言系統,以有效地建模視覺世界。 為了證實這一假設,他們進行了一項研究。
這項研究表明,在相同的訓練數據、可比模型大小和訓練預算條件下,利用良好的視覺 tokenizer,掩碼語言模型在圖像和視頻基準的生成保真度和效率方面都超過了 SOTA 擴散模型。 這是語言模型在標誌性的 ImageNet 基準上擊敗擴散模型的首個證據。
需要強調的是,研究者的目的不是斷言語言模型是否優於其他模型,而是促進 LLM 視覺 tokenization 方法的探索。 LLM 與其他模型(如擴散模型)的根本區別在於,LLM 使用離散的潛在格式,即從可視化 tokenizer 獲得的 token。 這項研究表明,這些離散的視覺 token 的價值不應該被忽視,因為它們存在以下優勢:
1、與 LLM 的相容性。 token 表示的主要優點是它與語言 token 共用相同的形式,從而可以直接利用社區多年來為開發 LLM 所做的優化,包括更快的訓練和推理速度、模型基礎設施的進步、擴展模型的方法以及 GPU/TPU 優化等創新。 通過相同的 token 空間統一視覺和語言可以為真正的多模態 LLM 奠定基礎,後者可以在我們的視覺環境中理解、生成和推理。
2、壓縮表示。 離散 token 可以為視頻壓縮提供一個新的視角。 可視化 token 可以作為一種新的視頻壓縮格式,以減少數據在互聯網傳輸過程中佔用的磁碟存儲和頻寬。 與壓縮的 RGB 像素不同,這些 token 可以直接輸入生成模型,繞過傳統的解壓縮和潛在編碼步驟。 這可以加快生成視頻應用的處理速度,在邊緣計算情況下尤其有益。
3、視覺理解優勢。 先前的研究表明,離散 token 在自監督表示學習中作為預訓練目標是有價值的,如 BEiT 和 BEVT 中所討論的那樣。 此外,研究發現,使用 token 作為模型輸入提高了魯棒性和泛化性。
在這篇論文中,研究者提出了一個名為MAGVIT-v2的視頻 tokenizer,旨在將視頻(和圖像)映射為緊湊的離散 token。
該模型建立在 VQ-VAE 框架內的 SOTA 視頻 tokenizer——MAGVIT 基礎上。 基於此,研究者提出了兩種新技術:1)一種新穎的無查找(lookup-free)量化方法,使得大量詞彙的學習成為可能,以提高語言模型的生成品質; 2)通過廣泛的實證分析,他們確定了對MAGVIT的修改方案,不僅提高了生成品質,而且還允許使用共用詞彙表對圖像和視頻進行 token 化。
實驗結果表明,新模型在三個關鍵領域優於先前表現最好的視頻 tokenizer——MAGVIT。 首先,新模型顯著提高了MAGVIT的生成品質,在常見的圖像和視頻基準上刷新了SOTA。 其次,使用者研究表明,其壓縮質量超過了MAGVIT和當前的視頻壓縮標準HEVC。 此外,它與下一代視頻編解碼器 VVC 相當。 最後,研究者表明,與 MAGVIT 相比,他們的新 token 在兩個設置和三個數據集的視頻理解任務中表現更強。
方法介紹
本文引入了一種新的視頻 tokenizer,旨在將視覺場景中的時間 - 空間動態映射為適合語言模型的緊湊離散 token。 此外,該方法建立在MAGVIT的基礎上。
隨後,該研究重點介紹了兩種新穎的設計:無查找量化(Lookup-Free Quantization ,LFQ)和 tokenizer 模型的增強功能。
無查找量化
最近一段時間,VQ-VAE 模型取得巨大進展,但該方法存在一個缺點,即重建品質的改進與後續生成品質之間的關係不明確。 很多人誤以為改進重建就等於改進語言模型的生成,例如,擴大詞彙量可以提高重建品質。 然而,這種改進僅適用於詞彙量較小時的生成,而詞彙量非常大時會損害語言模型的性能。
本文將 VQ-VAE codebook 嵌入維度縮減到 0 ,即 Codebook
與 VQ-VAE 模型不同的是,這種新設計完全消除了對嵌入查找的需要,因此將其稱為 LFQ。 本文發現 LFQ 可以通過增加詞彙量,提高語言模型的生成品質。 如圖 1 中的藍色曲線所示,隨著詞彙量的增加,重建和生成都不斷改進 —— 這是當前 VQ-VAE 方法中未觀察到的特性。
聯合圖像 - 視頻 tokenization。 為了構建聯合圖像 - 視頻 tokenizer,需要一種新的設計。 本文發現 3D CNN 的性能比空間 transformer 更好。
本文探索了兩種可行的設計方案,如圖 2b 將 C-ViViT 與 MAGVIT 進行結合; 圖 2c 使用時間因果 3D 卷積來代替常規 3D CNN。
實驗結果
實驗從三個部分驗證了本文提出的tokenizer的性能:視頻和圖像生成、視頻壓縮,動作識別。 圖 3 直觀地比較了 tokenizer 與先前研究的結果對比。