在圖像、視頻生成上,語言模型首次擊敗擴散模型,tokenizer是關鍵

為什麼語言模型在視覺生成方面落後於擴散模型? 來自谷歌、CMU 的研究表明,tokenizer 是關鍵。

圖片來源:由無界 AI生成

大型語言模型(LLM 或 LM)一開始是用來生成語言的,但隨著時間的推移,它們已經能夠生成多種模態的內容,並在音訊、語音、代碼生成、醫療應用、機器人學等領域開始佔據主導地位。

當然,LM 也能生成圖像和視頻。 在此過程中,圖像圖元會被視覺tokenizer映射為一系列離散的 token。 然後,這些 token 被送入 LM transformer,就像詞彙一樣被用於生成建模。 儘管 LM 在視覺生成方面取得了顯著進步,但 LM 的表現仍然不如擴散模型。 例如,在圖像生成的金標基準 —ImageNet 數據集上進行評估時,最佳語言模型的表現比擴散模型差了 48% 之多(以 256ˆ256 解析度生成圖像時,FID 為 3.41 對 1.79)。

為什麼語言模型在視覺生成方面落後於擴散模型? 來自谷歌、CMU 的研究者認為,主要原因是缺乏一個良好的視覺表示,類似於我們的自然語言系統,以有效地建模視覺世界。 為了證實這一假設,他們進行了一項研究。

論文連結:

這項研究表明,在相同的訓練數據、可比模型大小和訓練預算條件下,利用良好的視覺 tokenizer,掩碼語言模型在圖像和視頻基準的生成保真度和效率方面都超過了 SOTA 擴散模型。 這是語言模型在標誌性的 ImageNet 基準上擊敗擴散模型的首個證據。

需要強調的是,研究者的目的不是斷言語言模型是否優於其他模型,而是促進 LLM 視覺 tokenization 方法的探索。 LLM 與其他模型(如擴散模型)的根本區別在於,LLM 使用離散的潛在格式,即從可視化 tokenizer 獲得的 token。 這項研究表明,這些離散的視覺 token 的價值不應該被忽視,因為它們存在以下優勢:

1、與 LLM 的相容性。 token 表示的主要優點是它與語言 token 共用相同的形式,從而可以直接利用社區多年來為開發 LLM 所做的優化,包括更快的訓練和推理速度、模型基礎設施的進步、擴展模型的方法以及 GPU/TPU 優化等創新。 通過相同的 token 空間統一視覺和語言可以為真正的多模態 LLM 奠定基礎,後者可以在我們的視覺環境中理解、生成和推理。

2、壓縮表示。 離散 token 可以為視頻壓縮提供一個新的視角。 可視化 token 可以作為一種新的視頻壓縮格式,以減少數據在互聯網傳輸過程中佔用的磁碟存儲和頻寬。 與壓縮的 RGB 像素不同,這些 token 可以直接輸入生成模型,繞過傳統的解壓縮和潛在編碼步驟。 這可以加快生成視頻應用的處理速度,在邊緣計算情況下尤其有益。

3、視覺理解優勢。 先前的研究表明,離散 token 在自監督表示學習中作為預訓練目標是有價值的,如 BEiT 和 BEVT 中所討論的那樣。 此外,研究發現,使用 token 作為模型輸入提高了魯棒性和泛化性。

在這篇論文中,研究者提出了一個名為MAGVIT-v2的視頻 tokenizer,旨在將視頻(和圖像)映射為緊湊的離散 token。

該模型建立在 VQ-VAE 框架內的 SOTA 視頻 tokenizer——MAGVIT 基礎上。 基於此,研究者提出了兩種新技術:1)一種新穎的無查找(lookup-free)量化方法,使得大量詞彙的學習成為可能,以提高語言模型的生成品質; 2)通過廣泛的實證分析,他們確定了對MAGVIT的修改方案,不僅提高了生成品質,而且還允許使用共用詞彙表對圖像和視頻進行 token 化。

實驗結果表明,新模型在三個關鍵領域優於先前表現最好的視頻 tokenizer——MAGVIT。 首先,新模型顯著提高了MAGVIT的生成品質,在常見的圖像和視頻基準上刷新了SOTA。 其次,使用者研究表明,其壓縮質量超過了MAGVIT和當前的視頻壓縮標準HEVC。 此外,它與下一代視頻編解碼器 VVC 相當。 最後,研究者表明,與 MAGVIT 相比,他們的新 token 在兩個設置和三個數據集的視頻理解任務中表現更強。

方法介紹

本文引入了一種新的視頻 tokenizer,旨在將視覺場景中的時間 - 空間動態映射為適合語言模型的緊湊離散 token。 此外,該方法建立在MAGVIT的基礎上。

隨後,該研究重點介紹了兩種新穎的設計:無查找量化(Lookup-Free Quantization ,LFQ)和 tokenizer 模型的增強功能。

無查找量化

最近一段時間,VQ-VAE 模型取得巨大進展,但該方法存在一個缺點,即重建品質的改進與後續生成品質之間的關係不明確。 很多人誤以為改進重建就等於改進語言模型的生成,例如,擴大詞彙量可以提高重建品質。 然而,這種改進僅適用於詞彙量較小時的生成,而詞彙量非常大時會損害語言模型的性能。

本文將 VQ-VAE codebook 嵌入維度縮減到 0 ,即 Codebook

被替換為一個整數集

,其中

與 VQ-VAE 模型不同的是,這種新設計完全消除了對嵌入查找的需要,因此將其稱為 LFQ。 本文發現 LFQ 可以通過增加詞彙量,提高語言模型的生成品質。 如圖 1 中的藍色曲線所示,隨著詞彙量的增加,重建和生成都不斷改進 —— 這是當前 VQ-VAE 方法中未觀察到的特性。

到目前為止,可用的 LFQ 方法很多,但本文討論了一種簡單的變體。 具體來說,LFQ 的潛在空間被分解為單維變數的笛卡爾積,即

。 假定給定一個特徵向量

,量化表示 q (z) 的每個維度從以下獲得:

對於 LFQ ,q (z) 的 token 索引為:

除此以外,本文在訓練過程中還增加了熵懲罰:

視覺 tokenizer 模型的改進

聯合圖像 - 視頻 tokenization。 為了構建聯合圖像 - 視頻 tokenizer,需要一種新的設計。 本文發現 3D CNN 的性能比空間 transformer 更好。

本文探索了兩種可行的設計方案,如圖 2b 將 C-ViViT 與 MAGVIT 進行結合; 圖 2c 使用時間因果 3D 卷積來代替常規 3D CNN。

表 5a 對圖 2 中的設計進行了經驗比較,發現因果 3D CNN 表現最好。

除了使用因果 3D CNN 層之外,本文還進行了其他架構的修改,以提高 MAGVIT 性能,比如本文將編碼器下採樣器從平均池化更改為跨步卷積; 又比如在解碼器中每個解析度的殘差塊之前添加一個自適應組歸一化層等。

實驗結果

實驗從三個部分驗證了本文提出的tokenizer的性能:視頻和圖像生成、視頻壓縮,動作識別。 圖 3 直觀地比較了 tokenizer 與先前研究的結果對比。

視頻生成。 表 1 顯示了本文模型在兩個基準測試中都超越了所有現有技術,證明瞭良好的視覺 tokenizer 在使 LM 生成高質量視頻方面發揮著重要作用。

圖 4 顯示了模型的定性樣本。

圖像生成。 本文在標準 ImageNet 類條件設置下對 MAGVIT-v2 的圖像生成結果進行了評估。 結果表明本文模型在採樣品質(ID 和 IS)和推理時間效率(採樣步驟)方面都超過了表現最好的擴散模型。

圖 5 為可視化結果。

視頻壓縮。 結果如表 3 所示,本文模型在所有指標上都優於 MAGVIT,並且在 LPIPS 上優於所有方法。

視頻理解。 如表 4 所示,MAGVIT-v2 在這些評估中優於之前最好的 MAGVIT。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)