在圖像、視頻生成上，語言模型首次擊敗擴散模型，tokenizer是關鍵

2023-10-11 06:38:16

為什麼語言模型在視覺生成方面落後於擴散模型？來自谷歌、CMU 的研究表明，tokenizer 是關鍵。

圖片來源：由無界 AI生成

大型語言模型（LLM 或 LM）一開始是用來生成語言的，但隨著時間的推移，它們已經能夠生成多種模態的內容，並在音訊、語音、代碼生成、醫療應用、機器人學等領域開始佔據主導地位。

當然，LM 也能生成圖像和視頻。在此過程中，圖像圖元會被視覺tokenizer映射為一系列離散的 token。然後，這些 token 被送入 LM transformer，就像詞彙一樣被用於生成建模。儘管 LM 在視覺生成方面取得了顯著進步，但 LM 的表現仍然不如擴散模型。例如，在圖像生成的金標基準 —ImageNet 數據集上進行評估時，最佳語言模型的表現比擴散模型差了 48% 之多（以 256ˆ256 解析度生成圖像時，FID 為 3.41 對 1.79）。

為什麼語言模型在視覺生成方面落後於擴散模型？來自谷歌、CMU 的研究者認為，主要原因是缺乏一個良好的視覺表示，類似於我們的自然語言系統，以有效地建模視覺世界。為了證實這一假設，他們進行了一項研究。

論文連結：

這項研究表明，在相同的訓練數據、可比模型大小和訓練預算條件下，利用良好的視覺 tokenizer，掩碼語言模型在圖像和視頻基準的生成保真度和效率方面都超過了 SOTA 擴散模型。這是語言模型在標誌性的 ImageNet 基準上擊敗擴散模型的首個證據。

需要強調的是，研究者的目的不是斷言語言模型是否優於其他模型，而是促進 LLM 視覺 tokenization 方法的探索。 LLM 與其他模型（如擴散模型）的根本區別在於，LLM 使用離散的潛在格式，即從可視化 tokenizer 獲得的 token。這項研究表明，這些離散的視覺 token 的價值不應該被忽視，因為它們存在以下優勢：

1、與 LLM 的相容性。 token 表示的主要優點是它與語言 token 共用相同的形式，從而可以直接利用社區多年來為開發 LLM 所做的優化，包括更快的訓練和推理速度、模型基礎設施的進步、擴展模型的方法以及 GPU/TPU 優化等創新。通過相同的 token 空間統一視覺和語言可以為真正的多模態 LLM 奠定基礎，後者可以在我們的視覺環境中理解、生成和推理。

2、壓縮表示。離散 token 可以為視頻壓縮提供一個新的視角。可視化 token 可以作為一種新的視頻壓縮格式，以減少數據在互聯網傳輸過程中佔用的磁碟存儲和頻寬。與壓縮的 RGB 像素不同，這些 token 可以直接輸入生成模型，繞過傳統的解壓縮和潛在編碼步驟。這可以加快生成視頻應用的處理速度，在邊緣計算情況下尤其有益。

3、視覺理解優勢。先前的研究表明，離散 token 在自監督表示學習中作為預訓練目標是有價值的，如 BEiT 和 BEVT 中所討論的那樣。此外，研究發現，使用 token 作為模型輸入提高了魯棒性和泛化性。

在這篇論文中，研究者提出了一個名為MAGVIT-v2的視頻 tokenizer，旨在將視頻（和圖像）映射為緊湊的離散 token。

該模型建立在 VQ-VAE 框架內的 SOTA 視頻 tokenizer——MAGVIT 基礎上。基於此，研究者提出了兩種新技術：1）一種新穎的無查找（lookup-free）量化方法，使得大量詞彙的學習成為可能，以提高語言模型的生成品質; 2）通過廣泛的實證分析，他們確定了對MAGVIT的修改方案，不僅提高了生成品質，而且還允許使用共用詞彙表對圖像和視頻進行 token 化。

實驗結果表明，新模型在三個關鍵領域優於先前表現最好的視頻 tokenizer——MAGVIT。首先，新模型顯著提高了MAGVIT的生成品質，在常見的圖像和視頻基準上刷新了SOTA。其次，使用者研究表明，其壓縮質量超過了MAGVIT和當前的視頻壓縮標準HEVC。此外，它與下一代視頻編解碼器 VVC 相當。最後，研究者表明，與 MAGVIT 相比，他們的新 token 在兩個設置和三個數據集的視頻理解任務中表現更強。