Meta重新定義多模態！北大校友共同一作，70億參數文生圖模型擊敗Diffusion

巴比特_

2023-07-16 05:38:54

來源：新智元

北大校友共同一作，Meta發布史上首個單一多模態模型！ 7B模型擊敗Diffusion，完美畫手難題完美解決。

Meta又來炸場了！

就在剛剛，Meta推出了一個基於Transformer的多模態模型——CM3leon，在文生圖和圖像理解領域都取得了絕對的突破，堪稱同類最佳。

而且，這種將多模態組合成單一模型，在此前公開的AI系統中是前所未有的。

顯然，Meta的這項研究，為多模態AI定義了一個全新的標準，預示著AI系統完全可以在理解、編輯、生成圖像、視頻、文本這些任務上自由切換。

同時，CM3leon的推出，正式標誌著自回歸模型首次在關鍵基准上，與領先的生成擴散模型的性能相媲美。

論文地址：

此前，文生圖領域最受矚目的三大明星模型，是Stable Diffusion，DALL-E和Midjourney。而文生圖技術基本上都是依賴於擴散模型。

但CM3leon的革命性意義在於：它使用的是完全不同的技術——基於tokenizer的自回歸模型。

結果表面，基於tokenizer的自回歸模型不僅比基於擴散模型的方法更有效，在文生圖領域實現了SOTA，而且訓練的計算量還比此前基於Transformer的方法少了五倍！

準備好，一大波酷炫效果來襲

光看原始性能指標，還說明不了什麼。

CM3leon真正驚豔的地方，在於處理更複雜的提示和圖像編輯任務。

準確渲染圖像，效果驚人

比如，它可以從提示中準確渲染圖像，例如「撒哈拉沙漠中戴著草帽和霓虹燈太陽鏡的小仙人掌」。

任意，隨心所欲編輯圖像

CM3leon還有一個獨特的功能——根據任意格式的文本指令對現有圖像進行編輯，比如更改天空顏色，或者在特定位置添加對象。

上面這些功能，遠遠超越了DALL-E 2等模型所能達到的效果。

前所未有的多模態單一模型

CM3leon的多功能架構，讓它能夠在文本、圖像和構圖任務之間流暢地自由轉換。

除了文生圖的功能，CM3leon還可以為圖像生成標註、回答有關圖像內容的問題，甚至可以根據邊界框和分割圖的文本描述創建圖像。

這種將模態組合成單一模型的情況，在此前在公開披露的AI系統中是前所未有的。

：狗叼著什麼？模型回答：棍子。

：詳細描述給定圖像。模型回答：這張圖像中，一隻狗嘴裡叼著一根棍子。地面上有草。圖像的背景中有樹。

給定圖像邊界框分割的文本描述，說明在圖像的哪個地方需要一個水池、需要一個鏡子，CM3leon就可以完全按生成對應圖像。

超高分辨率

一个单独的超分辨率平台可以与CM3leon输出集成，从而显著提高分辨率和细节。

輸入「湖中央的圓形小島，湖周圍有森林，高對比度」——

解決AI畫手難題

連AI不會畫手的老大難問題，都被CM3leon輕鬆解決了。

自回歸模型首次擊敗Diffusion？

在近年來大熱的文生圖領域，Midjourney，DALL-E 2和Stable Diffusion使用的都是擴散技術。雖然Diffusion技術產生的結果很驚艷，但由於它是計算密集型的，這使得它的計算強度很大，運行成本很高，而且往往缺乏實時應用所需的速度。

有趣的是，OpenAI幾年前曾想通過名為Image GPT的模型，來探索了Transformer作為圖像生成的可能性。但它最終放棄了這個想法，轉而支持Diffusion。

而CM3leon採用的是完全不同的方法。作為基於Transformer的模型，它利用注意力機制來權衡輸入數據（無論是文本還是圖像）的相關性。

這種架構的差異，使得CM3leon能夠實現更快的訓練速度和更好的並行化，因而比傳統的基於擴散的方法更有效。

僅用單個TPU，CM3leon就在圖像數據集上進行了有效的訓練，並在MS-COCO數據集上達到了4.88的FID分數，超過了Google的文本到圖像模型Parti。

與此同時，CM3leon的效率更是同類Transformer架構的5倍以上。

CM3leon之所以如此成功，可以歸功於它獨特的架構和訓練方法。

它強大性能的一個關鍵，就是監督微調的技術（SFT）。

此前，SFT已被用於訓練像ChatGPT這樣的文本生成模型，效果很好，但Meta認為，應用於圖像領域時，它也很有用。

事實上，指令微調不僅提高了CM3Leon在圖像生成方面的性能，而且提高了圖像標註編寫的性能，使其能夠回答有關圖像的問題並通過遵循文本指令（例如「將天空的顏色更改為亮藍色」）來編輯圖像。

CM3leon僅採用解碼器轉換器體系結構，類似於已建立的基於文本的模型，但增加了處理文本和圖像的功能。

訓練過程涉及檢索增強，以及跨越各種圖像和文本生成任務的指令微調。

通过应用跨模态的监督微调技术，Meta显著提高了CM3leon在图像标注、视觉QA和文本编辑方面的性能。

儘管CM3leon只在30億個文本token上進行了訓練，但它與在多達1000億個token上訓練的其他模型的結果相當，甚至實現了超越。

作為第一個採用與文本語言模型相似的方法進行調整的多模態模型，Meta在CM3leon中加入了一個大規模的檢索增強預訓練階段和一個第二個多任務的監督微調（SFT）階段。

CM3leon表現如何

憑藉CM3leon的能力，圖像生成工具可以產生更一致的圖像，更好地遵循輸入提示。

以下是CM3leon在各種任務中的能力展示，所有任務均由單個模型完成：

文本到圖像生成

基於文本的圖像編輯（例如，「將天空的顏色改為明亮藍色」）很具挑戰性，因為它要求模型能夠同時理解文本指令和視覺內容。

尤其是，當涉及復雜對像或提示包含多個必須在輸出中出現的約束條件時。

根據具有高度組合結構的提示文本，CM3leon可以生成一個指令跟隨的圖像。

(1) 在撒哈拉沙漠中戴著稻草帽和霓虹太陽鏡的小仙人掌(2) 一隻人手的特寫(3) 在動漫中準備使用武士刀參加一場史詩級戰鬥的浣熊主角(4) 以幻想風格呈現的停車標誌，上面寫著「1991」

基於文本的圖像編輯

給定一張圖像和一個文本提示，CM3leon可以根據文本中的指令對圖像進行編輯。

由於CM3leon模型的通用性，與其他的任務一樣，這是通過同一個模型實現的，而不像以前的模型（如InstructPix2Pix）只針對基於文本的圖像編輯進行微調。

同時，CM3leon模型還可以根據一系列不同的提示來生成簡短或長篇描述，並回答關於圖像的問題。

舉個栗子。

提示：

問題：這兩個物體有什麼共同點？

上下文：選擇最佳答案。

選項：（A）閃的（B）鹹的

回答：讓我們逐步思考：

CM3Leon輸出：

思考每個物體。薯片有鹹味。椒鹽脆餅是鹹的。所以答案是（B）。

- 提示：

詳細描述給定圖像中的所有物體。

CM3Leon輸出：

一個街道標誌位於金屬桿上。標誌是藍色的，上面有白色的文字。桿上有一個紅燈。天空是明亮的藍色。街道上停著車。街道兩側有樹木。街道兩側有建築物。

同樣，對於下面這些「看圖問答」，CM3leon都能輕鬆拿捏。

為了進一步了解CM3leon，Meta在圖像描述生成和視覺問答任務中，對指令微調模型進行了實證評估，並將它們與先前的SOTA基准進行了比較。

相比於Flamingo（100B）和OpenFlamingo（40B），CM3leon模型的文本數據明顯較少（約3B個token）。

但在MS-COCO圖片描述和VQA2問答方面，CM3leon卻實現了與零樣本OpenFlamingo相同的性能，甚至在VizWiz任務上擊敗了Flamingo近10個百分點。

結構引導的圖像編輯

結構引導的圖像編輯旨在理解和解釋提供的文本指令以及結構或佈局信息。

從而讓CM3leon模型能夠在遵循給定的結構或佈局指令的同時，創建視覺上一致和語境恰當的圖像編輯。

在只包含分割的圖像（沒有文本類別）中，生成一張圖像。這裡的輸入表示從中提取分割的圖像。

超分辨率

除此之外，圖像生成領域還有一個常見的技巧——利用經過單獨訓練的超分辨率階段，從原始模型輸出生成更高分辨率的圖像。

對於這類文本到圖像生成任務，CM3leon表現得也非常好。

（1）一杯熱氣騰騰的咖啡，背景是群山，在旅途中休息

（2）日落時分，美麗而雄偉的公路

（3）湖中心的圓形小島，湖邊環繞著森林

以及一些「奇幻」風格的生成。

（1）海龜在水下游泳（2）大像在水下游泳（2）一群羊

如何構建CM3Leon

架構

在架構方面，CM3Leon採用了一個和成熟的文本模型相似的僅解碼器Transformer。

但不同的是，CM3Leon能夠輸入和生成文本和圖像。

訓練

通過採用論文「Retri-Augmented Multimodal Language Modeling」中提出的訓練檢索增強技術，Meta大大提高了CM3Leon模型的效率和可控性。

同時，Meta還在各種不同的圖像和文本生成任務上，對CM3Leon模型進行了指令微調。

左側：各種任務的常見輸入；右側：相應的模型輸出。在訓練過程中，Meta將模型輸入和輸出連接起來，並使用與預訓練階段相同的目標進行訓練。

隨著人工智能行業的不斷發展，像CM3Leon這樣的生成模型變得越來越複雜。

這些模型通過對數百萬個示例圖像進行訓練來學習視覺和文本之間的關係，但它們也可能反映出訓練數據中存在的偏見。

因此，Meta採用了有許可的數據集對CM3Leon進行訓練。

而結果也證明，雖然數據的分佈與先前的模型截然不同，但CM3Leon仍然實現了強大的性能。

對此，Meta希望，通過大家的共同努力，可以創建更準確、更公正、更公平的模型。

為多模態語言模型鋪平道路

總的來說，Meta認為，CM3Leon在各種任務上的出色性能，是朝著更真實的圖像生成和理解邁出的重要一步。

而這樣的模型，最終可以幫助提升創造力並在元宇宙中實現更好的應用。

作者介紹

Lili Yu、Bowen Shi和Ramakanth Pasunuru為論文共同一作。

其中，作Lili Yu取得了北大物理系的學士學位，以及MIT電子工程和計算機科學的博士學位。

參考資料：

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

讚賞
點讚
留言
分享

留言

0/400

暫無留言