解讀OpenAI最強文生圖模型—DALL· E 3

巴比特_

2023-10-24 02:11:49

原文來源：AIGC開放社區

圖片來源：由無界AI生成

Midjourney、Stable Difusion在商業變現和場景化落地方面獲得了巨大成功，這讓OpenAI看到了全新的商機，也是推出DALL· E 3的重要原因之一。

上周，OpenAI宣佈在ChatGPT Plus和企業版使用者中，全面開放文生圖模型DALL· E 3，同時罕見地放出了研究論文。

DALL· E 3與前兩代DALL· E、DALL· E 2相比，在語義理解、圖片質量、圖片修改、圖片解讀、長文本輸入等方面實現了質的飛躍，尤其是與ChatGPT的相結合，成為OpenAI全新的王牌應用。

論文位址：

下面「AIGC開放社區」將根據DALL· E 3的論文為大家解讀其主要技術原理，各個模組的功能。

研究人員發現，文本生成圖像模型在遵循詳細的圖片描述時經常存在各種難題，會忽略提示中的詞語或混淆其含義，根本原因就是訓練數據集中圖像描述的品質較差。

為了驗證這一假設，研究人員首先訓練了一個生成描述性圖像字幕的模型。該模型經過精心訓練，可以為圖像生成詳細和準確的描述。

在使用這個模型為訓練數據集重新生成描述后，研究人員比較了在原始描述和新生成描述上訓練的多個文本生成圖像模型。

結果表明，在新描述上訓練的模型在遵循提示方面，明顯優於原始描述模型。隨後在大規模數據集上使用這種方法訓練了——DALL-E 3。

從DALL-E 3的技術架構來看，主要分為圖像描述生成和圖像生成兩大模組。

圖像描述生成模組

該模組使用了CLIP（Contrastive Language-Image Pretraining）圖像編碼器和GPT語言模型（GPT-4），可為每張圖像生成細緻的文字描述。

**研究人員通過構建小規模主體描述數據集、大規模詳細描述數據集以及設置生成規則等方法，使模組輸出的圖像描述資訊量大幅提升，**為後續生成圖像提供強力支援。主要各個模組功能如下：

1）CLIP圖像編碼器

CLIP是一個訓練好的圖像文本匹配模型，可以將一張圖像編碼成一個固定長度的向量，包含了圖像的語義資訊。 DALL-E 3利用CLIP的圖像編碼器，將訓練圖像編碼為圖像特徵向量，作為條件文本生成的一部分輸入。

2）GPT語言模型

DALL-E 3基於GPT架構建立語言模型，通過最大化隨機抽取文本序列的聯合概率，學習生成連貫的文字描述。

3）條件文本生成

將上述兩者結合，圖像特徵向量與之前的單詞序列一同輸入到GPT語言模型中，就可以實現對圖像的條件文本生成。通過訓練，該模組學會為每張圖像生成細緻Deive的描述。

4）優化訓練

儘管DALL-E 3的基礎架構已經完成了，但直接訓練的結果還不夠理想，無法生成細節豐富的描述。所以，研究人員進行了以下技術優化：

* 構建小規模數據集，專門收集主體物詳細描述，微調語言模型，傾向於描述圖像主體。

構建大規模詳細描述數據集，描述主體、背景、顏色、文本等各個方面，通過微調進一步提升描述品質。
設置生成描述的長度、樣式等規則，防止語言模型偏離人類風格。

圖像生成模組

該模組先用VAE將高解析度圖像壓縮為低維向量，降低學習難度。然後，使用T5 Transformer將文本編碼為向量，並通過GroupNorm層將其注入diffusion模型，指導圖像生成方向。

研究人員認為，額外加入的Diffusion模型顯著增強了圖片細節生成的效果。具體流程如下：

1）圖像壓縮

將高解析度圖像先通過VAE模型壓縮為低維向量，以降低圖像生成的難度。 DALL-E 3採用8倍下採樣，256px圖像壓縮為32x32大小的latent向量。

2）文本編碼器

使用T5 Transformer等網路將文本提示編碼為向量，以便注入到圖像生成模型中。

3）潛在擴散

這是圖像生成的核心技術，將圖像生成問題分解為多次對雜訊向量的小規模擾動，逐步鄰近目標圖像。關鍵是設計恰當的前向過程和反向過程。

4）文本注入

將編碼好的文本向量，通過GroupNorm層注入到Latent Diffusion模型中，指導每輪反覆運算的圖像生成方向。

5）優化訓練

研究人員發現，在壓縮image latent空間上再訓練一個Diffusion模型，可以進一步提升細節生成品質。這也是DALL-E 3比前兩代生成的圖片品質更好的原因之一。

CLIP評估數據

研究人員首先利用CLIP模型計算DALL-E 3生成圖片與原描述文本的相似度，即CLIP得分。他們隨機抽取了MSCOCO數據集中4096條圖像描述作為提示文本，分別讓DALL-E 2、DALL-E 3和Stable Diffusion XL生成對應圖片，然後計算三者的平均CLIP得分。

結果顯示，DALL-E 3的CLIP得分達到32.0，優於DALL-E 2的31.4和Stable Diffusion XL的30.5。

這表明DALL-E 3生成的圖片與原始描述文本的契合度更高，文本指導圖像生成的效果更好。

Drawbench評估數據

在Drawbench數據集上比較了各模型的表現。該數據集包含許多脆弱的文本提示，考驗模型對提示的理解力。

研究人員使用GPT-V這個配備視覺能力的語言模型來自動判斷生成圖片的正確性。

在短文本提示的子測試中，DALL-E 3正確生成圖像的比例達到70.4%，顯著超過DALL-E 2的49%和Stable Diffusion XL的46.9%。

在長文本提示上，DALL-E 3的正確率也達到81%，繼續領先其他模型。

T2I-CompBench評估

通過T2I-CompBench中的相關子測試，考察模型對組合類提示的處理能力。在顏色綁定、形狀綁定和質感綁定三項測試中，DALL-E 3的正確綁定比例均高居各模型之首，充分展現了其理解組合提示的強大能力。

人工評估

研究人員還邀請了人工在遵循提示、風格連貫性等方面對生成樣本進行判斷。在170條提示的評估中，DALL-E 3明顯優於Midjourney和Stable Diffusion XL。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
分享

留言

0/400

暫無留言