📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
解讀OpenAI最強文生圖模型—DALL· E 3
原文來源:AIGC開放社區
Midjourney、Stable Difusion在商業變現和場景化落地方面獲得了巨大成功,這讓OpenAI看到了全新的商機,也是推出DALL· E 3的重要原因之一。
上周,OpenAI宣佈在ChatGPT Plus和企業版使用者中,全面開放文生圖模型DALL· E 3,同時罕見地放出了研究論文。
DALL· E 3與前兩代DALL· E、DALL· E 2相比,在語義理解、圖片質量、圖片修改、圖片解讀、長文本輸入等方面實現了質的飛躍,尤其是與ChatGPT的相結合,成為OpenAI全新的王牌應用。
論文位址:
研究人員發現,文本生成圖像模型在遵循詳細的圖片描述時經常存在各種難題,會忽略提示中的詞語或混淆其含義,根本原因就是訓練數據集中圖像描述的品質較差。
為了驗證這一假設,研究人員首先訓練了一個生成描述性圖像字幕的模型。 該模型經過精心訓練,可以為圖像生成詳細和準確的描述。
結果表明,在新描述上訓練的模型在遵循提示方面,明顯優於原始描述模型。 隨後在大規模數據集上使用這種方法訓練了——DALL-E 3。
圖像描述生成模組
該模組使用了CLIP(Contrastive Language-Image Pretraining)圖像編碼器和GPT語言模型(GPT-4),可為每張圖像生成細緻的文字描述。
**研究人員通過構建小規模主體描述數據集、大規模詳細描述數據集以及設置生成規則等方法,使模組輸出的圖像描述資訊量大幅提升,**為後續生成圖像提供強力支援。 主要各個模組功能如下:
1)CLIP圖像編碼器
CLIP是一個訓練好的圖像文本匹配模型,可以將一張圖像編碼成一個固定長度的向量,包含了圖像的語義資訊。 DALL-E 3利用CLIP的圖像編碼器,將訓練圖像編碼為圖像特徵向量,作為條件文本生成的一部分輸入。
2)GPT語言模型
DALL-E 3基於GPT架構建立語言模型,通過最大化隨機抽取文本序列的聯合概率,學習生成連貫的文字描述。
將上述兩者結合,圖像特徵向量與之前的單詞序列一同輸入到GPT語言模型中,就可以實現對圖像的條件文本生成。 通過訓練,該模組學會為每張圖像生成細緻Deive的描述。
4)優化訓練
儘管DALL-E 3的基礎架構已經完成了,但直接訓練的結果還不夠理想,無法生成細節豐富的描述。 所以,研究人員進行了以下技術優化:
圖像生成模組
該模組先用VAE將高解析度圖像壓縮為低維向量,降低學習難度。 然後,使用T5 Transformer將文本編碼為向量,並通過GroupNorm層將其注入diffusion模型,指導圖像生成方向。
研究人員認為,額外加入的Diffusion模型顯著增強了圖片細節生成的效果。 具體流程如下:
1)圖像壓縮
將高解析度圖像先通過VAE模型壓縮為低維向量,以降低圖像生成的難度。 DALL-E 3採用8倍下採樣,256px圖像壓縮為32x32大小的latent向量。
2)文本編碼器
使用T5 Transformer等網路將文本提示編碼為向量,以便注入到圖像生成模型中。
這是圖像生成的核心技術,將圖像生成問題分解為多次對雜訊向量的小規模擾動,逐步鄰近目標圖像。 關鍵是設計恰當的前向過程和反向過程。
4)文本注入
將編碼好的文本向量,通過GroupNorm層注入到Latent Diffusion模型中,指導每輪反覆運算的圖像生成方向。
5)優化訓練
研究人員發現,在壓縮image latent空間上再訓練一個Diffusion模型,可以進一步提升細節生成品質。 這也是DALL-E 3比前兩代生成的圖片品質更好的原因之一。
CLIP評估數據
研究人員首先利用CLIP模型計算DALL-E 3生成圖片與原描述文本的相似度,即CLIP得分。 他們隨機抽取了MSCOCO數據集中4096條圖像描述作為提示文本,分別讓DALL-E 2、DALL-E 3和Stable Diffusion XL生成對應圖片,然後計算三者的平均CLIP得分。
這表明DALL-E 3生成的圖片與原始描述文本的契合度更高,文本指導圖像生成的效果更好。
Drawbench評估數據
在Drawbench數據集上比較了各模型的表現。 該數據集包含許多脆弱的文本提示,考驗模型對提示的理解力。
研究人員使用GPT-V這個配備視覺能力的語言模型來自動判斷生成圖片的正確性。
在長文本提示上,DALL-E 3的正確率也達到81%,繼續領先其他模型。
T2I-CompBench評估
通過T2I-CompBench中的相關子測試,考察模型對組合類提示的處理能力。 在顏色綁定、形狀綁定和質感綁定三項測試中,DALL-E 3的正確綁定比例均高居各模型之首,充分展現了其理解組合提示的強大能力。
人工評估
研究人員還邀請了人工在遵循提示、風格連貫性等方面對生成樣本進行判斷。 在170條提示的評估中,DALL-E 3明顯優於Midjourney和Stable Diffusion XL。