📢 Gate廣場 #NERO发帖挑战# 秀觀點贏大獎活動火熱開啓!
Gate NERO生態周來襲!發帖秀出NERO項目洞察和活動實用攻略,瓜分30,000NERO!
💰️ 15位優質發帖用戶 * 2,000枚NERO每人
如何參與:
1️⃣ 調研NERO項目
對NERO的基本面、社區治理、發展目標、代幣經濟模型等方面進行研究,分享你對項目的深度研究。
2️⃣ 參與並分享真實體驗
參與NERO生態周相關活動,並曬出你的參與截圖、收益圖或實用教程。可以是收益展示、簡明易懂的新手攻略、小竅門,也可以是行情點位分析,內容詳實優先。
3️⃣ 鼓勵帶新互動
如果你的帖子吸引到他人參與活動,或者有好友評論“已參與/已交易”,將大幅提升你的獲獎概率!
NERO熱門活動(帖文需附以下活動連結):
NERO Chain (NERO) 生態周:Gate 已上線 NERO 現貨交易,爲回饋平台用戶,HODLer Airdrop、Launchpool、CandyDrop、餘幣寶已上線 NERO,邀您體驗。參與攻略見公告:https://www.gate.com/announcements/article/46284
高質量帖子Tips:
教程越詳細、圖片越直觀、互動量越高,獲獎幾率越大!
市場見解獨到、真實參與經歷、有帶新互動者,評選將優先考慮。
帖子需原創,字數不少於250字,且需獲得至少3條有效互動
蘋果文生圖大模型亮相:俄羅斯套娃式擴散,支援1024x1024解析度
原文來源:機器之心
在生成式 AI 時代,擴散模型已經成為圖像、視頻、3D、音訊和文本生成等生成式 AI 應用的流行工具。 然而將擴散模型拓展到高解析度領域仍然面臨巨大挑戰,這是因為模型必須在每個步驟重新編碼所有的高解析度輸入。 解決這些挑戰需要使用帶有注意力塊的深層架構,這使得優化更困難,消耗的算力和記憶體也更多。
怎麼辦呢? 最近的一些工作專注於研究用於高解析度圖像的高效網路架構。 但是現有方法都沒有展示出超過 512×512 解析度的效果,並且生成質量落後於主流的級聯或 latent 方法。
我們以 OpenAI DALL-E 2、谷歌 IMAGEN 和英偉達 eDiffI 為例,它們通過學習一個低解析度模型和多個超解析度擴散模型來節省算力,其中每個元件都單獨訓練。 另一方面,latent擴散模型(LDM)僅學習低解析度擴散模型,並依賴單獨訓練的高解析度自編碼器。 對於這兩種方案,多階段式 pipeline 使訓練與推理複雜化,從而往往需要精心調整或進行超參。
本文中,研究者提出了俄羅斯套娃式擴散模型(Matryoshka Diffusion Models,MDM)它是用於端到端高解析度圖像生成的全新擴散模型。 代碼很快將釋出。
該研究提出的主要觀點是將低解析度擴散過程作為高解析度生成的一部分,通過使用嵌套 UNet 架構在多個解析度上執行聯合擴散過程。
該研究發現:MDM 與嵌套 UNet 架構一起實現了 1)多解析度損失:大大提高了高解析度輸入去噪的收斂速度; 2)高效的漸進式訓練計劃,從訓練低解析度擴散模型開始,按照計劃逐步添加高解析度輸入和輸出。 實驗結果表明,多解析度損失與漸進式訓練相結合可以讓訓練成本和模型質量獲得更好的平衡。
該研究在類條件圖像生成以及文本條件圖像和視頻生成方面評估了 MDM。 MDM 讓訓練高解析度模型無需使用級聯或潛在擴散(latent diffusion)。 消融研究表明,多解析度損失和漸進訓練都極大地提高了訓練效率和品質。
我們來欣賞以下 MDM 生成的圖片和視頻。
研究者介紹稱,MDM 擴散模型在高解析度中進行端到端訓練,同時利用層級結構的數據形成。 MDM 首先在擴散空間中泛化了標準擴散模型,然後提出了專用的嵌套架構和訓練流程。
首先來看如何在擴展空間對標準擴散模型進行泛化。
與級聯或 latent 方法的不同之處在於,MDM 通過在一個擴展空間中引入多解析度擴散過程,學得了具有層級結構的單個擴散過程。 具體如下圖 2 所示。
接下來看嵌套架構(NestedUNet)如何工作。
與典型的擴散模型類似,研究者使用UNet網路結構來實現MDM,其中並行使用殘差連接和計算塊以保留細粒度的輸入資訊。 這裏的計算塊包含多層捲積和自注意力層。 NestedUNet 與標準 UNet 的代碼分別如下。
研究者使用常規去噪目標在多個解析度下訓練 MDM,如下公式 (3) 所示。
這一訓練方法從一開始就避免了高成本的高解析度訓練,加速了整體收斂。 不僅如此,他們還合併了混合解析度訓練,該訓練方法在單個 batch 中同時訓練具有不同最終解析度的樣本。
實驗及結果
MDM 是一種通用技術,適用於可以逐步壓縮輸入維度的任何問題。 MDM 與基線方法的比較如下圖 4 所示。