文本、圖像、音頻和視頻......隨意組合，微軟的跨模態模型CoDi 究竟有多強大

巴比特_ · 2023-07-11T07:11:29+00:00

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f937af10e0-dd1a6f-7649e1) 圖片來源：由無界AI 生成微軟Azure 研究團隊與北卡羅萊納大學研究人員發布了一篇論文《通過可組合擴散實現任意生成》，介紹了一種新的多模態生成模型——CoDi（Composable Diffusion）。CoDi 能夠從輸入模態的任意組合生成輸出模態的任意組合，例如語言、圖像、視頻或音頻。與現有的生成式人工智能係統不同，CoDi 可以並行生成多種模態，並且其輸入不限於文本或圖像等模態子集。 CoDi 可以自由地調節任何輸入組合併生成任何模態組，即使它們不存在於訓練數據中。CoDi 通過同時處理和生成文本、圖像、音頻和視頻等多模式內容，引入了前所未有的內容生成水平。使用擴散模型和可組合技術，CoDi 可以從單個或多個輸入生成高質量、多樣化的輸出，從而改變內容創建、可訪問性和個性化學習。CoDi具有高度可定制性和靈活性，可實現強大的聯合模態生成質量，並且優於或與單模態合成的最先進的單模態相媲美。近日，CoDi 有了新進展，已經正式在微軟Azure 平台可用，目前可以免費使用12 個月。## **CoDi 究竟有多麼強大**CoDi的出現是微軟雄心勃勃的i-Code 項目的一部分，該項目是一項致力於推進多模態AI 能力的研究計劃。 CoDi 能夠無縫整合各種來源的信息並生成一致的輸出，有望徹底改變人機交互的多個領域。CoDi可以帶來變革的領域之一是輔助技術，使殘疾人能夠更有效地與計算機交互。通過跨文本、圖像、視頻和音頻無縫生成內容，CoDi 可以為用戶提供更加身臨其境且易於訪問的計算體驗。此外，CoDi有潛力通過提供全面的交互式學習環境來重塑定制學習工具。學生可以參與無縫集成各種來源信息的多模式內容，增強他們對主題的理解和參與。CoDi也將徹底改變內容生成。該模型能夠跨多種模式生成高質量的輸出，可以簡化內容創建過程並減輕創作者的負擔。無論是生成引人入勝的社交媒體帖子、製作交互式多媒體演示，還是創建引人入勝的講故事體驗，CoDi 的功能都有可能重塑內容生成格局。為了解決傳統單模態AI 模型的局限性，CoDi 為組合特定模態生成模型的繁瑣且緩慢的過程提供了解決方案。這種新穎的模型採用了獨特的可組合生成策略，可以橋接擴散過程中的對齊，並促進交織模態的同步生成，例如時間對齊的視頻和音頻。CoDi的模型訓練流程也頗具特色。它涉及將圖像、視頻、音頻和語言等輸入模式投影到公共語義空間中。這允許靈活處理多模態輸入，並且通過交叉注意模塊和環境編碼器，它能夠同時生成輸出模態的任意組合。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9bc9f58601-dd1a6f-7649e1) （上圖）CoDi的模型架構：CoDi 使用多階段訓練方案，能夠僅對線性數量的任務進行訓練，但對輸入和輸出模態的所有組合進行推理。## **丨單個或多個輸入——>多個輸出**CoDi模型可以採用單個或多個提示（包括視頻、圖像、文本或音頻）來生成多個對齊的輸出，例如帶有伴音的視頻。例如：**1.文本+圖像+音頻——>音頻+視頻**“滑板上的泰迪熊，4k，高分辨率”+紐約時代廣場的圖片+一段下雨的音頻——>經過CoDi 生成之後，得到一段“一隻泰迪熊在雨中在時代廣場玩滑板，伴隨著同步的雨聲和街道噪音。”![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-17f537e017-dd1a6f-7649e1) 如何生成的？> CoDi可以通過可組合擴散聯合生成視頻、圖像、音頻和文本的任意組合。 CoDi首先接收音軌生成文本字幕，然後再接收圖像進行圖像+音頻——音頻，然後接收圖像+音頻+文本將它們的信息組合起來生成新的聯合圖像+字幕。最後， CoDi還可以接收圖像+音頻+文本並生成視頻+音頻。**2 文本+音頻+圖像——>文本+圖像**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6467153927-dd1a6f-7649e1) 1. **3.** **音頻+圖像——>文本+圖像**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f959317814-dd1a6f-7649e1) 1. **4. 文本+圖像——>文本+圖像**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d32b2de333-dd1a6f-7649e1) **5. 文本——>視頻+音頻**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fcc4d70bb8-dd1a6f-7649e1) **6. 文本——>文本+音頻+圖像**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-247b38d9d6-dd1a6f-7649e1)## **丨多個輸入——>單個輸出****1. 文本+音頻——圖像**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-586363abe2-dd1a6f-7649e1) **2.文本+圖像——>圖像**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-77e8f7810d-dd1a6f-7649e1) **3 文本+音頻——>視頻**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1799ea0bcd-dd1a6f-7649e1) **4 文本+圖像——>視頻**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e145e766ea-dd1a6f-7649e1) **5.還有視頻+音頻——>文本，圖像+音頻——>音頻，文本+圖像——>音頻......等**## **丨單輸入——單輸出****1 文本——>圖像**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3b57b17518-dd1a6f-7649e1) **2 音頻——>圖像**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-97ced2f7d6-dd1a6f-7649e1) **3 圖像——>視頻**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-12e68d0230-dd1a6f-7649e1) **4 圖像——>音頻**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a34494b67f-dd1a6f-7649e1) **5 音頻——>文本**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f1beb7662f-dd1a6f-7649e1) **6 圖像——>文本**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5aa0a798f4-dd1a6f-7649e1) 參考資料：***