Teks, gambar, audio, dan video... Seberapa kuat model CoDi lintas modal Microsoft?

Question

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f937af10e0-dd1a6f-7649e1) Sumber gambar: Dihasilkan oleh AI Tak TerbatasTim riset Microsoft Azure dan peneliti University of North Carolina menerbitkan makalah "Pembuatan Sewenang-wenang Melalui Difusi yang Dapat Dikomposisi", memperkenalkan model generasi multimodal baru - CoDi (Difusi yang Dapat Dikomposisi).CoDi mampu menghasilkan kombinasi modalitas output apa pun dari kombinasi modalitas input apa pun, seperti bahasa, gambar, video, atau audio. Tidak seperti sistem AI generatif yang ada, CoDi dapat menghasilkan banyak modalitas secara paralel, dan inputnya tidak terbatas pada subset modalitas seperti teks atau gambar. CoDi bebas untuk mengkondisikan kombinasi input apa pun dan menghasilkan rangkaian modalitas apa pun, meskipun tidak ada dalam data pelatihan.CoDi memperkenalkan tingkat pembuatan konten yang belum pernah terjadi sebelumnya dengan memproses dan menghasilkan konten multimodal secara bersamaan seperti teks, gambar, audio, dan video. Dengan menggunakan model difusi dan teknik yang dapat disusun, CoDi dapat menghasilkan keluaran beragam dan berkualitas tinggi dari masukan tunggal atau ganda, mengubah pembuatan konten, aksesibilitas, dan pembelajaran yang dipersonalisasi.CoDi sangat dapat disesuaikan dan fleksibel, memungkinkan kualitas pembuatan modalitas bersama yang kuat yang mengungguli atau menyaingi sintesis modalitas tunggal yang canggih.Baru-baru ini, CoDi telah membuat kemajuan baru dan telah tersedia secara resmi di platform Microsoft Azure, dapat digunakan secara gratis selama 12 bulan.## **Seberapa kuat CoDi**CoDi muncul sebagai bagian dari proyek i-Code Microsoft yang ambisius, sebuah inisiatif penelitian yang didedikasikan untuk memajukan kemampuan AI multimodal. Kemampuan CoDi untuk mengintegrasikan informasi secara mulus dari berbagai sumber dan menghasilkan keluaran yang konsisten diharapkan dapat merevolusi berbagai bidang interaksi manusia-komputer.Salah satu bidang di mana CoDi dapat membawa perubahan adalah teknologi bantuan, yang memungkinkan penyandang disabilitas untuk berinteraksi dengan komputer secara lebih efektif. Dengan menghasilkan konten secara mulus di seluruh teks, gambar, video, dan audio, CoDi dapat memberi pengguna pengalaman komputasi yang lebih imersif dan mudah diakses.Selain itu, CoDi memiliki potensi untuk menemukan kembali alat pembelajaran khusus dengan menyediakan lingkungan pembelajaran interaktif yang komprehensif. Siswa terlibat dengan konten multimodal yang dengan mulus mengintegrasikan informasi dari berbagai sumber, meningkatkan pemahaman dan keterlibatan mereka dengan topik tersebut.CoDi juga akan merevolusi pembuatan konten. Model ini mampu menghasilkan keluaran berkualitas tinggi di berbagai modalitas, yang dapat menyederhanakan proses pembuatan konten dan mengurangi beban kreator. Apakah menghasilkan posting media sosial yang menarik, membuat presentasi multimedia interaktif, atau membuat pengalaman mendongeng yang menarik, kemampuan CoDi memiliki potensi untuk membentuk kembali lanskap pembuatan konten.Untuk mengatasi keterbatasan model AI unimodal tradisional, CoDi memberikan solusi untuk proses yang membosankan dan lambat dalam menggabungkan model generatif khusus modalitas.Model novel ini menggunakan strategi pembuatan komposisi unik yang menjembatani penyelarasan selama difusi dan memfasilitasi pembuatan modalitas terjalin secara simultan, seperti video dan audio yang selaras waktu.Proses pelatihan model CoDi juga cukup khas. Ini melibatkan memproyeksikan modalitas input seperti gambar, video, audio, dan bahasa ke dalam ruang semantik umum. Hal ini memungkinkan penanganan input multimodal yang fleksibel, dan melalui modul cross-attention dan encoder lingkungan, ia mampu secara bersamaan menghasilkan kombinasi modalitas output yang sewenang-wenang.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9bc9f58601-dd1a6f-7649e1) (Atas) Arsitektur model CoDi: CoDi menggunakan skema pelatihan multi-tahap yang mampu melatih hanya pada sejumlah tugas linier tetapi menyimpulkan semua kombinasi modalitas input dan output.## **丨Masukan tunggal atau ganda --> banyak keluaran**Model CoDi dapat mengambil isyarat tunggal atau ganda (termasuk video, gambar, teks, atau audio) untuk menghasilkan beberapa keluaran yang selaras, seperti video dengan suara yang menyertainya.Misalnya:**1. Teks+Gambar+Audio——>Audio+Video**"Sebuah boneka beruang di papan seluncur, 4k, resolusi tinggi" + gambar Times Square di New York + audio hujan --> Setelah generasi CoDi, sepotong "Sebuah papan seluncur boneka beruang di Times Square dalam hujan, Ditemani oleh suara hujan dan kebisingan jalanan secara bersamaan."![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-17f537e017-dd1a6f-7649e1) Bagaimana itu dihasilkan?> CoDi dapat bersama-sama menghasilkan kombinasi video, gambar, audio, dan teks apa pun melalui difusi yang dapat disusun. CoDi pertama-tama menerima trek audio untuk menghasilkan subtitle teks, kemudian menerima gambar untuk gambar+audio-audio, dan kemudian menerima gambar+audio+teks untuk menggabungkan informasinya untuk menghasilkan gambar+subjudul gabungan baru. Terakhir, CoDi juga dapat menerima gambar+audio+teks dan menghasilkan video+audio.**2 teks+audio+gambar -->teks+gambar**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6467153927-dd1a6f-7649e1) 1. **3.** **Audio + Gambar --> Teks + Gambar**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f959317814-dd1a6f-7649e1) 1. **4. Teks+Gambar ——>Teks+Gambar**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d32b2de333-dd1a6f-7649e1) **5. Teks——>Video+Audio**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fcc4d70bb8-dd1a6f-7649e1) **6. Teks——>Teks+Audio+Gambar**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-247b38d9d6-dd1a6f-7649e1)## **丨Beberapa input --> satu output****1. Teks+Audio——Gambar**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-586363abe2-dd1a6f-7649e1) **2. Teks + Gambar --> Gambar**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-77e8f7810d-dd1a6f-7649e1) **3 Teks+Audio -->Video**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1799ea0bcd-dd1a6f-7649e1) **4 teks + gambar --> video**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e145e766ea-dd1a6f-7649e1) **5. Ada juga video + audio --> teks, gambar + audio --> audio, teks + gambar --> audio...dll**## **丨Masukan tunggal——keluaran tunggal****1 Teks --> Gambar**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3b57b17518-dd1a6f-7649e1) **2 Audio --> Gambar**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-97ced2f7d6-dd1a6f-7649e1) **3 Gambar --> Video**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-12e68d0230-dd1a6f-7649e1) **4 Gambar --> Audio**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a34494b67f-dd1a6f-7649e1) **5 Audio --> Teks**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f1beb7662f-dd1a6f-7649e1) **6 Gambar --> Teks**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5aa0a798f4-dd1a6f-7649e1) Referensi:***