Metin, resim, ses ve video... Microsoft'un modlar arası modeli CoDi ne kadar güçlü?

Question

![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f937af10e0-dd1a6f-7649e1) Görsel kaynağı: Unbounded AI tarafından oluşturulduMicrosoft Azure araştırma ekibi ve North Carolina Üniversitesi araştırmacıları, yeni bir multimodal nesil modeli olan CoDi'yi (Composable Diffusion) tanıtan "Composable Diffusion Yoluyla Arbitrary Generation" adlı bir makale yayınladılar.CoDi, dil, görüntü, video veya ses gibi herhangi bir giriş yöntemi kombinasyonundan herhangi bir çıktı yöntemi kombinasyonu oluşturma yeteneğine sahiptir. Mevcut üretici yapay zeka sistemlerinin aksine, CoDi paralel olarak birden fazla modalite oluşturabilir ve girdisi, metin veya resimler gibi modalitelerin alt kümeleriyle sınırlı değildir. CoDi, eğitim verilerinde bulunmasalar bile, herhangi bir girdi kombinasyonunu şartlandırmakta ve herhangi bir modalite seti oluşturmakta özgürdür.CoDi, metin, resim, ses ve video gibi çok modlu içeriği aynı anda işleyip üreterek benzeri görülmemiş bir içerik üretimi düzeyi sunar. Yayılma modelleri ve birleştirilebilir teknikler kullanan CoDi, tekli veya çoklu girdilerden yüksek kaliteli, çeşitli çıktılar üreterek içerik oluşturmayı, erişilebilirliği ve kişiselleştirilmiş öğrenmeyi dönüştürebilir.CoDi son derece özelleştirilebilir ve esnektir, en son teknoloji tek modalite sentezinden daha iyi performans gösteren veya ona rakip olan sağlam ortak modalite oluşturma kalitesi sağlar.Son zamanlarda yeni bir gelişme kaydeden CoDi, Microsoft Azure platformunda resmi olarak kullanıma sunuldu ve 12 ay boyunca ücretsiz olarak kullanılabiliyor.## **CoDi ne kadar güçlü**CoDi, Microsoft'un çok modlu yapay zeka yeteneklerini geliştirmeye adanmış bir araştırma girişimi olan iddialı i-Code projesinin bir parçası olarak ortaya çıktı. CoDi'nin çeşitli kaynaklardan gelen bilgileri sorunsuz bir şekilde entegre etme ve tutarlı çıktılar üretme yeteneğinin, insan-bilgisayar etkileşiminin birçok alanında devrim yaratması bekleniyor.CoDi'nin değişiklik getirebileceği alanlardan biri, engelli kişilerin bilgisayarlarla daha etkili etkileşim kurmasını sağlayan yardımcı teknolojidir. CoDi, metin, resim, video ve ses üzerinden sorunsuz bir şekilde içerik üreterek, kullanıcılara daha sürükleyici ve erişilebilir bir bilgi işlem deneyimi sağlayabilir.Ek olarak CoDi, kapsamlı bir etkileşimli öğrenme ortamı sağlayarak özel öğrenme araçlarını yeniden icat etme potansiyeline sahiptir. Öğrenciler, çeşitli kaynaklardan gelen bilgileri sorunsuz bir şekilde birleştiren çok modlu içerikle etkileşime girerek konuyu anlamalarını ve ilgilerini artırır.CoDi ayrıca içerik üretiminde devrim yaratacak. Model, içerik oluşturma sürecini basitleştirebilen ve içerik oluşturucuların üzerindeki yükü azaltabilen birden çok modalitede yüksek kaliteli çıktılar üretebilir. İlgi çekici sosyal medya gönderileri oluşturmak, etkileşimli multimedya sunumları oluşturmak veya ilgi çekici hikaye anlatımı deneyimleri oluşturmak için CoDi'nin yetenekleri, içerik oluşturma ortamını yeniden şekillendirme potansiyeline sahiptir.Geleneksel tek modlu AI modellerinin sınırlamalarını ele almak için CoDi, modaliteye özgü üretken modelleri birleştirmenin sıkıcı ve yavaş sürecine bir çözüm sunar.Bu yeni model, difüzyon sırasında hizalama arasında köprü kuran ve zamana göre hizalanmış video ve ses gibi iç içe geçmiş modalitelerin eşzamanlı üretimini kolaylaştıran benzersiz bir şekillendirilebilir üretim stratejisi kullanır.CoDi'nin model eğitim süreci de oldukça farklıdır. Görüntü, video, ses ve dil gibi girdi modalitelerinin ortak bir semantik alana yansıtılmasını içerir. Bu, çok modlu girişlerin esnek bir şekilde ele alınmasına izin verir ve çapraz dikkat modülü ve ortam kodlayıcı aracılığıyla, aynı anda çıkış modlarının rasgele kombinasyonlarını üretebilir.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9bc9f58601-dd1a6f-7649e1) (Yukarıda) CoDi'nin model mimarisi: CoDi, yalnızca doğrusal sayıda görev üzerinde eğitim verebilen, ancak girdi ve çıktı yöntemlerinin tüm kombinasyonları üzerinde çıkarım yapabilen çok aşamalı bir eğitim şeması kullanır.## **丨Tek veya çoklu giriş --> çoklu çıkış**CoDi modelleri, sesli eşlik eden video gibi birden çok hizalanmış çıktı oluşturmak için tek veya birden çok ipucu (video, görüntü, metin veya ses dahil) alabilir.Örneğin:**1. Metin+Resim+Ses——>Ses+Video**"Kaykay üzerinde bir oyuncak ayı, 4k, yüksek çözünürlüklü" + New York'taki Times Meydanı'ndan bir resim + yağmurlu bir ses --> CoDi neslinden sonra, "Yağmurda Times Meydanı'nda kaykay yapan bir oyuncak ayı, Eşliğinde eş zamanlı yağmur sesi ve sokak gürültüsü."![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-17f537e017-dd1a6f-7649e1) Nasıl üretilir?> CoDi, birleştirilebilir difüzyon yoluyla herhangi bir video, görüntü, ses ve metin kombinasyonunu ortaklaşa oluşturabilir. CoDi önce metin altyazıları oluşturmak için ses parçalarını alır, ardından görüntü+ses-ses için görüntüleri alır ve ardından yeni bir ortak görüntü+altyazı oluşturmak üzere bilgilerini birleştirmek için görüntü+ses+metin alır. Son olarak, CoDi ayrıca görüntü+ses+metin alabilir ve video+ses üretebilir.**2 metin+ses+resim -->metin+resim**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6467153927-dd1a6f-7649e1) 1. **3.** **Ses + Görüntü --> Metin + Görüntü**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f959317814-dd1a6f-7649e1) 1. **4. Metin+Resim ——>Metin+Resim**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d32b2de333-dd1a6f-7649e1) **5. Metin——>Video+Ses**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fcc4d70bb8-dd1a6f-7649e1) **6. Metin——>Metin+Ses+Resim**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-247b38d9d6-dd1a6f-7649e1)## **丨Birden çok giriş --> tek çıkış****1. Metin+Ses——Resim**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-586363abe2-dd1a6f-7649e1) **2. Metin + Resim --> Resim**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-77e8f7810d-dd1a6f-7649e1) **3 Metin+Ses -->Video**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1799ea0bcd-dd1a6f-7649e1) **4 metin+resim --> video**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e145e766ea-dd1a6f-7649e1) **5. Ayrıca video + ses --> metin, görüntü + ses --> ses, metin + görüntü --> ses...vb. de vardır**## **丨Tek giriş——tek çıkış****1 Metin --> Resim**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3b57b17518-dd1a6f-7649e1) **2 Ses --> Görüntü**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-97ced2f7d6-dd1a6f-7649e1) **3 Resim --> Video**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-12e68d0230-dd1a6f-7649e1) **4 Görüntü --> Ses**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a34494b67f-dd1a6f-7649e1) **5 Ses --> Metin**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f1beb7662f-dd1a6f-7649e1) **6 Resim --> Metin**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5aa0a798f4-dd1a6f-7649e1) Referanslar:***