Ali'nin AI çizimi, bazı büyük fabrikaları şok eden dahili olarak test edildi.

Yazar: Du Wei, Zenan

**Bu yılki WAIC Dünya Yapay Zeka Konferansı'nın kahramanı kim olduğunu sormak için? AI mega modeli bunu hak ediyor. **

Üç gün süren konferansta çeşitli şirket ve kurumlar art arda 30'dan fazla büyük modeli görücüye çıkardı.

Bu büyük maketler ziyafetinde dil maketleri olmazsa olmazdır.Tabi bir de insanı görsel şoka sokan büyük boy tablo maketleri vardır. Hayır, AI çizimi alanında, başka bir yerli oyuncu sahaya girdi.

Büyük dil modeli Tongyi Qianwen'in piyasaya sürülmesinden üç ay sonra, Ali'nin AI resim oluşturma büyük modeli de geldi ve kendi geliştirdiği birleşik üretici model Besteci'ye dayanıyor.

7 Temmuz'daki WAIC konferansında, Alibaba Cloud Tongyi büyük ölçekli model ailesi en son üyesi "Tongyi Wanxiang"ı tanıttı.

WAIC *Alibaba Cloud'un "MaaS: A New Paradigm for Model-Centric AI Development" tema forumunda Tongyi Wanxiang yer aldı. *

Metin oluşturma görüntü efekti böyledir ve oluşturma hızı çok hızlıdır.

Tongyi Wanxiang, orijinal bir görüntü için belirtilen başka bir stilde yeni bir görüntü de oluşturabilir.

Orijinal bir resim için bazı benzer resimler oluşturan bir yuvalama bebek oyunu da vardır.

Ali, Tongyi Wanxiang'ın, insanlara görüntü oluşturmada yardımcı olabilecek ve görüntü tasarımı eşiğini büyük ölçüde azaltabilecek grafikler ve grafikler oluşturma yeteneğine sahip olduğunu söyledi. Gelecekte sanat tasarımı, oyunlar ve kültürel yaratım gibi uygulama senaryolarına da uygulanabilir.

Şu anda, model yönlü davet testini açtı.

ChatGPT popüler hale gelmeden önce yapay zeka alanındaki en popüler konu yapay zeka çizimiydi. Difüzyon modeli, üretici yapay zekayı ileriye doğru büyük bir adım attı.Bir süredir, metin giren ve çeşitli stillerde görüntüler oluşturan çok sayıda yapay zeka modeli vardı. Daha sonra, görüntülerden görüntüler oluşturmanın ve görüntüleri belirli stillere dönüştürmenin daha fazla yolu ortaya çıktı, bu da insanların üretken yapay zekanın büyüsüne hayran kalmasına ve gözlerinin kamaşmasına neden oldu.

Ali, WAIC'in büyük sahnesinde hem metin hem de grafik üretebilen bu yapay zeka eserini piyasaya sürdü, bu da onun oluşturma etkisinden çok emin olduğunu gösteriyor.

Deneyim kalifikasyonunu aldıktan sonra, makinenin kalbi elbette önce onu denemek zorundadır.

Tongyi Wanxiang Gerçek Ölçüm: Çeşitlendirilmiş oynanış, tek atış bir başyapıt

Tongyi ailesinin bu yeni modeli, AI çizim alanına değişiklikler getirdi mi? Sonuçlarla konuşuyoruz.

Şu anda Tongyi Wanxiang, metin görüntüsü oluşturma, benzer görüntü oluşturma ve görüntü stili aktarımı gibi üç işlevi başlattı.

Standart metinden görüntüye oluşturma ile başlayalım. Wenshengtu'da suluboya, yağlı boya, Çin resmi, düz illüstrasyon, iki boyutlu, eskiz, 3 boyutlu çizgi film vb. gibi çeşitli stiller arasından seçim yapabilirsiniz. Bir metin açıklaması girdikten ve bir stil seçtikten sonra, AI otomatik olarak yaratıcı bir resim oluşturabilir. Aynı zamanda, kullanım kolaylığı için çıktı görüntüsünün oranı üç seçeneğe sahiptir: 1:1, 16:9 ve 9:16.

Daha az karmaşık bir şeyle başlayalım, Yuanqu'un dört ustasından biri olan Ma Zhiyuan'ın "Tianjingsha · Sonbahar Düşünceleri" adlı eserinden "küçük köprüler, akan sular ve evler"i tanımlamak için bir dizi kelime seçiyoruz ve "Çin resmi"ni seçiyoruz. stil için.

Sonuç olarak, Tongyi Wanxiang bize antik cazibe dolu, ayrıntılar açısından zengin resimleri tamamen gösterdi ve uzaktaki dağlar ve suda yüzen ördekler gibi açıklamada olmayan bazı unsurlar ekledi.

Yine iki stili değiştirebiliriz, bu sefer "eskiz" ve "yağlı boya" yı seçelim. Tongyi Wanxiang, çeşitli tarzlarda serbestçe geçiş yapabilir ve oluşturulan eskizler ve yağlı boya tablolar eşit derecede şaşırtıcıdır. Bu resimlerin doğrudan kullanılabilecek düzeyde olduğunu söylemek abartı olmaz.

Başka bir metin setinin "uzay giysisi giymiş bir kedi, uzay, seyahat, yıldızlı gökyüzü" tanımlamasına izin verin, bu kez stil için "iki boyutlu" ve "3 boyutlu karikatür" seçin. Etkisi bir bakışta net, özellikle 3D çizgi film tarzı grup, kediler çok tatlı.

Üst: 2D; Alt: 3D karikatür

Burada aniden Tongyi Wanxiang'ı ünlü Stable Difüzyon ile karşılaştırmak istiyorum. Aynı metin açıklaması İngilizce'ye "cat in a spacesuit, space, travel, starry sky" olarak çevrilir ve ardından "style of 3D karton" eklenir, oluşturulan resim aşağıdaki gibidir.

Beklenmedik bir şekilde, Tongyi Wanxiang bu dalgayı kazandı Stable Diffusion tarafından üretilen kediler ya çok soyut ya da çok gerçekçiydi ve 3D çizgi film stili göstermiyorlardı.

Basit bir metin açıklaması Tongyi Wanxiang için zor olmadığına göre, hadi zorlaştıralım.

Bu sefer "düz kahverengi saçlı, açık tenli, elbiseli, dantelli ve fiyonklu, küçük bir çanta taşıyan, gülümseyen bir Japon kızı" nın daha uzun bir bölümü var ve stil "iki boyutlu". İkinci boyutu seven arkadaşlara sormak istiyorum, bu oluşturulan resimler sizin kafanızdaki Japon kızlarıyla uyuşuyor mu?

Sihirli bir tarzdaki bir diğer açıklama grubu ise "gerçeküstücülük, olağanüstü doku, 4k çözünürlük, siberpunk, savaş gemisi, görkemli, duman, metal devler, lazer silahları, oktan oluşturucu" ve stil "yağlı boya". Aşağıdaki resimlere bakıldığında kıyamet savaşında bir gerginlik havası hakim.

Stable Difusion'a da aynı açıklamayı tekrar koyuyoruz. Ayrıntıların zenginliği açısından Stable Difusion daha iyidir, ancak resim stili gri görünür ve insanlara güçlü bir renk etkisi hissi vermez. Ve sürrealizmden biraz farklı olan daha gerçekçi bir tarz.

Görünüşe göre, en azından Wen Shengtu'nun izinde, Tongyi Wanxiang tamamen kavranmış görünüyor. İnsanlar iç çekmekten kendilerini alamıyorlar, üretici yapay zekanın çizim alanındaki yeteneği gelişiyor.

Sonra, Tongyi Wanxiang'ın benzerlik görüntüsü oluşturma işlevinden bahsedeceğiz. Kullanıcıların, benzer içerik ve stile sahip yapay zeka resimlerini elde etmek için yalnızca bir referans görüntü sağlamaları gerekir. Burada, yüklenen görüntünün boyutunun 10M'den küçük olması gerektiği ve biçimin yaygın JPG, JPEG, PNG, BMP vb. desteklediği belirtilmelidir.

Musk'ın "Fenke"sinin Tongyi Wanxiang'ın gözünden nasıl göründüğünü görmek için önce AI çizim dünyasının sık ziyaretçisi olan Musk'tan bir parça koyalım. Musk'ın gerçek vücuduyla karşılaştırıldığında, oluşturulan resim daha eski ama gülümsemesi de aynı derecede neşeli.

Başka bir manzara görüntüsü, oluşturulan efekt çok iyi. Dere gürlüyor ve su, orijinal resimden daha aşağı olmayan daha fazla düşen yaprakla noktalı.

Deneyimde, makinenin kalbi, Wanxiang metninin genel anlamı tarafından oluşturulan resimlerin doğrudan benzer resimler oluşturabileceğini de buldu. Burada orijinal resim olarak yukarıdaki 3D karikatür tarzı "uzay giysili kediler" den birini seçiyoruz.Sonuçlar çıkar çıkmaz, oluşturulan kediler daha sevimli ve arka plan öğeleri daha bol.

Son olarak stil taşıma işlevine bakın. Hedef stilin stilini ve şematik diyagramını değiştirmek istediğiniz orijinal görüntüyü yüklemeniz yeterlidir ve orijinal görüntüyü hızlı bir şekilde hedef stilin yaratıcı görüntüsüne işleyebilirsiniz. Benzer görüntü oluşturma ile aynı, orijinal görüntünün ve stil görüntüsünün boyutu 10M'yi geçmemelidir ve format aynıdır.

Önce gerçekçi orijinal bir resim ve empresyonist tarzda bir resim seçiyoruz. Sonuç olarak, gerçekçi orijinal resimler tarzını tamamen değiştirmiş ve izlenimci resimler haline gelmiştir.

Ardından, bir 3B çizgi film orijinal görüntüsünü ve eskiz stili bir görüntüyü deneyin. İki stil arasında geçişin kolay olduğu sonuçlardan görülebilir.

Son olarak, Çin resmi tarzında orijinal bir resim ve suluboya tarzında bir resim seçin. Üretilen sonuçlar eşit derecede iyidir.

Bir Wensheng diyagramı veya bir Tusheng diyagramı olsun, biraz deneyimden sonra, Tongyi Wanxiang anlamsal korelasyon, resim bütünlüğü ve ayrıntıların zenginliği açısından bize pek çok sürpriz verdi. Özellikle stil geçiş işlevi, farklı stiller arasında geçiş o kadar pürüzsüz ki, oluşturulan resimlerde sanki hedef stile aitmiş gibi neredeyse hiç ekleme ve lekelenme hissi yok.

Alibaba Cloud'un Tongyi büyük ölçekli model ailesinin yeni bir üyesi olarak Ali, Tongyi Wanxiang'ın mevcut yeteneklerinin sadece küçük bir test olduğunu ve yeteneklerinin hala gelişmekte olduğunu söyledi. Gelecekte, ilgili yetenekler kademeli olarak endüstri müşterilerine açılacaktır.

Kendi geliştirdiği Composer modeli: 5 milyar parametre, zirveye ulaşacak

Önceden, birçok şirketin büyük modelleri, AI çizim yeteneklerine sahip "çok modlu" insanlar kuruyordu. Buna karşılık, Ali'nin evrensel anlamı ne kadar teknik içeriğe sahiptir? Görünüşe göre basit bir taklit değil, kendine özgü bir yeteneği var.

Tongyi Wanxiang'ın, Ali tarafından geliştirilmiş, 5 milyar parametreye sahip ve milyarlarca metin ve görüntü çifti üzerinde eğitilmiş, kendi geliştirdiği birleştirilmiş üretken bir model olan Composer'ı temel aldığı anlaşılmaktadır. Sektörün AI boyama modellerinin kontrol edilebilirliğini nasıl geliştirebileceğini düşündüğü noktada, Composer yenilikçi fikirlerini ortaya koydu.

Yayılma modeline dayalı bir "birleşik nesil" çerçevesi aracılığıyla Composer, renk eşleştirme, düzen ve stil gibi görüntü tasarım öğelerini parçalara ayırabilir ve birleştirerek yüksek oranda kontrol edilebilir ve son derece özgür bir görüntü oluşturma efekti elde edebilir.

Sonuç olarak, sizin ve benim görebildiğimiz gibi, çok sınıflı görüntü oluşturma görevlerini yalnızca bir model destekleyebilir. Alibaba Cloud'un Baş Teknoloji Sorumlusu Zhou Jingren, Composer'ın araştırmasına katıldı ve ilgili sonuçlar en büyük uluslararası yapay zeka konferansı olan ICML 2023'e dahil edildi.

* Bildiri adresi:

  • GitHub adresi:

Sözde sökme-kombinasyon, önce görüntüyü renk uyumu, eskizler, düzen, stil, anlambilim, malzemeler vb. gibi farklı tasarım öğelerine ayrıştırır. Bu tasarım öğeleri daha sonra yapay zeka modelleri kullanılarak yeni görüntülerde yeniden birleştirilir. Burada, sökme ve takma işlemi, kullanılan elemanların serbestçe değiştirilmesine ve düzenlenmesine izin verir, böylece kontrol edilebilirlik büyük ölçüde artar.

*Teardown - Birleşik görüntü oluşturma işlemi. *

Sadece bu da değil, Composer demontaj-kombinasyon potansiyelini "sıkıştırarak" daha geniş bir yaratıcı alan elde edebilir. Her biri 8 öğeye bölünmüş 100 resim olduğunu varsayarsak, tüm öğelerin kombinasyonlarının 100 üzeri 8 kuvveti vardır. Sayılardaki bu üstel artış, kombinatoryal patlama olgusu olarak biliniyor ve hiç şüphesiz yapay zeka modelleri için devasa bir üretim alanı yaratıyor. Aynı zamanda, insan tasarımcılara özelleştirilmiş görüntüler oluştururken büyük özgürlük ve kişiselleştirme yetenekleri de verilir.

* Görüntü rekombinasyon işlemi. *

Tongyi Wanxiang'ın benzerlik grafiği oluşturma ve stil aktarımı olmak üzere iki işlevi deneyimlememize izin verdiği Composer çerçevesine dayanmaktadır. Görüntüyü farklı öğelere ayırmak için görüntü anlama modelini kullanırken, bu öğeleri yeni bir görüntüde yeniden birleştirmek için difüzyon modelini kullanırken, iki uçlu yaklaşım, görüntü üretimi doğaldır.

Bunlardan benzer görüntülerin oluşturulması için, görüntünün anlamsal içeriği değişmeden, yalnızca görüntüdeki yerel detayların değiştirilmesi benzer görüntülerin üretilmesini sağlayabilir. Bu süreçte, orijinal görüntünün ana gövdesinin tutarlılığı daha iyi korunabilir ve oluşturulan görüntünün çeşitliliği ve kalitesi de geliştirilebilir.

Stil aktarımı için, bir yandan orijinal görüntünün temel şekli ve yapısı korunurken, diğer yandan hedef stil görüntüsünün stil, renk, fırça darbeleri ve diğer kişiselleştirilmiş bilgileri nihai olarak stili gerçekleştirmek için aktarılır. Aktar.

Üretken yapay zeka için birleşik bir temel oluşturmak üzere büyük modeli çekirdek olarak kullanma

Görünüşe göre Tongyi Wanxiang'ın beklenmedik etkisi, Ali'nin kendi çekirdek teknolojisinden geliyor.

Aslında Ali, Çin'de üretken yapay zekayı daha önce keşfetmeye başlayan büyük şirketlerden biri ve 2018'de büyük ölçekli model teknolojisinin araştırma ve geliştirmesine başladı. 2019 yılında, Dharma Enstitüsü tarafından önerilen büyük dil eğitimi modeli StructBERT, Google, Microsoft ve Facebook'un araştırmalarını geride bıraktı ve o dönemde NLP yetkili kıyaslama listesi GLUE'nin zirvesine ulaştı.

2021'de Ali, Çin'de on milyarlarca parametreye sahip ilk çok modlu büyük ölçekli model M6'yı ve "Çin versiyonu GPT-3" adlı büyük ölçekli dil modeli PLUG'u piyasaya sürecek. Bunların arasında, birden çok yinelemenin ardından M6, on trilyon düzeyinde bir parametre ölçeğine ulaştı ve M6, Alipay ve Taobao'nun iş gereksinimleriyle birleştirildi.

Geçen yılki WAIC'de Ali, sektör için ilk kez bir "temel model" oluşturan ve birleşik bir modal temsil, görev temsili ve model yapısı elde eden Tongyi büyük ölçekli model serisini piyasaya sürdü. Ayrıca, ilgili temel modeller, dünya çapındaki geliştiricilere açık kaynaklıdır.

Üretken yapay zekanın uygulanmasıyla ilgili olarak, çeşitli zorluklarla karşı karşıyayız: yüksek bilgi işlem gücü maliyeti, karmaşık inşaat süreci ve sınırlı çok yönlülük. Tongyi, endüstrinin ilk yapay zeka birleşik tabanını oluşturdu ve büyük ve küçük modellerin koordine edildiği hiyerarşik bir yapay zeka sistemi oluşturdu. Amacı, zorluklarla yüzleşmek ve yapay zekanın algıdan bilişe geçmesine izin vermek.

Ali'nin süper büyük modeller, dil ve çok modlu yetenekler, düşük karbonlu eğitim, platform hizmetleri ve iniş uygulamaları açısından Çin'in büyük ölçekli modellerinin geliştirilmesine bazı ileri ve öncü katkılarda bulunduğu söylenebilir. .

Ali, Tongyi Wanxiang'dan önce, art arda doğal dil işleme için "Tongyi Thousand Questions"ı ve ses ve video üretkenliğinde uzmanlaşmış "Tongyi Listening"i yayınladı. Şimdiye kadar, AI'nın üç ana yönünün tümü açıldı. Büyük modeller ve üretken yapay zekaya yönelik devasa potansiyel talep karşısında, Alibaba Cloud'un benzersiz avantajları var.

Büyük ölçekli model teknolojisi birikimine ek olarak, güçlü bulut altyapısı yetenekleri de çok önemlidir. Bilgi işlem gücü açısından, Alibaba Cloud, Asya'nın bir numaralı ve dünyanın üçüncü bulut bilgi işlem hizmet sağlayıcısıdır ve büyük modeli, sağlam bir bilgi işlem güç sistemi desteğine sahiptir. Örneğin, Alibaba Cloud, Çin'deki en güçlü akıllı bilgi işlem gücü rezervine sahiptir ve Alibaba Cloud'un akıllı bilgi işlem kümesi, maksimum 100.000 kartlık GPU ölçeğini destekleyebilir.

Buna ek olarak, Ali ilk olarak Çin'de "Model as a Service" konseptini önerdi ve Çin'deki en büyük AI model hizmet topluluğu olan "Magic Build"in oluşturulmasında liderliği üstlendi, açık kaynak ve açıklıkta ısrar etti ve AI kapsayıcılığını teşvik etti. Alibaba Cloud'un "MaaS: Model Merkezli Yapay Zeka Geliştirme için Yeni Bir Paradigma" konulu forumunda Zhou Jingren, MaaS vizyonunu ve ürünleri ve iş ortaklarını nasıl daha fazla güçlendirebileceğini paylaştı.

*Jingren Zhou, Alibaba Cloud'un CTO'su. *

AI 2.0 rekabetinde rekabet yeni bir aşamaya girdi 100 modellik yarışmanın ardından ister istemez büyük dalgalar olacak ve Alibaba Cloud hazır.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)