DALL·E 3 test için piyasaya sürülecek! Ata binen astronotların sorunu çözüldü, bir tabloda 50 nesne belirtildi ve Microsoft araştırmaya daha önce hiç olmadığı kadar derinlemesine dahil oldu
DALL·E 3 sınırlı testi ilk olarak Microsoft Bing tarafından açıldı, bakalım Avrupa imparatorlarından biri misiniz?
△ WindowsLatest'ten
Yeterliliği almamış olmanız önemli değil.Üçüncü taraf araştırma önizlemeleri ve OpenAI çalışanları tarafından yapılan dahili denemelerle birleştiğinde, eğlenceli olacağı garanti olan çeşitli test senaryoları birbiri ardına ortaya çıktı.
En abartılı olanı ise "belirtilen resimde 50 farklı nesnenin görünmesi"dir ve bunlardan yüzlercesi çizilmiştir.
Basit döşeme düzenlemesine ek olarak, bu nesneler daha yaratıcı bir şekilde birleştirilebilir.
Karşıolgusal at binen astronot kavramı için, geçmişte OpenAI ve Google'ın çeşitli modelleri yalnızca ata binen astronotları çizebiliyordu**.
Makale genel olarak bir başarısızlık vakası olarak görülüyordu ve o zamanın yapay zeka kötümserlerinden Marcus tarafından alay konusu ediliyordu.
Artık DALL·E 3, ChatGPT desteğiyle bunu kolayca halledebiliyor.
DALL·E 3'ün bu seferki büyük ilerlemesi yalnızca OpenAI'nin kendi çabalarının sonucu değil, aynı zamanda ** ve Microsoft** arasındaki ortak işbirliğinin de sonucudur.
Açıkça belirtilmese de katkı listesinin araştırma kısmında en az üç Microsoft mühendisi ve araştırmacısı yer alıyor ve çıkarım optimizasyonu kısmındaki üyelerin çoğu Microsoft DeepSpeed ekibinden oluşuyor.
GPT-4'e baktığımızda, hâlâ esas olarak OpenAI tarafından dahili olarak geliştirildiğini ve daha sonra test için Microsoft ve diğer araştırma kurumlarına açık erişim verildiğini görüyoruz.
İşbirliği modelindeki bu değişiklik** aynı zamanda iki şirket** arasındaki ilişkinin daha da derinleştiğini temsil ediyor.
Bir resim 50 nesneyi belirtir
Microsoft Bing CEO'su Mikhail Parakhin tarafından onaylanan, kullanıcıların şanslı yüzdesi zaten teste hak kazandı.
Yer sayısı gerçekten sınırlı olduğundan, sabırsızlanan netizenler fikirlerini çevrimiçi olarak ortaya koydular ve hesabı olan kişilerden bunu test etmelerine yardımcı olmalarını istediler.
50 farklı nesne çizmeyi öneren netizen, büyük dil modelinin **"bağlam penceresi"**ne benzer şekilde DALL·E 3'ün tek bir resme kaç nesne sığabileceğini test etmek istedi.
Çalışmanın ön izleme versiyonunu alan üçüncü taraf tasarımcı Nathan Shipley bu görevi üstlendi.
İlk olarak ChatGPT'den 50 günlük nesneyi rastgele listelemesini istedi ve ardından bu nesneleri doğrudan bir tabloya çizmesini istedi. Komut isteminin tamamı ChatGPT bunu kendi kendine tamamlar şeklindedir ve ardından DALL·E 3 onu çizer.
Daha sonra Nathan sordu: "Sürekli sörf yaparken bu nesneleri bir yığına koyan bir sörfçünün görüntüsünü yaratabilir misiniz?"
ChatGPT, istem sözcüğüne bazı ayrıntılar ekledi:
Güneşte öpülmüş cildi olan orta yaşlı Polinezyalı bir erkek sörfçü, sert sörf yaparken aralarında bir çay bardağı, bir bisiklet, bir şemsiyenin de bulunduğu 50 nesneyi kaldırıyor... ve dalgalar etrafına çarparken kararlılık ve hafif bir panik ifadesi sergiliyor. bu nesneleri ve sörf tahtasını dengelemeye çalışıyor.
Sonuç olarak, karakterin ifadesinin hafif bir panikten çok aşırı paniğe benzemesi dışında, temel olarak tek denemede gereksinimleri karşılayan bir görüntü elde ettim.
Daha sonra Nathan daha düşük bir bakış açısı istedi ve bu kez ChatGPT, istem sözcüğündeki karakter tanımını "yaşlı bir İspanyol kadın" olarak değiştirdi.
İzleyiciler bunun çok şaşırtıcı olduğunu düşündüler ama aynı zamanda kalemin boyutunun neden diğer nesnelerle orantısız olduğuna da dikkat çektiler.
Bazı insanlar, özellikle kalemlerin tanıtım resimlerinde sıklıkla yakın çekimler kullanıldığından, modelin yalnızca bir nesnenin neye benzediğini bildiğini, ancak göreceli boyutunu bilmediğini düşünüyor.
Ayrıca Nathan, ChatGPT'den kullanıcının ekranın hangi parametrelerini kontrol edebileceğini de sordu.
ChatGPT şu şekilde yanıt verdi:
betimlemek:
İstediğiniz görselin detaylı açıklamasını sağlayabilirsiniz. Ne kadar spesifik ve detaylı olursanız ortaya çıkan görüntü isteklerinize o kadar yakın olacaktır.
Stil ve orta:
"Resim", "Fotoğraf", "İllüstrasyon", "Karikatür", "Suluboya", "3D İşleme" vb. gibi görüntünün stilini veya ortamını belirtebilirsiniz.
Çözünürlük:
Varsayılan olarak görüntüler 1729x1024 çözünürlükte oluşturulur. Ancak açıklamanız tam uzunlukta bir portre veya yüksek en boy oranlarına daha uygun bir şey öneriyorsa görüntü 1024x1792 boyutunda oluşturulacaktır. İhtiyaç halinde kare çözünürlük (1024x1024) de talep edebilirsiniz.
Resim sayısı
: Siz belirtmezseniz genellikle açıklamanıza göre dört farklı görsel oluşturuyorum. Ancak belirli bir numara (dörde kadar) talep edebilirsiniz.
Tekrar düzeltme yapmak
: İlk sonuçlardan memnun değilseniz geri bildirimde bulunabilir ve değişiklik talebinde bulunabilirsiniz. Mevcut görselleri doğrudan değiştiremesem de görüşünüze daha iyi uyan yeni görseller oluşturmak için geri bildirimlerinizi kullanabilirim.
Rastgele tohum
: Önceki bir görüntüyü değiştirmek isterseniz, yeni bir sürüm oluşturmak için o görüntünün meta verilerindeki tohumu kullanabilirim. Bu, orijinal ve değiştirilmiş görüntüler arasında belirli bir tutarlılık sağlar.
Lütfen aklınızda bulundurun,
Bazı sınırlamalar geçerlidir. Örneğin, son 100 yıldaki tanınmış kişilerin görüntüleri ve sanatçıların üslupları doğrudan oluşturulamaz.
Odak noktası arka taraftadır:
**Ancak belirli bir tarzın özünü yakalamak için doğrudan alıntı yapmadan alternatifler sunabilir veya sıfatlar kullanabilirim. **
Binicilik Astronot Bulmacası Çözüldü
OpenAI'nin dahili çalışanları arasında Will DePue, DALL·E 3 denemesinin sonuçlarını açıklama konusunda en aktif olanıdır.
Binicilik astronot testinde ise %100 başarılı olunmadığını söyledi.
İki veya üç denemede doğru sonuca ulaşabilirsiniz çünkü GPT-4, siz doğru olanı yapana kadar istem sözcüklerini hassaslaştırmak için sizinle birlikte çalışır.
Biraz çaba harcayarak neredeyse istediğiniz her şeyi elde edebilirsiniz.
Bazı netizenler aynı sonuçları elde etmek için MidJourney'i kullanmaya çalıştı ancak bunun tamamen imkansız olmadığı ancak çok çaba gerektirdiği söylenebilir.
Neredeyse imkansızdır, çok fazla ipucu mühendisliği gerektirir ve çoğaltılması zordur.
Deneyimli bir MidJourney kullanıcısıysanız, çalışıp çalışmadığını görmeyi deneyebilirsiniz.
Netizenlerin ortaya attığı "8 zürafa su içiyor" mücadelesinde DALL·E 3, doğru sayılmasının zor olmasının zayıflığını bir kez daha gösterdi.
△ Resimde kaç tane zürafa olduğunu sayın
Daha hatalı girişimler de iki başlı zürafanın ortaya çıkmasına neden oldu.
Yapay zekanın doğru saymasını sağlamak bu sefer çözmüyor ama en azından mekansal ilişkileri anlama sorununu çözüyor.
Netizenler tarafından önerilen "Çayırda koşan dört zebra, arkada kovalayan bir aslan ve yukarıda bir kartal, resimde başka hayvan yok" mücadelesinde uzaysal ilişki temelde doğrudur, ancak ekstra bir durum daha vardır: zebra.
Buna karşılık, hem DALL·E 2 hem de Stabil Difüzyon, mekansal ilişkiler konusunda daha kötü anlayışa sahiptir.
OpenAI'de ChatGPT'nin kurumsal sürümünden sorumlu olan Adam Goldberg de birçok yüksek kaliteli sonuç yayınladı ancak önemli kelimeleri paylaşmadı.
Yapay zeka kodlarının yazılmasından ve araçların çağrılmasından sorumlu olan Jerry Tworek, "Mekanik Hücrelerin Bölünmesi" gibi birçok soyut konsept tablosu yarattı.
ve "Galaksideki Bilgisayar Programı Ağaçları".
Microsoft OpenAI işbirliği yapıyor
DALL·E 3 bu sefer çok büyük bir gelişme kaydetti.ChatGPT entegrasyonunun yanı sıra görüntü oluşturma kısmı tam olarak nasıl yapılıyor?
Ne yazık ki, OpenAI'nin gittikçe yaklaşma eğilimi göz önüne alındığında, önceki iki nesil gibi makaleler yayınlamaması muhtemel.Katkı listesinden yalnızca birkaç tahminde bulunabiliyoruz.
DALL·E 2 makalesinde beş yazar bulunmaktadır.
DALL·E 3'te ürün, güvenlik, kamu iletişimi ve hukuk ekiplerine bakılmaksızın yalnızca araştırma kısmına 18 kişi katıldı.
Bunların arasında Tutarlılık Modellerini öneren Tsinghua mezunu Yang Song da var.
Tutarlılık modeli en popüler yayılma modelinden daha hızlıdır ve 3,5 saniyede 64 256*256 görüntü üretebilir.
Ancak Song Yang'ın bu seferki araştırma katkısı çok az. DALL·E 3'ün tutarlılık modelini kullanıp kullanmadığı kesin değil. Geliştirilmiş difüzyon modelinde kendi yöntemini ödünç almış olması daha muhtemel.
Ayrıca DALL·E 2'nin yazarı ve ChatGPT ekibinden Ouyang Long'un yanı sıra Microsoft'tan en az üç araştırmacı da bulunuyor.
Dr. Jianfeng Wang Çin Bilim ve Teknoloji Üniversitesi'nden mezun oldu ve Microsoft'ta baş araştırmacı olarak görev yapıyor.
Dr. Lijuan Wang Tsinghua Üniversitesi'nden mezun oldu ve Microsoft'ta direktör araştırma müdürü olarak çalışıyor.
İkili, sonsuz bir tuval imajı üretimi olan NUWA-Ininity'nin araştırmasına katıldı.
Lindsey Li (Lindsey Li) Pekin Teknoloji Enstitüsü mezunudur. Purdue Üniversitesi ve UC San Diego'dan iki yüksek lisans derecesi almıştır. Microsoft'ta kıdemli bir araştırmacıdır ve alanında birçok önemli konferans makalesi yayınlamıştır. çok modluluk.
Araştırmaya ek olarak, DALL·E 3'ün çıkarım optimizasyonuMicrosoft DeepSpeed ekibinin yoğun katılımıyla gerçekleştirilir.
Deepspeed, bilgi işlem gücü tüketimini ve bellek kullanımını azaltan ve mevcut donanım üzerinde daha iyi paralellik yoluyla büyük ölçekli dağıtılmış modelleri eğiten ve çıkarımlayan açık kaynaklı bir derin öğrenme optimizasyon kitaplığıdır.
Birçoğu bu çalışmaya katılmaktan duydukları memnuniyeti dile getirdi ve DALL·E 3'ün piyasaya sürülmesinden heyecan duydu.
Son olarak, özel katkılar arasında Microsoft'un Bing CEO'su Mikhail Parakhin ve Azure Cloud Başkan Yardımcısı Misha Bilenko da yer alıyor.
Microsoft ayrıca önceki sürüm etkinliklerinde Bing'in DALL·E 3'ü doğrudan entegre edeceğini doğruladı.
Mevcut kurallara göre Bing'de DALL·E 2 ücretsizdir. 99 hızlandırma jetonu verilecek. Jetonlar olmadan sıraya girmek daha uzun sürecek.
Ancak DALL·E 3'ün maliyeti Ekim ayında ChatGPT Plus'ta aylık 20 ABD dolarıdır.
Ancak GPT-4 Bing'de ücretsiz olarak sağlandığı için gelecekte DALL·E 3 ücretsiz oyun dalgasını da sabırsızlıkla bekleyebilirsiniz~
Referans bağlantıları:
[1]
[2]
[3]
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
DALL·E 3 test için piyasaya sürülecek! Ata binen astronotların sorunu çözüldü, bir tabloda 50 nesne belirtildi ve Microsoft araştırmaya daha önce hiç olmadığı kadar derinlemesine dahil oldu
Kaynak: Qubit'ler
Yeterliliği almamış olmanız önemli değil.Üçüncü taraf araştırma önizlemeleri ve OpenAI çalışanları tarafından yapılan dahili denemelerle birleştiğinde, eğlenceli olacağı garanti olan çeşitli test senaryoları birbiri ardına ortaya çıktı.
En abartılı olanı ise "belirtilen resimde 50 farklı nesnenin görünmesi"dir ve bunlardan yüzlercesi çizilmiştir.
Makale genel olarak bir başarısızlık vakası olarak görülüyordu ve o zamanın yapay zeka kötümserlerinden Marcus tarafından alay konusu ediliyordu.
Açıkça belirtilmese de katkı listesinin araştırma kısmında en az üç Microsoft mühendisi ve araştırmacısı yer alıyor ve çıkarım optimizasyonu kısmındaki üyelerin çoğu Microsoft DeepSpeed ekibinden oluşuyor.
İşbirliği modelindeki bu değişiklik** aynı zamanda iki şirket** arasındaki ilişkinin daha da derinleştiğini temsil ediyor.
Bir resim 50 nesneyi belirtir
Microsoft Bing CEO'su Mikhail Parakhin tarafından onaylanan, kullanıcıların şanslı yüzdesi zaten teste hak kazandı.
50 farklı nesne çizmeyi öneren netizen, büyük dil modelinin **"bağlam penceresi"**ne benzer şekilde DALL·E 3'ün tek bir resme kaç nesne sığabileceğini test etmek istedi.
İlk olarak ChatGPT'den 50 günlük nesneyi rastgele listelemesini istedi ve ardından bu nesneleri doğrudan bir tabloya çizmesini istedi. Komut isteminin tamamı ChatGPT bunu kendi kendine tamamlar şeklindedir ve ardından DALL·E 3 onu çizer.
ChatGPT, istem sözcüğüne bazı ayrıntılar ekledi:
Güneşte öpülmüş cildi olan orta yaşlı Polinezyalı bir erkek sörfçü, sert sörf yaparken aralarında bir çay bardağı, bir bisiklet, bir şemsiyenin de bulunduğu 50 nesneyi kaldırıyor... ve dalgalar etrafına çarparken kararlılık ve hafif bir panik ifadesi sergiliyor. bu nesneleri ve sörf tahtasını dengelemeye çalışıyor.
Sonuç olarak, karakterin ifadesinin hafif bir panikten çok aşırı paniğe benzemesi dışında, temel olarak tek denemede gereksinimleri karşılayan bir görüntü elde ettim.
ChatGPT şu şekilde yanıt verdi:
İstediğiniz görselin detaylı açıklamasını sağlayabilirsiniz. Ne kadar spesifik ve detaylı olursanız ortaya çıkan görüntü isteklerinize o kadar yakın olacaktır.
"Resim", "Fotoğraf", "İllüstrasyon", "Karikatür", "Suluboya", "3D İşleme" vb. gibi görüntünün stilini veya ortamını belirtebilirsiniz.
Varsayılan olarak görüntüler 1729x1024 çözünürlükte oluşturulur. Ancak açıklamanız tam uzunlukta bir portre veya yüksek en boy oranlarına daha uygun bir şey öneriyorsa görüntü 1024x1792 boyutunda oluşturulacaktır. İhtiyaç halinde kare çözünürlük (1024x1024) de talep edebilirsiniz.
: Siz belirtmezseniz genellikle açıklamanıza göre dört farklı görsel oluşturuyorum. Ancak belirli bir numara (dörde kadar) talep edebilirsiniz.
: İlk sonuçlardan memnun değilseniz geri bildirimde bulunabilir ve değişiklik talebinde bulunabilirsiniz. Mevcut görselleri doğrudan değiştiremesem de görüşünüze daha iyi uyan yeni görseller oluşturmak için geri bildirimlerinizi kullanabilirim.
: Önceki bir görüntüyü değiştirmek isterseniz, yeni bir sürüm oluşturmak için o görüntünün meta verilerindeki tohumu kullanabilirim. Bu, orijinal ve değiştirilmiş görüntüler arasında belirli bir tutarlılık sağlar.
Bazı sınırlamalar geçerlidir. Örneğin, son 100 yıldaki tanınmış kişilerin görüntüleri ve sanatçıların üslupları doğrudan oluşturulamaz.
Odak noktası arka taraftadır:
**Ancak belirli bir tarzın özünü yakalamak için doğrudan alıntı yapmadan alternatifler sunabilir veya sıfatlar kullanabilirim. **
Binicilik Astronot Bulmacası Çözüldü
OpenAI'nin dahili çalışanları arasında Will DePue, DALL·E 3 denemesinin sonuçlarını açıklama konusunda en aktif olanıdır.
Binicilik astronot testinde ise %100 başarılı olunmadığını söyledi.
Biraz çaba harcayarak neredeyse istediğiniz her şeyi elde edebilirsiniz.
Neredeyse imkansızdır, çok fazla ipucu mühendisliği gerektirir ve çoğaltılması zordur.
Deneyimli bir MidJourney kullanıcısıysanız, çalışıp çalışmadığını görmeyi deneyebilirsiniz.
Daha hatalı girişimler de iki başlı zürafanın ortaya çıkmasına neden oldu.
Microsoft OpenAI işbirliği yapıyor
DALL·E 3 bu sefer çok büyük bir gelişme kaydetti.ChatGPT entegrasyonunun yanı sıra görüntü oluşturma kısmı tam olarak nasıl yapılıyor?
Ne yazık ki, OpenAI'nin gittikçe yaklaşma eğilimi göz önüne alındığında, önceki iki nesil gibi makaleler yayınlamaması muhtemel.Katkı listesinden yalnızca birkaç tahminde bulunabiliyoruz.
DALL·E 2 makalesinde beş yazar bulunmaktadır.
Tutarlılık modeli en popüler yayılma modelinden daha hızlıdır ve 3,5 saniyede 64 256*256 görüntü üretebilir.
Ancak Song Yang'ın bu seferki araştırma katkısı çok az. DALL·E 3'ün tutarlılık modelini kullanıp kullanmadığı kesin değil. Geliştirilmiş difüzyon modelinde kendi yöntemini ödünç almış olması daha muhtemel.
Ayrıca DALL·E 2'nin yazarı ve ChatGPT ekibinden Ouyang Long'un yanı sıra Microsoft'tan en az üç araştırmacı da bulunuyor.
Dr. Jianfeng Wang Çin Bilim ve Teknoloji Üniversitesi'nden mezun oldu ve Microsoft'ta baş araştırmacı olarak görev yapıyor.
Dr. Lijuan Wang Tsinghua Üniversitesi'nden mezun oldu ve Microsoft'ta direktör araştırma müdürü olarak çalışıyor.
İkili, sonsuz bir tuval imajı üretimi olan NUWA-Ininity'nin araştırmasına katıldı.
Deepspeed, bilgi işlem gücü tüketimini ve bellek kullanımını azaltan ve mevcut donanım üzerinde daha iyi paralellik yoluyla büyük ölçekli dağıtılmış modelleri eğiten ve çıkarımlayan açık kaynaklı bir derin öğrenme optimizasyon kitaplığıdır.
Ancak GPT-4 Bing'de ücretsiz olarak sağlandığı için gelecekte DALL·E 3 ücretsiz oyun dalgasını da sabırsızlıkla bekleyebilirsiniz~
Referans bağlantıları:
[1]
[2]
[3]