Yolculuğun ortasında en güçlü rakip ortaya çıktı, tohum turu finansman devleri toplandı ve beta sürümü Musk'un tek bir "anahtar" ile ilerlemesine olanak sağladı
Midjourney, uzun bir süre boyunca, bu şirketin ortaya çıkışına kadar çok az tehditle karşı karşıya kalarak, AIGC Vincent'in şemasının tahtına sıkı sıkıya oturdu.
Üretken bir yapay zeka girişimi olan Ideogram AI, 23 Ağustos'ta resmi olarak şunu duyurdu: "Yaratıcı ifadeyi daha kolay, daha eğlenceli ve daha verimli hale getirmek için en gelişmiş yapay zeka araçlarını geliştiriyoruz." Resmi web sitesi şunu yazdı.
Ekibin çekirdek üyeleri aynı zamanda Google Brain Imagen ekibinin de ana üyeleridir ve Ideogram AI'nin de Imagen'i ileriye taşımaya çalıştığı düşünülmektedir:
Mohammad Norouzi (CEO), Jonathan Ho (kurucu ortak), William Chan ve Chitwan Saharia, Google'ın metinden resme yapay zeka modeli Imagen'in temel yazarlarıdır ve ilgili makaleler, NeurIPS 2022 Üstün makalesi için kısa listeye alınmıştır.
Imagen, giriş metnini bir dizi gömülü vektöre dönüştürmek için Transformer dil modelini kullanır. Daha sonra, üç difüzyon modelinden oluşan bir seri (difüzyon modeli), bu gömülü vektörleri 1024x1024 piksel görüntülere dönüştürecektir.
Kavramsal olarak basit ve eğitilmesi kolay olduğundan ve aynı zamanda şaşırtıcı derecede güçlü etkiler üretebildiğinden, Imagen yalnızca herkesin difüzyon modellerine ilişkin anlayışını yeniden şekillendirmekle kalmaz, aynı zamanda DALL-E 2'nin ötesinde yeni bir Vincent grafikleri paradigması açar.
Daha sonra Meta, yapay zeka modeli Make-A-Video metin videosunu duyurduktan sonra Google, yüksek çözünürlüklü videolar oluşturmak için basamaklı video dağıtım modelini temel alan Imagen Video video modelini (bakın, adlar benzer) yayınladı.
Imagen Video, önceki Imagen metin oluşturma görüntü sisteminden metni doğru şekilde tasvir etme işlevini devralır ve buna dayanarak, yalnızca basit açıklamalarla çeşitli yaratıcı animasyonlar oluşturabilir.
Mevcut ekip üyeleri resmi web sitesinde gösterilir.
"Kurucu ekibimiz Google Brain, UC Berkeley, Carnegie Mellon Üniversitesi ve Toronto Üniversitesi'nde dönüştürücü yapay zeka projelerine liderlik etti." Resmi web sitesi gösteriyor.
Mohammad Norouzi, kendi işini kurmadan önce 7 yıl boyunca Google Brain'de çalıştı. Google'ın son seviyesi, üretken modellere odaklanan kıdemli bir araştırma bilimcisiydi. Ideogram AI, Imagen, Imagen Video, konuşma sentezi için WaveGrad, Nöral Makine Çevirisi, görsel temsillerin öğrenilmesiKarşılaştırmalı çalışma ve benzeri dahil olmak üzere yapay zekada en geniş temel çalışma yelpazesine sahiptir. İşbirlikçi ekip üyeleri de en fazladır.
UC Berkeley'den doktora mezunu olan kurucu ortak Jonathan Ho, yayılma modeli üzerinde o kadar çok çalışma yaptı ki, onun ayrılışı sektördeki kişiler tarafından Google için büyük bir kayıp olarak değerlendirildi.
Nisan 2022'de Google, Video Dağıtım Modellerini (Video Dağıtım Modelleri) önerdi ve ilk kez metinden video üreten dağıtım modelinin sonuçlarını (iyi sonuçlarla) bildirdi. Makalenin ana yazarları Mohammad Norouzi ve Jonathan Ho'dur.
Jonathan Ho aynı zamanda difüzyon modelinin kurucu çalışmalarından biridir ve gürültü giderici difüzyon modeli Gürültü Giderici Difüzyon Olasılık Modellerini önermiştir. (İlginçtir ki, ortak yazarlardan biri olan Pieter Abbeel de bu şirketin yatırımcısıdır).
Chitwan Saharia, Google'da görüntüden görüntüye yayılma modelleri üzerindeki çalışmaya öncülük etti. Willian chan, difüzyon modelleri üzerine yaptığı çalışmalara ek olarak, Google'dayken Nöral Konuşma Tanıma üzerinde çalıştı ve konuşma sentezi için WaveGrad üzerinde Mohammad Norouzi ile birlikte çalıştı.
Belki de Google'ın güvenlik ve etik konusundaki endişeleri nedeniyle Imagen ve Imagen Video'nun açık kaynaklı olup olmayacağına dair daha fazla düzenleme yapması gerekiyor ve bu omurgalar işten ayrılma kararı aldı.
Resmi duyuru, "Yaratıcılığa ve yüksek güven ve güvenlik standartlarına odaklanarak yapay zekanın sınırlarını zorluyoruz."
Resmi web sitesi ekran görüntüsü
Aynı gün şirket, a16z ve Index Ventures öncülüğünde toplam 16,5 milyon dolarlık tohum finansmanı topladığını da duyurdu. Bu yatırım turuna birçok tanınmış endüstri omurgası da katıldı.
Örneğin, Node.js'nin babası Ryan Dahl, Uber Baş Bilimcisi Raquel Urtasun, Jeff Dean, Andrej Karpathy, Pieter Abbeel, GitHub'un kurucusu Tom Preston-Werner.
Şirket aynı zamanda v0.1'in herkese açık beta sürümünün de başlatıldığını duyurdu. Biz de bunu deneyimledik. Şu anda yalnızca metinden görsel oluşturma hizmeti verilmektedir.İşlem çok basittir, sadece gereksinimlerinizi girin ve ardından oluşturulan görselin stilini ve oranını seçin.
Sistemi anlama yeteneği, özellikle resimde oluşturulması gereken metnin anlaşılması hala iyidir. Dezavantajı ise tepki hızının nispeten yavaş olması, Çince talimatların anlaşılamaması ve kompozisyonun mekansal anlayışının geliştirilmesi gerekmesidir.
operasyon sayfası
"Ponyo yunusla süte dalıyor", AI komutundaki "süt"ü anlayamıyor gibi görünüyor, ancak resmi kendi anlayışına göre (deniz) verdi.
Girişi değiştirdik: "Elon Musk, Lisa (Blackpink) ile Tesla arabasında el ele tutuşuyor (sinematik)"
Temel olarak doğru. Sadece ikisinin de yüzlerinde bir sorun var.Bu Lisa mı?
Musk'un seyahat etmesine ve Hanfu stilini denemesine izin verin; sonuç gerçekten bir parça kahramandır.
「Geleneksel Çin kıyafetleri giymiş uzun saçlı Elon Musk, fotoğraf」
"Blackpink Jennie ama çok şişman, fotoğraf." Evet, kilo aldıktan sonra böyle görünüyor.
Gelin bazı Twitter kullanıcılarının sonuçlarına bir göz atalım. Oluşturulan resimde bir miktar metin oluşturulması gerekse bile sistem bunu yapabilir.
例如,「"Bitti, Yolculuğun Ortası" yazan bir tabela tutan sevimli bir minyon, tam olarak yazıldı, 3d render, tipografi」
Twitter arkadaşları sistemin her zaman doğru yazamasa da başarı oranının iyi olduğunu söyledi.
「Büyük tüylü bir ayın üzerinde duran, elinde "Ay'a" yazan bir neon tabela tutan sevimli, tüylü bir pikachu, 3d render」
Son dönemde vizyona giren filmler arasında hem "Barbie" hem de "Oppenheimer" daha çok ilgi gördü. Twitter kullanıcıları, Barbie'ye ve nükleer silahlara gönderme yapan "Barbenheimer (Barbenheimer)" filminin poster tasarımının yapılmasını talep etti. Etki aşağıdaki gibidir.
Her ne kadar film bilgileri muhtemelen eğitimin son tarihinden sonra görünse de sistem bu bileşik kelimeyi hâlâ iyi işliyor. Ayrıca eski bir sorun, karakterlerin yüzlerinin yeterince iyi olmaması.
「『Gerçeküstü』 sözcüğü Dali tarzı gerçeküstü bir tablo, tipografide yazılmış ve aktarılmıştır.」
''Volkanda eriyen kardan adam''
「『NVIDIA』GPU çip devre tipografisi, cyperpunk, bilimkurgu ile işlenmiş kelime」
「Dali'nin tablosundaki güzel kız, "Stanford" yazısı, tipografi 」
Gucci güneş gözlüklü şık bir bez bebek kedi, elinde Mutlu Pazarlar yazan bir tabela tutuyor, siyah arka plan, poster
Sahnede 4 nesne var. Mavi bir küpün üzerinde kırmızı bir piramit oturuyor. Mavi küpün altında sarı bir küre bulunur. Piramidin solunda, üstünde mavi küp bulunan mermer bir altıgen bulunur.
Sistemin mevcut kompozisyon ve mekan anlayışı yerinde değil gibi görünüyor.
Diğer ana sayfalarda çalışmaların sergilenmesi.
Yenilebilir bağlantı:
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
2 Likes
Reward
2
1
Share
Comment
0/400
GateUser-bcf7bb63
· 2023-12-19 01:44
Bunu nasıl kaydedebilirim, jeton olmadığını gördüm, puan almak için kayıt olmanız gerekiyor mu?
Yolculuğun ortasında en güçlü rakip ortaya çıktı, tohum turu finansman devleri toplandı ve beta sürümü Musk'un tek bir "anahtar" ile ilerlemesine olanak sağladı
**Kaynak:**Makinenin Gücü
Üretken bir yapay zeka girişimi olan Ideogram AI, 23 Ağustos'ta resmi olarak şunu duyurdu: "Yaratıcı ifadeyi daha kolay, daha eğlenceli ve daha verimli hale getirmek için en gelişmiş yapay zeka araçlarını geliştiriyoruz." Resmi web sitesi şunu yazdı.
Ekibin çekirdek üyeleri aynı zamanda Google Brain Imagen ekibinin de ana üyeleridir ve Ideogram AI'nin de Imagen'i ileriye taşımaya çalıştığı düşünülmektedir:
Mohammad Norouzi (CEO), Jonathan Ho (kurucu ortak), William Chan ve Chitwan Saharia, Google'ın metinden resme yapay zeka modeli Imagen'in temel yazarlarıdır ve ilgili makaleler, NeurIPS 2022 Üstün makalesi için kısa listeye alınmıştır.
Imagen, giriş metnini bir dizi gömülü vektöre dönüştürmek için Transformer dil modelini kullanır. Daha sonra, üç difüzyon modelinden oluşan bir seri (difüzyon modeli), bu gömülü vektörleri 1024x1024 piksel görüntülere dönüştürecektir.
Kavramsal olarak basit ve eğitilmesi kolay olduğundan ve aynı zamanda şaşırtıcı derecede güçlü etkiler üretebildiğinden, Imagen yalnızca herkesin difüzyon modellerine ilişkin anlayışını yeniden şekillendirmekle kalmaz, aynı zamanda DALL-E 2'nin ötesinde yeni bir Vincent grafikleri paradigması açar.
Daha sonra Meta, yapay zeka modeli Make-A-Video metin videosunu duyurduktan sonra Google, yüksek çözünürlüklü videolar oluşturmak için basamaklı video dağıtım modelini temel alan Imagen Video video modelini (bakın, adlar benzer) yayınladı.
Imagen Video, önceki Imagen metin oluşturma görüntü sisteminden metni doğru şekilde tasvir etme işlevini devralır ve buna dayanarak, yalnızca basit açıklamalarla çeşitli yaratıcı animasyonlar oluşturabilir.
"Kurucu ekibimiz Google Brain, UC Berkeley, Carnegie Mellon Üniversitesi ve Toronto Üniversitesi'nde dönüştürücü yapay zeka projelerine liderlik etti." Resmi web sitesi gösteriyor.
Mohammad Norouzi, kendi işini kurmadan önce 7 yıl boyunca Google Brain'de çalıştı. Google'ın son seviyesi, üretken modellere odaklanan kıdemli bir araştırma bilimcisiydi. Ideogram AI, Imagen, Imagen Video, konuşma sentezi için WaveGrad, Nöral Makine Çevirisi, görsel temsillerin öğrenilmesiKarşılaştırmalı çalışma ve benzeri dahil olmak üzere yapay zekada en geniş temel çalışma yelpazesine sahiptir. İşbirlikçi ekip üyeleri de en fazladır.
UC Berkeley'den doktora mezunu olan kurucu ortak Jonathan Ho, yayılma modeli üzerinde o kadar çok çalışma yaptı ki, onun ayrılışı sektördeki kişiler tarafından Google için büyük bir kayıp olarak değerlendirildi.
Jonathan Ho aynı zamanda difüzyon modelinin kurucu çalışmalarından biridir ve gürültü giderici difüzyon modeli Gürültü Giderici Difüzyon Olasılık Modellerini önermiştir. (İlginçtir ki, ortak yazarlardan biri olan Pieter Abbeel de bu şirketin yatırımcısıdır).
Chitwan Saharia, Google'da görüntüden görüntüye yayılma modelleri üzerindeki çalışmaya öncülük etti. Willian chan, difüzyon modelleri üzerine yaptığı çalışmalara ek olarak, Google'dayken Nöral Konuşma Tanıma üzerinde çalıştı ve konuşma sentezi için WaveGrad üzerinde Mohammad Norouzi ile birlikte çalıştı.
Belki de Google'ın güvenlik ve etik konusundaki endişeleri nedeniyle Imagen ve Imagen Video'nun açık kaynaklı olup olmayacağına dair daha fazla düzenleme yapması gerekiyor ve bu omurgalar işten ayrılma kararı aldı.
Resmi duyuru, "Yaratıcılığa ve yüksek güven ve güvenlik standartlarına odaklanarak yapay zekanın sınırlarını zorluyoruz."
Aynı gün şirket, a16z ve Index Ventures öncülüğünde toplam 16,5 milyon dolarlık tohum finansmanı topladığını da duyurdu. Bu yatırım turuna birçok tanınmış endüstri omurgası da katıldı.
Örneğin, Node.js'nin babası Ryan Dahl, Uber Baş Bilimcisi Raquel Urtasun, Jeff Dean, Andrej Karpathy, Pieter Abbeel, GitHub'un kurucusu Tom Preston-Werner.
Şirket aynı zamanda v0.1'in herkese açık beta sürümünün de başlatıldığını duyurdu. Biz de bunu deneyimledik. Şu anda yalnızca metinden görsel oluşturma hizmeti verilmektedir.İşlem çok basittir, sadece gereksinimlerinizi girin ve ardından oluşturulan görselin stilini ve oranını seçin.
Sistemi anlama yeteneği, özellikle resimde oluşturulması gereken metnin anlaşılması hala iyidir. Dezavantajı ise tepki hızının nispeten yavaş olması, Çince talimatların anlaşılamaması ve kompozisyonun mekansal anlayışının geliştirilmesi gerekmesidir.
"Ponyo yunusla süte dalıyor", AI komutundaki "süt"ü anlayamıyor gibi görünüyor, ancak resmi kendi anlayışına göre (deniz) verdi.
Temel olarak doğru. Sadece ikisinin de yüzlerinde bir sorun var.Bu Lisa mı?
「Geleneksel Çin kıyafetleri giymiş uzun saçlı Elon Musk, fotoğraf」
例如,「"Bitti, Yolculuğun Ortası" yazan bir tabela tutan sevimli bir minyon, tam olarak yazıldı, 3d render, tipografi」
Twitter arkadaşları sistemin her zaman doğru yazamasa da başarı oranının iyi olduğunu söyledi.
Her ne kadar film bilgileri muhtemelen eğitimin son tarihinden sonra görünse de sistem bu bileşik kelimeyi hâlâ iyi işliyor. Ayrıca eski bir sorun, karakterlerin yüzlerinin yeterince iyi olmaması.
Sistemin mevcut kompozisyon ve mekan anlayışı yerinde değil gibi görünüyor.