Görsel kaynağı: Unbounded AI tarafından oluşturuldu
AI büyük modellerinin geliştirilmesi ve uygulanmasındaki artış artmaya devam ederken, muhabir, pistteki oyuncuların odaklarını büyük dil modellerinden büyük görsel modellere kaydırmaya başladığını fark etti. Son zamanlarda, Adobe, Meta, 360, Meitu ve yurtiçi ve yurtdışındaki diğer birçok önde gelen İnternet şirketi, zaten aşırı derecede sıcak olan AI pazarına ateş ekleyerek büyük ölçekli model sonuçları yayınladı.
Çin İletişim Endüstrisi Derneği'nin Sanayileşme ve Sanayileşme Entegrasyonu Komitesi başkan yardımcısı Wu Gaobin, "Yapay zekanın video alanında uygulanması giderek daha fazla dikkat çekiyor." Ölçekli AI modelleri, işletmelere yeni rekabet motivasyonu getirdi. İşletmeler arasındaki rekabet, teknolojik yeniliği ve ilerlemeyi teşvik edecek ve aynı zamanda daha iyi ürün ve hizmetler getirecektir. Rekabet, pazar taleplerini daha iyi karşılamak için işletmeler arasında işbirliğini ve kaynak paylaşımını da teşvik edecektir.
Yurt içi ve yurt dışında görsel büyük ölçekli model "Peri Dövüşü"
Sıra sıra büyük ölçekli dil modelleri ve çok modlu büyük ölçekli modeller ortaya çıktıktan sonra, "görsel büyük ölçekli modeller" askeri stratejistler için başka bir savaş alanı haline geldi. Birkaç gün önce Meitu, AI vizyon oluşturma aracı WHEE, AI dijital insan yaratma aracı DreamAvatar ve Meitu AI yardımcısı RoboNeo dahil olmak üzere yedi ürünle birlikte büyük ölçekli bir AI vizyon modeli olan MiracleVision'ı piyasaya sürdü.
Raporlara göre, MiracleVision güçlü bir görsel anlatıma ve yaratıcılığa sahiptir ve boyama, tasarım, film ve televizyon, fotoğrafçılık, oyunlar, 3D ve animasyon gibi görsel yaratma sahnelerindeki teknolojik evrimi tersine çevirebilir. Piyasadaki diğer büyük modellerden farklı olarak, özellikle Asya portre fotoğrafçılığı, ulusal tarz ve moda ve ticari tasarım gibi yönler oluşturmada iyidir.
Meitu'nun kurucusu, başkanı ve CEO'su Wu Xinhong, China Times'tan bir muhabirle yaptığı röportajda şunları söyledi: "Meitu'nun büyük modelinin temel avantajı estetiği anlamaktır. C-end kullanıcı tabanı yeterince büyük. Maliyeti müşteri kazanımı düşüktür. Meitu'nun şu anda aylık 243 milyon aktif kullanıcısı ve ürünün başarısını kısa sürede doğrulayabilen 7.19 milyon küresel VIP üyesi vardır. Diğer üreticilerin aksine, Meitu'nun büyük modeli estetiğe (serigrafi Kaliteli tasarım vb.) odaklanır. .), gelecekte rekabet etmek zorunda kalırsak, estetiğe "döneceğiz".
Tesadüfen 360, birkaç gün önce "360 Smart Brain-Vision Büyük Model"i de resmi olarak yayınladı. 360'ın kurucusu Zhou Hongyi, büyük dil modelinin büyük bir görsel model oluşturmanın temeli olduğunu ve çok modlu yetenek geliştirmenin çekirdeğinin, büyük dil modelinin biliş, muhakeme ve karar verme yetenekleri olduğunu söyledi. Aynı zamanda büyük görsel model, gelecekte resimleri, videoları ve sesleri anlayabilen "360 Akıllı Beyin"in önemli bir yetenek bileşenidir.
Yurtdışı şirketler de görsel modeller ortaya koymaya başladı. Sosyal medya devi Meta, birkaç gün önce I-JEPA adlı "insansı" bir yapay zeka modelinin bazı bileşenlerini araştırmacıların hizmetine açacağını duyurmuştu. diğer üretken AI modellerinde olduğu gibi yakındaki piksellere dayalı çıkarımlar.
Meta'nın baş yapay zeka bilimcisi Yang Likun, bir keresinde mevcut GPT otoregresif modelinin planlama ve muhakeme yeteneğinden yoksun olduğuna ve gelecekteki GPT sisteminin terk edilebileceğine açıkça dikkat çekti ve doğru olduğunu düşündüğü yanıtı verdi - dünya modeli. I-JEPA'nın, tamamlanmamış görüntüleri mevcut modellerden daha doğru bir şekilde analiz etme ve tamamlama vizyonunun temel bileşenlerine dayanan ilk yapay zeka modeli olduğu söyleniyor.
Buna ek olarak Meta, metinden konuşma oluşturmayı destekleyen, yalnızca iki saniye uzunluğundaki örneklere dayalı olarak ses stillerini eşleştirebilen ve metin örneklerini başka bir dile dönüştüren konuşma oluşturma AI modeli "Voicebox"ı da piyasaya sürdü. ses örnekleri ve çevrilmiş metin içeriğini konuşmacının orijinal sesinde okuyabilme özelliği, şu anda altı dil desteklenmektedir: İngilizce, Fransızca, Almanca, İspanyolca, Lehçe ve Portekizce.
Bu yılın Nisan ayı gibi erken bir tarihte Adobe, Adobe Firefly işlevini (ChatGPT benzeri ürünler) Premiere Pro, After Effects, Audition, Remix vb. gibi ses ve video ürünleri matrisine entegre ederek kullanıcılara tek tıkla içerik oluşturma olanağı sağladı. , düzenleme, renk eşleştirme, Müziği değiştirme ve diğer işlevler.
"Dil Modeli"nden "Vizyon Modeli"ne
"Çin Yapay Zeka Büyük Ölçekli Model Haritası Araştırma Raporu", küresel olarak piyasaya sürülen büyük ölçekli modellerin sayısı ve dağılımı açısından Çin ve ABD'nin büyük bir farkla önde olduğunu ve küresel modelin %80'inden fazlasını oluşturduğunu gösteriyor. Toplam. Aynı zamanda Avrupa, Rusya, İsrail vb. ülkelerde giderek daha fazla Ar-Ge ekibi de büyük modellerin geliştirilmesine yatırım yapıyor. Ancak, ülkemde bilgisayarla görme ve diğer alanlarda hala birkaç büyük model olduğunu belirtmekte fayda var.
Nedeni araştıran Pekin Zhiyuan Araştırma Enstitüsü'nün misafir baş bilim adamı Yan Shuicheng, "China Times" muhabirine şunları söyledi: "Görsel modellerin geliştirilmesinin biraz geride kalmasının ana nedeni, büyük görsel modellerin çok daha fazla bilgi işlem gücü tüketmesidir. metinden çok, bu yüzden biz de çiplerin daha hızlı geliştirilmesini dört gözle bekliyoruz ve hatta diğer GPU olmayan çipleri birbirine entegre etmek bile mümkün.Şu anda gördüğünüz modeller genellikle kilokal seviyesindedir, ancak bazı insanlar 10.000 kart seviyesini kullanabilir. onları gelecek yıl yapmak için."
Pekin Zhiyuan Yapay Zeka Araştırma Enstitüsü başkanı Huang Tiejun'a göre, görsel alan, büyük modeller alanındaki bir sonraki dalganın odak noktası. Büyük görsel modelin ve büyük dil modelinin arkasındaki düşünme yöntemlerinin ve temel yolların aynı olduğunu ancak girdi verilerinin resimler ve videolar haline geldiğini ve eğitilen modelin belirli bir genel görsel dil becerisine sahip olduğunu belirtti. AIGC (Yapay Zeka Otomatik Olarak Oluşturulan İçerik), görseller ve sanat eserleri üretebilir. "Ayrıca daha temel bir yetenek var, yani dünyayı gördükten sonra, önce dünyayı (her şeyi) ayırt edebilmelisin."
Büyük ölçekli görsel modellerin geliştirilmesi için birçok kuruluş da iyimser tutumlar dile getirdi. CICC Research tarafından yayınlanan araştırma raporuna göre, bilgisayar görüşünün gelecekte daha yüksek derecede otomasyon, yüksek hassasiyet ve düşük güç tüketimi elde etmesi, Metaverse'nin içerik ekolojisini daha da zenginleştirmesi ve giriş engellerini azaltması bekleniyor. Bilgisayar görüşünün ilerlemesi, 3B yeniden yapılandırma ve hareket yakalama teknolojisinin hızlı bir şekilde olgunlaşmasına ve kendi alanlarında kademeli olarak birikmiş teknolojik ilerlemeye yol açmıştır. Gelecekte, bilgisayarla görmenin daha yüksek derecede otomasyon, daha yüksek hassasiyet ve daha düşük güç tüketimi sağlaması bekleniyor. fiziksel dünya ile dijital dünyayı birbirine bağlamaya yönelik Uzun vadeli bir dünya vizyonu.
CITIC Securities Research ayrıca tasarım alanında büyük modellerin dijital tasarımı akıllı tasarıma yönlendirdiğini ve ilgili endüstriyel tasarım yazılımının GPT ve diğer teknolojilerle bir araya gelerek tasarım planlama, yerleşim optimizasyonu, eklenti asistanları gibi senaryolara uygulanabileceğini belirtti. AI yükseltme genel eğilimi altında, yeni bir üretkenlik devrimi turu başlıyor.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
AI "Yüz Model Savaşı" eğilimi değişti mi? 360, Meitu arka arkaya hareketler başlattı ve görsel büyük ölçekli model bir "peri dövüşü" sahneledi
Orijinal kaynak: China Times
AI büyük modellerinin geliştirilmesi ve uygulanmasındaki artış artmaya devam ederken, muhabir, pistteki oyuncuların odaklarını büyük dil modellerinden büyük görsel modellere kaydırmaya başladığını fark etti. Son zamanlarda, Adobe, Meta, 360, Meitu ve yurtiçi ve yurtdışındaki diğer birçok önde gelen İnternet şirketi, zaten aşırı derecede sıcak olan AI pazarına ateş ekleyerek büyük ölçekli model sonuçları yayınladı.
Çin İletişim Endüstrisi Derneği'nin Sanayileşme ve Sanayileşme Entegrasyonu Komitesi başkan yardımcısı Wu Gaobin, "Yapay zekanın video alanında uygulanması giderek daha fazla dikkat çekiyor." Ölçekli AI modelleri, işletmelere yeni rekabet motivasyonu getirdi. İşletmeler arasındaki rekabet, teknolojik yeniliği ve ilerlemeyi teşvik edecek ve aynı zamanda daha iyi ürün ve hizmetler getirecektir. Rekabet, pazar taleplerini daha iyi karşılamak için işletmeler arasında işbirliğini ve kaynak paylaşımını da teşvik edecektir.
Yurt içi ve yurt dışında görsel büyük ölçekli model "Peri Dövüşü"
Sıra sıra büyük ölçekli dil modelleri ve çok modlu büyük ölçekli modeller ortaya çıktıktan sonra, "görsel büyük ölçekli modeller" askeri stratejistler için başka bir savaş alanı haline geldi. Birkaç gün önce Meitu, AI vizyon oluşturma aracı WHEE, AI dijital insan yaratma aracı DreamAvatar ve Meitu AI yardımcısı RoboNeo dahil olmak üzere yedi ürünle birlikte büyük ölçekli bir AI vizyon modeli olan MiracleVision'ı piyasaya sürdü.
Raporlara göre, MiracleVision güçlü bir görsel anlatıma ve yaratıcılığa sahiptir ve boyama, tasarım, film ve televizyon, fotoğrafçılık, oyunlar, 3D ve animasyon gibi görsel yaratma sahnelerindeki teknolojik evrimi tersine çevirebilir. Piyasadaki diğer büyük modellerden farklı olarak, özellikle Asya portre fotoğrafçılığı, ulusal tarz ve moda ve ticari tasarım gibi yönler oluşturmada iyidir.
Meitu'nun kurucusu, başkanı ve CEO'su Wu Xinhong, China Times'tan bir muhabirle yaptığı röportajda şunları söyledi: "Meitu'nun büyük modelinin temel avantajı estetiği anlamaktır. C-end kullanıcı tabanı yeterince büyük. Maliyeti müşteri kazanımı düşüktür. Meitu'nun şu anda aylık 243 milyon aktif kullanıcısı ve ürünün başarısını kısa sürede doğrulayabilen 7.19 milyon küresel VIP üyesi vardır. Diğer üreticilerin aksine, Meitu'nun büyük modeli estetiğe (serigrafi Kaliteli tasarım vb.) odaklanır. .), gelecekte rekabet etmek zorunda kalırsak, estetiğe "döneceğiz".
Tesadüfen 360, birkaç gün önce "360 Smart Brain-Vision Büyük Model"i de resmi olarak yayınladı. 360'ın kurucusu Zhou Hongyi, büyük dil modelinin büyük bir görsel model oluşturmanın temeli olduğunu ve çok modlu yetenek geliştirmenin çekirdeğinin, büyük dil modelinin biliş, muhakeme ve karar verme yetenekleri olduğunu söyledi. Aynı zamanda büyük görsel model, gelecekte resimleri, videoları ve sesleri anlayabilen "360 Akıllı Beyin"in önemli bir yetenek bileşenidir.
Yurtdışı şirketler de görsel modeller ortaya koymaya başladı. Sosyal medya devi Meta, birkaç gün önce I-JEPA adlı "insansı" bir yapay zeka modelinin bazı bileşenlerini araştırmacıların hizmetine açacağını duyurmuştu. diğer üretken AI modellerinde olduğu gibi yakındaki piksellere dayalı çıkarımlar.
Meta'nın baş yapay zeka bilimcisi Yang Likun, bir keresinde mevcut GPT otoregresif modelinin planlama ve muhakeme yeteneğinden yoksun olduğuna ve gelecekteki GPT sisteminin terk edilebileceğine açıkça dikkat çekti ve doğru olduğunu düşündüğü yanıtı verdi - dünya modeli. I-JEPA'nın, tamamlanmamış görüntüleri mevcut modellerden daha doğru bir şekilde analiz etme ve tamamlama vizyonunun temel bileşenlerine dayanan ilk yapay zeka modeli olduğu söyleniyor.
Buna ek olarak Meta, metinden konuşma oluşturmayı destekleyen, yalnızca iki saniye uzunluğundaki örneklere dayalı olarak ses stillerini eşleştirebilen ve metin örneklerini başka bir dile dönüştüren konuşma oluşturma AI modeli "Voicebox"ı da piyasaya sürdü. ses örnekleri ve çevrilmiş metin içeriğini konuşmacının orijinal sesinde okuyabilme özelliği, şu anda altı dil desteklenmektedir: İngilizce, Fransızca, Almanca, İspanyolca, Lehçe ve Portekizce.
Bu yılın Nisan ayı gibi erken bir tarihte Adobe, Adobe Firefly işlevini (ChatGPT benzeri ürünler) Premiere Pro, After Effects, Audition, Remix vb. gibi ses ve video ürünleri matrisine entegre ederek kullanıcılara tek tıkla içerik oluşturma olanağı sağladı. , düzenleme, renk eşleştirme, Müziği değiştirme ve diğer işlevler.
"Dil Modeli"nden "Vizyon Modeli"ne
"Çin Yapay Zeka Büyük Ölçekli Model Haritası Araştırma Raporu", küresel olarak piyasaya sürülen büyük ölçekli modellerin sayısı ve dağılımı açısından Çin ve ABD'nin büyük bir farkla önde olduğunu ve küresel modelin %80'inden fazlasını oluşturduğunu gösteriyor. Toplam. Aynı zamanda Avrupa, Rusya, İsrail vb. ülkelerde giderek daha fazla Ar-Ge ekibi de büyük modellerin geliştirilmesine yatırım yapıyor. Ancak, ülkemde bilgisayarla görme ve diğer alanlarda hala birkaç büyük model olduğunu belirtmekte fayda var.
Nedeni araştıran Pekin Zhiyuan Araştırma Enstitüsü'nün misafir baş bilim adamı Yan Shuicheng, "China Times" muhabirine şunları söyledi: "Görsel modellerin geliştirilmesinin biraz geride kalmasının ana nedeni, büyük görsel modellerin çok daha fazla bilgi işlem gücü tüketmesidir. metinden çok, bu yüzden biz de çiplerin daha hızlı geliştirilmesini dört gözle bekliyoruz ve hatta diğer GPU olmayan çipleri birbirine entegre etmek bile mümkün.Şu anda gördüğünüz modeller genellikle kilokal seviyesindedir, ancak bazı insanlar 10.000 kart seviyesini kullanabilir. onları gelecek yıl yapmak için."
Pekin Zhiyuan Yapay Zeka Araştırma Enstitüsü başkanı Huang Tiejun'a göre, görsel alan, büyük modeller alanındaki bir sonraki dalganın odak noktası. Büyük görsel modelin ve büyük dil modelinin arkasındaki düşünme yöntemlerinin ve temel yolların aynı olduğunu ancak girdi verilerinin resimler ve videolar haline geldiğini ve eğitilen modelin belirli bir genel görsel dil becerisine sahip olduğunu belirtti. AIGC (Yapay Zeka Otomatik Olarak Oluşturulan İçerik), görseller ve sanat eserleri üretebilir. "Ayrıca daha temel bir yetenek var, yani dünyayı gördükten sonra, önce dünyayı (her şeyi) ayırt edebilmelisin."
Büyük ölçekli görsel modellerin geliştirilmesi için birçok kuruluş da iyimser tutumlar dile getirdi. CICC Research tarafından yayınlanan araştırma raporuna göre, bilgisayar görüşünün gelecekte daha yüksek derecede otomasyon, yüksek hassasiyet ve düşük güç tüketimi elde etmesi, Metaverse'nin içerik ekolojisini daha da zenginleştirmesi ve giriş engellerini azaltması bekleniyor. Bilgisayar görüşünün ilerlemesi, 3B yeniden yapılandırma ve hareket yakalama teknolojisinin hızlı bir şekilde olgunlaşmasına ve kendi alanlarında kademeli olarak birikmiş teknolojik ilerlemeye yol açmıştır. Gelecekte, bilgisayarla görmenin daha yüksek derecede otomasyon, daha yüksek hassasiyet ve daha düşük güç tüketimi sağlaması bekleniyor. fiziksel dünya ile dijital dünyayı birbirine bağlamaya yönelik Uzun vadeli bir dünya vizyonu.
CITIC Securities Research ayrıca tasarım alanında büyük modellerin dijital tasarımı akıllı tasarıma yönlendirdiğini ve ilgili endüstriyel tasarım yazılımının GPT ve diğer teknolojilerle bir araya gelerek tasarım planlama, yerleşim optimizasyonu, eklenti asistanları gibi senaryolara uygulanabileceğini belirtti. AI yükseltme genel eğilimi altında, yeni bir üretkenlik devrimi turu başlıyor.