Büyük kahve tartışması AIGC: AI patlamasında rüzgar ve dalgalara nasıl binilir

Kaynak: Lei Feng Net

Yazar: Dong Zibo Wang Yue

Orijinal başlık: "AIGC: Yükselişin altında, sınır nerede? GAIR 2023》

Resim çizmekten şiir yazmaya, metin yazarlığından çizelgelemeye, PPT'den kod yazmaya kadar, biri yapay zekanın tüm bu görevleri on aydan daha uzun bir süre önce yapabildiğini söylese, çok az insan onlara inanırdı.

Bununla birlikte, teknolojik gelişmenin hızı her zaman patlayıcıdır.2023 sona ermeden önce, üretken yapay zeka dalgası tüm teknolojik çevreyi süpürerek insanları büyüledi ve ona akın etti.

GAIR Araştırma Enstitüsü, Leifeng.com, World Science and Technology Publishing House ve Kotler Consulting Group tarafından ortaklaşa desteklenen 7. GAIR Küresel Yapay Zeka ve Robotik Konferansı'nda, AIGC alanındaki tüm büyük isimler Singapur'daki Orchard Hotel'de sunum yapmak üzere bir araya geldi. Dünya, üretken yapay zeka hakkındaki ilk elden ve en son bilgilerini paylaşıyor.

GAIR AIGC ve üretken içerik alt forumuna katılan konuşmacılar şunlardır:

Pan Xingang, Yardımcı Doçent, Bilgisayar Bilimi ve Mühendisliği Okulu, Nanyang Teknoloji Üniversitesi Congxing Cai, joinrealm.ai'nin Kurucusu Singapur'daki Help&Grow topluluğunun kurucusu Wang Tong Lizhi Group CTO'su, Ding Ning Kıdemli Araştırma Bilimcisi, Nanyang Teknoloji Üniversitesi; Kurucu, Deepir Inc., Wu Pengcheng Tencent Yurtdışı Oyun Yayınlama Algoritma Merkezi Direktörü Lang Jun

Mevcut sıcak AI yolunda, teknoloji, ürünler ve iş modellerindeki yenilikleri nasıl açık tutabilir ve geliştirebilirsiniz? Toplantıdaki konukların, üretken yapay zekanın yükselişinde rüzgar ve dalgaların üstesinden gelebilmeleri için içgörüleri nelerdir?

Nanyang Teknoloji Üniversitesi Pan Xingang: Görsel içeriğin kilit noktalarını sürükleyip bırakın, yayılma modelini kullanmadık

AIGC söz konusu olduğunda, mevcut yolda, herkesin aklına her zaman denizaşırı ülkelerde yüksek puan alan MidJourney ve arkasındaki teknik destek olan difüzyon modeli gelecektir.

Bununla birlikte, Nanyang Teknoloji Üniversitesi Bilgisayar Bilimi ve Mühendisliği Okulu'ndan yardımcı doçent olan ve bir zamanlar Hong Kong Çin'de Profesör Tang Xiaoou'nun yanında eğitim almış olan Pan Xingang, en son "sürükle ve bırak düzenlemesinde" difüzyon modelini kararlı bir şekilde terk etti. görsel içeriğin kilit noktaları". Daha "eski" bir teknik kullanılır - üretken yüzleşme ağı (GAN).

Birçok kişi yapay zekanın görüntü oluşturma konusundaki güçlü yeteneğini görüyor ve AIGC çağının geldiğini düşünüyor; ancak Pan Xingang, "görüntü oluşturmanın" genellikle kullanıcının yaratıcı sürecindeki son adım olmadığını keşfetti.

Resimde müteakip ayarlamalar - özellikle yapay zeka tarafından oluşturulan resim öğeleri genellikle belirsizlikle doludur.Kullanıcıların ihtiyaçlarını karşılamak için, resimdeki her öğenin daha sonraki aşamada kullanıcı tarafından ince ayarının yapılmasına izin verilmesi gerekir.

Örneğin, AI çok gerçekçi bir aslan üretti, kullanıcılar aslanın kafasını çevirmek, konumunu hareket ettirmek ve hatta aslanın ifadesini değiştirmek isterse, bunu mevcut ürün formunda yapmak zordur.

Bu işlemler basit gibi görünse de, hepsi nesnelerin uzamsal özelliklerinin hassas kontrolü ile ilgilidir ve hala büyük teknik zorluklarla karşı karşıyadır.

Geçmişte, Vincent'ın diyagramı fikrini takip etmenin, resmi metnin rehberliğine göre düzenlemenin bir yolu vardı - örneğin, "aslanın burnunu 30 piksel sağa hareket ettir".

Ancak bu çözümle ilgili sorunlar da var:

Bir yandan, metin modeli, kullanıcıların çeşitli düzenleme ihtiyaçlarını ve yöntemlerini karşılamak ve etkileşimi daha sezgisel hale getirmek için nesnelerin uzamsal nitelikleri hakkında yeterince güçlü bir anlayışa sahip olmalıdır;

Öte yandan, bir dil modeli için bir görüntüdeki uzunluk ve boyutu doğru bir şekilde anlamak zordur, bu da görsel içerik düzenlemede bir çok sorunu beraberinde getirir.

Etkileşim düzeyinde, kullanıcılar için en sezgisel ve kullanımı kolay olanı şüphesiz sürükle ve bırak etkileşimidir; teknik uygulama düzeyinde ise kullanıcıların yalnızca kırmızı bir kavrama noktası ve mavi bir hedef noktası belirtmesi gerekir ve AI, görüntünün uzamsal özniteliklerini düzenleme etkisini elde etmek için görüntünün kırmızı noktaya karşılık gelen anlamsal kısmı mavi noktanın konumuna taşınır.

Geçmişte, bazı insanlar benzer işlevler geliştirmiştir, ancak genellikle düzenlenecek görüntünün meshlenmesi gerekir ve nesnenin yüksekliği hakkında belirli varsayımlar vardır - düzenlenen görüntü, orijinal görüntünün yalnızca 2 boyutlu bir bozulmasıdır; no yeni içerik üretemez.

Hem kesin olmalı hem de içerik üretmelidir.Pan Xingang, teknik araştırma ve muhakeme yaparken mevcut en sıcak yayılma modelini kullanmadı, ancak üretken çatışma ağı teknolojisini seçti. Her şeyden önce, GAN tarafından açıklanan görüntü alanı çok süreklidir, difüzyon modelinden çok daha süreklidir; ikincisi, GAN'ın temasının gizli alanı, öznitelikleri düzenlemek için çok uygundur.

Pan Xingang'ın ekibinin araştırmasının daha da geliştirilmesiyle, görüntüdeki nesnelerin duruşunu değiştirebilen, bir arabanın şeklini yeniden tasarlayabilen veya bir arabanın perspektifini değiştirebilen orijinal temelde çok noktalı düzenlemeyi desteklediler. Bir kedi yavrusu Tek gözünü açıp bir gözünü kapat, portrenin saç stilini veya ifadesini, duruşunu veya giysi uzunluğunu değiştir, böylece kullanıcılar görüntüyü daha rahat düzenleyebilir ve hatta video içeriği oluşturmayı bu şekilde tamamlayabilir.

Şu anda, bu çalışma GitHub'da açık kaynaklı ve 32.000 Yıldız aldı.

Gelecekte, GAN ve difüzyon modelinin kombinasyonu, Pan Xingang'ın yapılan iş için vizyonudur - sadece difüzyon modelinin üretim yeteneği değil, aynı zamanda GAN'ın görüntü düzenlemedeki avantajları ve bu yeteneklerin uygulanması da mümkün olabilir. videoya ve 3B ve 4B içerikte, geleceğin AIGC'si daha akıllı ve kullanımı daha kolay olacaktır.

joinrealm.ai Congxing Cai: AIGC tabanlı bir sosyal ağ oluşturun

Joinrealm.ai'den Congxing Cai'nin bir AIGC sosyal ağı olma hayali var.

2016 yılında Snapchat'e katılan ve şirkette kısa videoların ürün geliştirmesinden sorumlu olan Cai Congxing, kısa video endüstrisinin ultra yüksek hızlı geliştirme dönemini deneyimledi. Ve TikTok, denizaşırı ülkelerde herhangi bir tartışma olmaksızın olağanüstü bir ürün haline geldikten sonra, Cai Congxing'in başka düşünceleri vardı:

"Üretken kısa video içeriği yolunda herkesin zaten belirli bir yöne ilerlediğini hissediyoruz ve gelecekte üretken video alanında sektör kesinlikle yeni bir atılım yapacak."

Böylece Congxing Cai ve arkadaşları, joinrealm.ai'yi kurdu.

Cai Congxing, AIGC'nin özellikle geniş ve soyut bir kavram olduğuna inanıyor ve joinrealm.ai'nin yönü, esas olarak "doğrudan API sağlama" ile "insan-bilgisayar etkileşimi inovasyonunu tamamlama" - iş modelinin keşfi arasında orta noktada yer alıyor. içerik oluşturma.

"İçerik oluşturma modu neden önemli? Son on yıldaki kısa video gözlemimize göre, büyük bir değişiklik aslında akıllı kameraların ortaya çıkmasından kaynaklanıyor. Akıllı kameraların popülaritesi büyük ölçüde değil. sadece herkese cep telefonu vermek yerine dünyaya milyarlarca mobil altyapı verdi."

"Kelime"den "hikaye"ye geçiş, joinrealm.ai'nin girişimciliğinin temel anahtarıdır - yapay zekanın yardımıyla, kullanıcılar zihinlerindeki içeriği tıpkı bir "düşünen kamera" gibi görüntüler olarak sunabilir.

Bu etkiyi elde etmek için Cai Congxing, joinrealm.ai'nin keşfinde çözülmesi gereken birçok sorun olduğunu keşfetti:

Her şeyden önce, doğal dille hala farklılıklar var - son tahlilde, halkın sezgisel olarak anlaması hala zor olan bir programlama dili.Kullanıcılar hala birçok "dene-başarısız-dene" adımından geçmek zorunda. istedikleri içeriği oluşturmak;

İkincisi, temel model bugün hala AIGC kullanıcılarının ihtiyaçlarını tam olarak karşılayamıyor.Örneğin Stable Diffusion'ı ele alırsak, üretilen içeriği paylaşmaya istekli yeni kullanıcıların oranı bugün muhtemelen %20'den azdır;

Kullanıcılar tarafından ince ayar yapılabilecek kavramların eksikliği, aynı zamanda şu anda AIGC'nin karşılaştığı ilk büyük sorundur.Kullanıcıların, bir dizi tanımlanmış kavram aracılığıyla AI üretimini kontrol etmesi ve kendi kavramlarını kontrol etmesi de zordur. "hikaye anlatımı" ;

Son olarak, görüntü oluşturma sonuçları ile maliyet arasındaki verimlilik dengesidir.Daha düşük bir fiyat aralığında daha yüksek kaliteli içeriğin nasıl üretileceği de şu anda AIGC tarafından göz ardı edilemeyecek bir konudur.

Bu zorlukların üstesinden gelmek için Cai Congxing ve ekibi, yaklaşık yüz etkili yapay zeka içerik oluşturucusuyla bir araya geldi ve üretim yöntemlerinin çoğunun benzersiz olduğunu ve nadiren aynı olduğunu ve hepsinin sürekli olarak hata ayıklamak ve ayarlamak için çok sayıda araç kullandığını gördü.

Sonunda, joinrealm.ai araştırma ve değerlendirmeden sonra yükseltmeyi üç önemli noktada tamamlamaya karar verdi:

Birincisi, kullanıcı arayüzünün optimizasyonunu tamamlayarak kullanıcı deneyimini daha iyi hale getiren araç zinciri;

İkincisi, kullanıcıların kendi ince ayarlarını oluşturmalarına izin vermektir.Örneğin, "Ben" açıklamasını kullanarak ürün, kullanıcının kendi görüntüsüne göre istediği görüntüyü daha doğru bir şekilde oluşturabilir.

Üçüncüsü, kullanıcıların toplulukta daha fazla eğitim ve ilham alabilmesi için kendi başınıza bir topluluk oluşturmaktır.

Yuvarlak Masa Tartışması: AIGC "Going Global"

Singapur'daki Help&Grow topluluğunun kurucusu Wang Tong moderatör olarak görev yaptı ve joinrealm.ai'nin kurucusu Cai Congxing, Lychee Group CTO'su Ding Ning, Nanyang Technological University'de kıdemli araştırma bilimcisi ve Deepir Inc.'in kurucusu Wu Pengcheng ile tartıştı. ve Tencent Overseas Game Publishing Algorithm Center direktörü Lang Jun AIGC ve üretken içeriğin güncel sıcak konusu.

AIGC'nin ticarileştirme modelinin To B alanına mı yoksa To C alanına mı inmesi daha kolay? Konuklar, kendi deneyimlerine dayanarak gelecekteki dayanak noktalarını öngördüler.

Lang Jun, To B'yi yapmanın kolay olmadığına inanıyor, çünkü bir çözümün birden fazla farklı gerçek duruma göre soyutlanması ve rafine edilmesi gerekiyor. To C açısından, birçok oyuncunun oyunu çalıştırırken oyuna hızla entegre olmasına yardımcı olabilir. oyun. Algoritma üzerinde dahili olarak çalışırken, Lang Jun ve ekibi ayrıca sürekli olarak ne tür bir modelin AIGC iniş sahnesini daha iyi derinleştirebileceğini değerlendirecek.

Wu Pengcheng, hem B'ye hem de C'ye fırsatlar olduğunu, ancak harika bir şirketin To C olması gerektiğini söyledi. Miaoya Camera, Apple VR gözlükleri, dijital insan canlı yayını ve bu yıl ToC düzeyinde başarılar elde eden diğer şirketleri birleştirerek, AIGC To C'nin birçok ilginç uygulamayı doğuracağını vurguladı.

Ding Ning, AIGC'nin ticarileştirilmesinin henüz erken bir aşamada olduğuna inanıyor.Başarılar elde etmede başı çeken bazı şirketler olsa da, çoğu hala yolda. Teknoloji girişimcileri için sadece teknolojinin dokunuşuna kapılmamaları, kullanıcıların ihtiyaçlarını ve sıkıntılarını da daha fazla düşünmeleri gerektiğini özellikle vurguladı. To B ve To C'nin uygulanmasıyla ilgili olarak, To B'nin büyük bir pazara sahip olduğunu ve yeteneklere ve kaynaklara ihtiyaç duyduğunu, To C'nin ise büyük bir rekabete sahip olduğunu ve keskin bir pazar anlayışı ve topluluğu işletme becerisi gerektirdiğini söyledi. gelecekte umut verici. geniş.

AIGC'nin yurt dışına çıkışı ve küreselleşmesi ile ilgili olarak çok sayıda konuk deneyimlerini paylaştı.

Lang Jun, yerel ekibin çok yoğun bir yetenek avantajına, verimli bilgi paylaşım kanallarına ve İnternet endüstrisine büyük ilgiye sahip olduğunu gözlemledi.Aslında, bu tahsis için yurtdışında çok fazla kaynak yok. Şu anda AIGC'nin özellikle olgun bir iş modeline sahip olmadığını, bu nedenle kaynakları birleştirme konusunda daha iyi bir yeteneğe sahip olan kişinin "tükenme" olasılığının daha yüksek olacağını vurguladı.

Ding Ning, AIGC denizaşırı ülkelere gittiğinde önce dışarı çıkıp rakamını düşürmesi gerektiğine inanıyor.Belirli bir ürün seviyesine ulaşmak zorunda değil.İki üç dakika içinde pazarda birdenbire başarılı olmanın zor olduğunu anlıyor. yıl. Yurtdışı pazarına saygı duymanın çok önemli olduğunu, kültür, dil, yasa ve yönetmelikler arasında çok büyük farklılıklar olduğunu ve yerel pazarın net bir şekilde anlaşılması gerektiğini sözlerine ekledi.

Wu Pengcheng, AIGC'nin yurtdışına çıkması için büyük bir fırsat olduğuna inanıyor.Bir yandan, Çin teknolojisi yurtdışında kullanılabilir; diğer yandan, yabancı ülkelerin de yerel ihtiyaçları vardır.İkisi derinden entegre olabilir ve bu da çok büyük sonuçlar doğurur. değer. Aynı zamanda denize açılmanın sadece bir ilk adım olduğunu da göz önünde bulundurmak ve denizaşırı seyahatleri nasıl daha iyi değerlendirebileceğimizi de düşünmek gerekiyor.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)