Debat kopi besar AIGC: cara menunggangi angin dan ombak dalam ledakan AI

Sumber: Lei Feng Net

Penulis: Dong Zibo Wang Yue

Judul asli: "AIGC: Under the upsurge, where the frontier?丨GAIR 2023》

Dari menggambar hingga menulis puisi, dari copywriting hingga membuat tabel, dari PPT hingga menulis kode, jika seseorang mengatakan bahwa AI dapat melakukan semua tugas ini lebih dari sepuluh bulan yang lalu, hanya sedikit orang yang akan mempercayainya.

Namun, kecepatan perkembangan teknologi selalu eksplosif, sebelum tahun 2023 berakhir, gelombang AI generatif telah menyapu seluruh lingkaran teknologi, membuat orang terpesona dan berbondong-bondong ke sana.

Pada GAIR Global Artificial Intelligence and Robotics Conference ke-7 yang disponsori bersama oleh GAIR Research Institute, Leifeng.com, World Science and Technology Publishing House, dan Kotler Consulting Group, semua nama besar di bidang AIGC berkumpul di Orchard Hotel di Singapura untuk mempresentasikan Dunia membagikan pengetahuan langsung dan terbaru mereka tentang AI generatif.

Pembicara yang berpartisipasi dalam sub forum GAIR AIGC dan konten generatif adalah:

Pan Xingang, Asisten Profesor, Sekolah Ilmu dan Teknik Komputer, Universitas Teknologi Nanyang Congxing Cai, Pendiri joinrealm.ai Pendiri komunitas Help&Grow di Singapura, Wang Tong CTO Grup Lizhi, Ding Ning Ilmuwan Riset Senior, Universitas Teknologi Nanyang, Pendiri, Deepir Inc., Wu Pengcheng Direktur Tencent Overseas Game Publishing Algorithm Center, Lang Jun

Di jalur AI yang panas saat ini, bagaimana menjaga pikiran tetap jernih dan menyempurnakan inovasi dalam teknologi, produk, dan model bisnis? Apa wawasan para tamu di pertemuan itu, sehingga mereka bisa menunggangi angin dan ombak dalam kebangkitan AI generatif?

Universitas Teknologi Nanyang Pan Xingang: Seret dan lepas poin-poin penting dari konten visual, kami tidak menggunakan model difusi

Dalam hal AIGC, di trek saat ini, semua orang akan selalu memikirkan MidJourney, yang berperingkat tinggi di luar negeri, dan dukungan teknis di baliknya-model difusi.

Namun, Pan Xingang, seorang asisten profesor dari Sekolah Ilmu Komputer dan Teknik Universitas Teknologi Nanyang, yang pernah belajar di bawah Profesor Tang Xiaoou di Hong Kong, telah dengan tegas meninggalkan model difusi dalam "pengeditan seret-dan-lepas kunci" terbarunya. poin konten visual". Teknik yang lebih "lama" digunakan - jaringan konfrontasi generatif (GAN).

Banyak orang melihat kemampuan AI yang kuat untuk menghasilkan gambar, dan berpikir bahwa era AIGC telah tiba; tetapi Pan Xingang menemukan bahwa "menghasilkan gambar" seringkali bukan langkah terakhir dalam proses kreatif pengguna.

Penyesuaian gambar selanjutnya — terutama elemen gambar yang dihasilkan oleh AI seringkali penuh dengan ketidakpastian.Untuk memenuhi kebutuhan pengguna, setiap elemen dalam gambar perlu disesuaikan oleh pengguna di tahap selanjutnya.

Misalnya, AI telah menghasilkan singa yang sangat realistis, jika pengguna ingin memutar kepala singa, memindahkan posisinya, atau bahkan mengubah ekspresi singa, sulit melakukannya dalam bentuk produk saat ini.

Operasi ini terdengar sederhana, tetapi semuanya tentang kontrol halus properti spasial objek, dan masih menghadapi tantangan teknis yang sangat besar.

Dulu, ada cara mengikuti ide diagram Vincent, untuk mengedit gambar sesuai panduan teks-misalnya, "pindahkan hidung singa ke kanan sebesar 30 piksel".

Tetapi ada juga masalah dengan solusi ini:

Di satu sisi, model teks harus memiliki pemahaman yang cukup kuat tentang atribut spasial objek untuk memenuhi berbagai kebutuhan pengeditan dan metode pengguna serta membuat interaksi menjadi lebih intuitif;

Di sisi lain, untuk model bahasa, sulit untuk memahami panjang dan ukuran gambar secara akurat, yang juga membawa banyak masalah pada pengeditan konten visual.

Pada tingkat interaksi, bagi pengguna, yang paling intuitif dan mudah digunakan tidak diragukan lagi adalah interaksi drag-and-drop; sedangkan pada tingkat implementasi teknis, pengguna hanya perlu menentukan titik pengambilan merah dan titik target biru, dan AI akan Bagian semantik dari gambar yang sesuai dengan titik merah dipindahkan ke posisi titik biru untuk mendapatkan efek pengeditan atribut spasial gambar.

Di masa lalu, beberapa orang telah mengembangkan fungsi yang serupa, tetapi biasanya gambar yang akan diedit perlu disatukan, dan ada asumsi tertentu tentang ketinggian objek - gambar yang diedit hanyalah distorsi 2D dari gambar aslinya, ada tidak tidak dapat menghasilkan konten baru.

Itu harus tepat dan menghasilkan konten.Pan Xingang tidak menggunakan model difusi terpanas saat ini saat membuat penelitian dan penilaian teknis, tetapi memilih teknologi jaringan konfrontasi generatif. Pertama-tama, ruang gambar yang dijelaskan oleh GAN sangat kontinyu, jauh lebih kontinyu daripada model difusi; kedua, ruang laten kontak GAN sangat cocok untuk mengedit atribut.

Dengan pengembangan lebih lanjut dari penelitian tim Pan Xingang, mereka mendukung pengeditan multi-titik berdasarkan aslinya, yang dapat mengubah postur objek dalam gambar, mendesain ulang bentuk mobil, atau mengubah perspektif mobil, jadi itu anak kucing Buka satu mata dan tutup satu mata, ubah gaya rambut atau ekspresi potret, postur atau panjang pakaian, sehingga pengguna dapat mengedit gambar dengan lebih nyaman, dan bahkan menyelesaikan pembuatan konten video dengan cara ini.

Saat ini, karya ini telah open source di GitHub dan telah memperoleh 32.000 Bintang.

Di masa depan, kombinasi GAN dan model difusi adalah visi Pan Xingang untuk pekerjaan yang dilakukan - tidak hanya kemampuan generasi model difusi, tetapi juga keunggulan GAN dalam pengeditan gambar, dan juga dimungkinkan untuk menerapkan kemampuan ini ke video dan Dalam konten 3D dan 4D, AIGC masa depan akan lebih pintar dan lebih mudah digunakan.

joinrealm.ai Congxing Cai: Bangun jejaring sosial berdasarkan AIGC

Congxing Cai dari joinrealm.ai memiliki impian menjadi jejaring sosial AIGC.

Bergabung dengan Snapchat sekitar tahun 2016 dan bertanggung jawab atas pengembangan produk video pendek di perusahaan, Cai Congxing telah mengalami periode pengembangan industri video pendek berkecepatan sangat tinggi. Dan setelah TikTok menjadi produk fenomenal di luar negeri tanpa ada perselisihan, Cai Congxing punya pemikiran lain:

"Kami merasa bahwa di jalur konten video pendek yang produktif, semua orang telah bergerak ke arah tertentu; dan di masa depan, di bidang video generatif, industri pasti akan memiliki terobosan baru."

Jadi Congxing Cai dan teman-temannya mendirikan joinrealm.ai.

Cai Congxing percaya bahwa AIGC adalah konsep yang sangat luas dan abstrak, dan arah joinrealm.ai terutama berada di jalan tengah antara "menyediakan API secara langsung" dan "menyelesaikan inovasi interaksi manusia-komputer" - eksplorasi model bisnis dari pembuatan konten.

"Mengapa mode pembuatan konten penting? Berdasarkan pengamatan kami terhadap video pendek dalam sepuluh tahun terakhir, perubahan besar sebenarnya disebabkan oleh munculnya kamera pintar. Popularitas kamera pintar, sebagian besar, tidak hanya Alih-alih memberi semua orang ponsel, itu memberi dunia infrastruktur seluler miliaran."

Dari "kata" menjadi "cerita" adalah kunci inti dari kewirausahaan joinrealm.ai - dengan bantuan AI, pengguna dapat menyajikan konten dalam pikiran mereka sebagai gambar, seperti halnya "kamera berpikir".

Untuk mencapai efek ini, Cai Congxing menemukan dalam eksplorasi joinrealm.ai bahwa masih banyak masalah yang harus diselesaikan:

Pertama-tama, masih ada perbedaan dengan bahasa alami - pada analisis terakhir, ini masih merupakan bahasa pemrograman yang sulit dipahami oleh publik secara intuitif. Pengguna masih harus melalui banyak langkah "coba-gagal-coba". untuk menghasilkan konten yang mereka inginkan;

Kedua, model dasar masih belum dapat sepenuhnya memenuhi kebutuhan pengguna AIGC saat ini.Mengambil contoh Difusi Stabil, proporsi pengguna baru yang bersedia berbagi konten yang dihasilkan mungkin kurang dari 20% saat ini;

Kurangnya konsep yang dapat disesuaikan oleh pengguna juga merupakan masalah besar pertama yang dihadapi AIGC saat ini, sulit bagi pengguna untuk mengontrol generasi AI melalui serangkaian konsep yang ditentukan, dan juga sulit untuk mengontrolnya sendiri. "bercerita" ;

Akhirnya, keseimbangan efisiensi antara hasil pembuatan gambar dan biaya.Bagaimana menghasilkan konten berkualitas lebih tinggi dengan kisaran harga yang lebih rendah juga merupakan masalah yang tidak dapat diabaikan oleh AIGC saat ini.

Untuk memenuhi tantangan ini, Cai Congxing dan timnya bertemu dengan hampir seratus pencipta AI yang berpengaruh dan menemukan bahwa sebagian besar metode produksi mereka unik dan jarang sama, dan mereka semua menggunakan sejumlah besar alat untuk terus melakukan debug dan penyesuaian.

Pada akhirnya, joinrealm.ai memutuskan untuk menyelesaikan pemutakhiran pada tiga poin utama setelah penelitian dan penilaian:

Yang pertama adalah rantai alat, yang membuat pengalaman pengguna menjadi lebih baik dengan menyelesaikan pengoptimalan antarmuka pengguna;

Yang kedua adalah untuk memungkinkan pengguna membuat penyempurnaan sendiri.Misalnya, dengan menggunakan deskripsi "Saya", produk dapat menghasilkan gambar yang mereka inginkan dengan lebih akurat berdasarkan gambar pengguna sendiri.

Yang ketiga adalah membangun komunitas sendiri, sehingga pengguna bisa mendapatkan lebih banyak pengajaran dan inspirasi di komunitas tersebut.

Diskusi Meja Bundar: AIGC "Going Global"

Wang Tong, pendiri komunitas Help&Grow di Singapura, berperan sebagai moderator dan berdiskusi dengan Cai Congxing, pendiri joinrealm.ai, Ding Ning, CTO Lychee Group, Wu Pengcheng, ilmuwan riset senior di Nanyang Technological University & pendiri Deepir Inc. , dan Lang Jun, direktur Tencent Overseas Game Publishing Algorithm Center Topik hangat AIGC dan konten generatif saat ini.

Apakah model komersialisasi AIGC lebih mudah mendarat di bidang To B atau di bidang To C? Para tamu membayangkan pijakan masa depan berdasarkan pengalaman mereka sendiri.

Lang Jun percaya bahwa To B tidak mudah dilakukan, karena solusi perlu diabstraksi dan disempurnakan berdasarkan beberapa kasus aktual yang berbeda Dalam hal To C, ini dapat membantu banyak gamer dengan cepat berintegrasi ke dalam game saat mengoperasikan game. Saat mengerjakan algoritme secara internal, Lang Jun dan tim juga akan terus menilai model seperti apa yang dapat memperdalam adegan pendaratan AIGC dengan lebih baik.

Wu Pengcheng berkata bahwa baik To B maupun To C memiliki peluang, tetapi perusahaan yang hebat haruslah To C. Ia menggabungkan Miaoya Camera, kacamata Apple VR, digital human live streaming dan perusahaan lain yang telah menorehkan prestasi di level ToC tahun ini, menekankan bahwa AIGC To C akan melahirkan banyak aplikasi menarik.

Ding Ning percaya bahwa komersialisasi AIGC masih dalam tahap awal, meskipun ada beberapa perusahaan yang memimpin pencapaian, sebagian besar masih dalam perjalanan. Dia secara khusus menekankan bahwa bagi pengusaha teknologi, mereka tidak hanya harus terjun ke dalam sentuhan teknologi, tetapi juga harus lebih mempertimbangkan kebutuhan dan pain point pengguna. Mengenai implementasi To B dan To C, beliau mengatakan bahwa To B memiliki pasar yang besar dan membutuhkan kapabilitas dan sumber daya, sedangkan To C memiliki persaingan yang besar dan membutuhkan kepekaan pasar yang tajam serta kemampuan mengoperasikan komunitas. menjanjikan di masa depan. luas.

Mengenai AIGC yang pergi ke luar negeri dan globalisasi, beberapa tamu berbagi pengalaman mereka.

Lang Jun mengamati bahwa tim domestik memiliki keunggulan talenta yang sangat padat, saluran berbagi pengetahuan yang efisien, dan minat yang kuat pada industri Internet.Faktanya, tidak banyak sumber daya untuk alokasi ini di luar negeri. Dia menekankan bahwa saat ini AIGC tidak memiliki model bisnis yang matang, sehingga siapa pun yang memiliki kemampuan yang lebih baik untuk menggabungkan sumber daya akan lebih cenderung "kehabisan".

Ding Ning percaya bahwa ketika AIGC pergi ke luar negeri, pertama-tama harus keluar dan menurunkan angkanya. Tidak harus mencapai tingkat produk tertentu. Dia menyadari bahwa sulit untuk berhasil di pasar sekaligus dalam dua atau tiga bertahun-tahun. Ia menambahkan, sangat penting untuk menghormati pasar luar negeri, karena perbedaan budaya, bahasa, hukum, dan peraturan sangat besar, dan perlu pemahaman yang jelas tentang pasar lokal.

Wu Pengcheng percaya bahwa ada peluang besar bagi AIGC untuk pergi ke luar negeri. Di satu sisi, teknologi China dapat digunakan di luar negeri; di sisi lain, negara asing juga memiliki kebutuhan lokal. Keduanya dapat terintegrasi secara mendalam, yang akan menghasilkan keuntungan besar. nilai. Pada saat yang sama, perlu juga diperhatikan bahwa melaut hanyalah langkah pertama, dan perlu juga dipertimbangkan bagaimana cara bepergian ke luar negeri dengan lebih baik.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)