Pertengahan perjalanan mengantarkan lawan terkuat, raksasa pembiayaan putaran awal berkumpul, dan versi beta memungkinkan Musk melewatinya dengan satu "kunci"
Untuk waktu yang lama, Midjourney duduk kokoh di singgasana diagram AIGC Vincent, dengan sedikit ancaman hingga munculnya perusahaan ini.
Pada tanggal 23 Agustus, Ideogram AI, sebuah startup kecerdasan buatan generatif, secara resmi mengumumkan: “Kami sedang mengembangkan alat kecerdasan buatan paling canggih untuk membuat ekspresi kreatif lebih mudah, lebih menyenangkan, dan lebih efisien.” Situs web resmi menulis.
Anggota inti tim juga merupakan anggota utama tim Google Brain Imagen, dan Ideogram AI juga dianggap mencoba meneruskan Imagen:
Mohammad Norouzi (CEO), Jonathan Ho (salah satu pendiri), William Chan, dan Chitwan Saharia adalah penulis inti model AI text-to-image Imagen Google, dan makalah terkait telah masuk dalam nominasi makalah NeurIPS 2022 Outstanding.
Imagen menggunakan model bahasa Transformer untuk mengubah teks masukan menjadi rangkaian vektor yang disematkan. Kemudian, serangkaian tiga model difusi (model difusi) akan mengubah vektor yang disematkan tersebut menjadi gambar berukuran 1024x1024 piksel.
Karena secara konseptual sederhana dan mudah untuk dilatih, dan juga dapat menghasilkan efek yang sangat kuat, Imagen tidak hanya membentuk kembali pemahaman semua orang tentang model difusi, tetapi juga membuka paradigma baru grafik Vincent di luar DALL-E 2.
Kemudian, setelah Meta mengumumkan model AI video teks Make-A-Video, Google merilis model video Imagen Video (lihat, namanya mirip), yang didasarkan pada model difusi video berjenjang untuk menghasilkan video definisi tinggi.
Imagen Video mewarisi fungsi penggambaran teks secara akurat dari sistem gambar pembuatan teks Imagen sebelumnya, sehingga dapat menghasilkan berbagai animasi kreatif hanya dengan deskripsi sederhana.
Anggota tim saat ini ditampilkan di situs resmi.
“Tim pendiri kami telah memimpin proyek kecerdasan buatan transformatif di Google Brain, UC Berkeley, Universitas Carnegie Mellon, dan Universitas Toronto.” Situs resminya menunjukkan.
Mohammad Norouzi bekerja di Google Brain selama 7 tahun sebelum memulai bisnisnya sendiri. Level terakhir di Google adalah ilmuwan riset senior, dengan fokus pada model generatif. Ideogram AI memiliki cakupan pekerjaan dasar terluas dalam kecerdasan buatan, termasuk Imagen, Imagen Video, WaveGrad untuk sintesis ucapan, Neural Machine Translation, pembelajaran representasi visualStudi kontrastif, dan sebagainya. Anggota tim kolaboratif juga paling banyak.
Salah satu pendirinya, Jonathan Ho, lulusan Ph.D. dari UC Berkeley, telah melakukan begitu banyak upaya dalam model difusi sehingga kepergiannya dianggap oleh orang dalam industri sebagai kerugian besar bagi Google.
Pada bulan April 2022, Google mengusulkan Model Difusi Video (Video Diffusion Models), dan untuk pertama kalinya melaporkan hasil model difusi yang menghasilkan video dari teks (dengan hasil yang baik). Mohammad Norouzi dan Jonathan Ho adalah penulis utama artikel ini.
Jonathan Ho juga merupakan salah satu pendiri model difusi, dan mengusulkan model difusi denoising Model Probabilistik Difusi Denoising. (Menariknya, salah satu penulis bersama Pieter Abbeel juga merupakan investor di perusahaan ini).
Chitwan Saharia memimpin pengerjaan model difusi gambar-ke-gambar di Google. Selain karyanya pada model difusi, Willian chan mengerjakan Neural Speech Recognition saat berada di Google, bekerja dengan Mohammad Norouzi di WaveGrad untuk sintesis ucapan.
Mungkin karena kekhawatiran Google tentang keselamatan dan etika, Google perlu membuat peraturan lebih lanjut untuk memilih apakah akan open source Imagen dan Imagen Video. Tulang punggung ini memutuskan untuk meninggalkan bisnis.
“Kami mendorong batas-batas kecerdasan buatan, dengan fokus pada kreativitas dan standar kepercayaan dan keamanan yang tinggi.” Pengumuman resmi tersebut menyimpulkan.
Tangkapan layar situs resmi
Pada hari yang sama, perusahaan juga mengumumkan bahwa mereka telah mengumpulkan total $16,5 juta pendanaan awal yang dipimpin oleh a16z dan Index Ventures. Beberapa tulang punggung industri ternama pun ikut berpartisipasi dalam putaran investasi ini.
Misalnya saja Ryan Dahl, ayah dari Node.js, Raquel Urtasun, Kepala Ilmuwan di Uber, Jeff Dean, Andrej Karpathy, Pieter Abbeel, Tom Preston-Werner, pendiri GitHub.
Pada saat yang sama, perusahaan juga mengumumkan peluncuran versi beta publik v0.1. Kami juga hanya mengalaminya. Saat ini, hanya layanan pembuatan gambar dari teks yang disediakan. Pengoperasiannya sangat sederhana, cukup masukkan kebutuhan Anda, lalu pilih gaya dan proporsi gambar yang dihasilkan.
Kemampuan pemahaman sistem masih baik, terutama pemahaman teks yang perlu dihasilkan dalam gambar. Kerugiannya adalah kecepatan responsnya relatif lambat, instruksi berbahasa Mandarin tidak dapat dipahami, dan pemahaman spasial komposisi perlu ditingkatkan.
halaman operasi
"Ponyo menyelam ke dalam susu dengan dorphin", AI sepertinya tidak bisa memahami "susu" yang diperintahkan, namun memberikan gambaran sesuai dengan pemahamannya sendiri (laut).
Kami mengubah masukan: "Elon Musk bergandengan tangan dengan Lisa (blackpink) di dalam mobil Tesla, (sinematik)"
Pada dasarnya benar. Hanya saja keduanya punya masalah dengan wajahnya, ini Lisa?
Biarkan Musk melakukan perjalanan dan mencoba gaya Hanfu, dan hasilnya benar-benar seperti pahlawan.
「Elon Musk dengan rambut panjang dalam pakaian tradisional Tiongkok, foto」
"Blackpink Jennie tapi gendut banget, fotonya." Ya, begini penampakannya setelah berat badan bertambah.
Mari kita lihat hasil beberapa pengguna Twitter. Meskipun beberapa teks perlu dibuat dalam gambar yang dihasilkan, sistem dapat melakukannya.
例如, 「Antek menggemaskan yang memegang tanda bertuliskan 『Sudah berakhir, MidJourney』, dieja dengan tepat, render 3d, tipografi」
Teman-teman Twitter mengatakan bahwa meskipun sistem tidak selalu dapat mengeja dengan benar, tingkat keberhasilannya bagus.
「Seekor pikachu berbulu lucu berdiri di bulan berbulu besar, memegang lampu neon bertuliskan 『ke bulan』, render 3d」
Di antara film-film yang baru dirilis, baik "Barbie" dan "Oppenheimer" telah menarik lebih banyak perhatian. Pengguna Twitter meminta untuk membuat desain poster film tentang "Barbenheimer (Barbenheimer)", mengacu pada gaya Barbie dan senjata nuklir. Efeknya adalah sebagai berikut.
Meskipun informasi film kemungkinan besar akan muncul setelah batas waktu pelatihan, sistem masih menangani kata majemuk ini dengan baik. Juga, masalah lama, wajah karakternya kurang bagus.
「Kata『 surealis 』dieja dan ditampilkan dalam lukisan surealis gaya Dali, tipografi」
「manusia salju yang mencair di gunung berapi」
「Word『NVIDIA 』dirender dalam tipografi sirkuit chip GPU, cyperpunk, sci-fi」
「Gadis cantik dalam lukisan Dali, dengan tulisan『 Stanford 』, tipografi 」
Seekor kucing ragdoll bergaya dengan kacamata hitam Gucci memegang tanda bertuliskan Selamat Minggu, latar belakang hitam, poster
Ada 4 objek dalam adegan tersebut. Piramida merah terletak di atas kubus biru. Sebuah bola kuning terletak di bawah kubus biru. Segi enam marmer terletak di sebelah kiri piramida, dengan kubus biru di atasnya.
Tampaknya pemahaman sistem tentang komposisi dan ruang saat ini belum tepat.
Pamerkan karya di beranda lain.
Tautan yang dapat dimakan:
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
2 Suka
Hadiah
2
1
Bagikan
Komentar
0/400
GateUser-bcf7bb63
· 2023-12-19 01:44
Bagaimana cara mendaftarkannya, saya melihat tidak ada token, apakah Anda perlu mendaftar untuk mendapatkan poin?
Pertengahan perjalanan mengantarkan lawan terkuat, raksasa pembiayaan putaran awal berkumpul, dan versi beta memungkinkan Musk melewatinya dengan satu "kunci"
**Sumber:**Kekuatan Mesin
Pada tanggal 23 Agustus, Ideogram AI, sebuah startup kecerdasan buatan generatif, secara resmi mengumumkan: “Kami sedang mengembangkan alat kecerdasan buatan paling canggih untuk membuat ekspresi kreatif lebih mudah, lebih menyenangkan, dan lebih efisien.” Situs web resmi menulis.
Anggota inti tim juga merupakan anggota utama tim Google Brain Imagen, dan Ideogram AI juga dianggap mencoba meneruskan Imagen:
Mohammad Norouzi (CEO), Jonathan Ho (salah satu pendiri), William Chan, dan Chitwan Saharia adalah penulis inti model AI text-to-image Imagen Google, dan makalah terkait telah masuk dalam nominasi makalah NeurIPS 2022 Outstanding.
Imagen menggunakan model bahasa Transformer untuk mengubah teks masukan menjadi rangkaian vektor yang disematkan. Kemudian, serangkaian tiga model difusi (model difusi) akan mengubah vektor yang disematkan tersebut menjadi gambar berukuran 1024x1024 piksel.
Karena secara konseptual sederhana dan mudah untuk dilatih, dan juga dapat menghasilkan efek yang sangat kuat, Imagen tidak hanya membentuk kembali pemahaman semua orang tentang model difusi, tetapi juga membuka paradigma baru grafik Vincent di luar DALL-E 2.
Kemudian, setelah Meta mengumumkan model AI video teks Make-A-Video, Google merilis model video Imagen Video (lihat, namanya mirip), yang didasarkan pada model difusi video berjenjang untuk menghasilkan video definisi tinggi.
Imagen Video mewarisi fungsi penggambaran teks secara akurat dari sistem gambar pembuatan teks Imagen sebelumnya, sehingga dapat menghasilkan berbagai animasi kreatif hanya dengan deskripsi sederhana.
“Tim pendiri kami telah memimpin proyek kecerdasan buatan transformatif di Google Brain, UC Berkeley, Universitas Carnegie Mellon, dan Universitas Toronto.” Situs resminya menunjukkan.
Mohammad Norouzi bekerja di Google Brain selama 7 tahun sebelum memulai bisnisnya sendiri. Level terakhir di Google adalah ilmuwan riset senior, dengan fokus pada model generatif. Ideogram AI memiliki cakupan pekerjaan dasar terluas dalam kecerdasan buatan, termasuk Imagen, Imagen Video, WaveGrad untuk sintesis ucapan, Neural Machine Translation, pembelajaran representasi visualStudi kontrastif, dan sebagainya. Anggota tim kolaboratif juga paling banyak.
Salah satu pendirinya, Jonathan Ho, lulusan Ph.D. dari UC Berkeley, telah melakukan begitu banyak upaya dalam model difusi sehingga kepergiannya dianggap oleh orang dalam industri sebagai kerugian besar bagi Google.
Jonathan Ho juga merupakan salah satu pendiri model difusi, dan mengusulkan model difusi denoising Model Probabilistik Difusi Denoising. (Menariknya, salah satu penulis bersama Pieter Abbeel juga merupakan investor di perusahaan ini).
Chitwan Saharia memimpin pengerjaan model difusi gambar-ke-gambar di Google. Selain karyanya pada model difusi, Willian chan mengerjakan Neural Speech Recognition saat berada di Google, bekerja dengan Mohammad Norouzi di WaveGrad untuk sintesis ucapan.
Mungkin karena kekhawatiran Google tentang keselamatan dan etika, Google perlu membuat peraturan lebih lanjut untuk memilih apakah akan open source Imagen dan Imagen Video. Tulang punggung ini memutuskan untuk meninggalkan bisnis.
“Kami mendorong batas-batas kecerdasan buatan, dengan fokus pada kreativitas dan standar kepercayaan dan keamanan yang tinggi.” Pengumuman resmi tersebut menyimpulkan.
Pada hari yang sama, perusahaan juga mengumumkan bahwa mereka telah mengumpulkan total $16,5 juta pendanaan awal yang dipimpin oleh a16z dan Index Ventures. Beberapa tulang punggung industri ternama pun ikut berpartisipasi dalam putaran investasi ini.
Misalnya saja Ryan Dahl, ayah dari Node.js, Raquel Urtasun, Kepala Ilmuwan di Uber, Jeff Dean, Andrej Karpathy, Pieter Abbeel, Tom Preston-Werner, pendiri GitHub.
Pada saat yang sama, perusahaan juga mengumumkan peluncuran versi beta publik v0.1. Kami juga hanya mengalaminya. Saat ini, hanya layanan pembuatan gambar dari teks yang disediakan. Pengoperasiannya sangat sederhana, cukup masukkan kebutuhan Anda, lalu pilih gaya dan proporsi gambar yang dihasilkan.
Kemampuan pemahaman sistem masih baik, terutama pemahaman teks yang perlu dihasilkan dalam gambar. Kerugiannya adalah kecepatan responsnya relatif lambat, instruksi berbahasa Mandarin tidak dapat dipahami, dan pemahaman spasial komposisi perlu ditingkatkan.
"Ponyo menyelam ke dalam susu dengan dorphin", AI sepertinya tidak bisa memahami "susu" yang diperintahkan, namun memberikan gambaran sesuai dengan pemahamannya sendiri (laut).
Pada dasarnya benar. Hanya saja keduanya punya masalah dengan wajahnya, ini Lisa?
「Elon Musk dengan rambut panjang dalam pakaian tradisional Tiongkok, foto」
例如, 「Antek menggemaskan yang memegang tanda bertuliskan 『Sudah berakhir, MidJourney』, dieja dengan tepat, render 3d, tipografi」
Teman-teman Twitter mengatakan bahwa meskipun sistem tidak selalu dapat mengeja dengan benar, tingkat keberhasilannya bagus.
Meskipun informasi film kemungkinan besar akan muncul setelah batas waktu pelatihan, sistem masih menangani kata majemuk ini dengan baik. Juga, masalah lama, wajah karakternya kurang bagus.
Tampaknya pemahaman sistem tentang komposisi dan ruang saat ini belum tepat.