DALL·E 3 akan diluncurkan untuk pengujian! Masalah astronot yang menunggang kuda terpecahkan, 50 objek ditentukan dalam satu lukisan, dan Microsoft terlibat secara mendalam dalam penelitian yang belum pernah ada sebelumnya.

2023-09-24 06:19:46

Sumber: Qubit

Tes terbatas DALL·E 3 telah dibuka oleh Microsoft Bing terlebih dahulu. Lihat apakah Anda salah satu kaisar Eropa?

△ dari WindowsTerbaru

Tidak masalah jika Anda belum mendapatkan kualifikasinya, ditambah dengan preview riset pihak ketiga dan uji coba internal oleh karyawan OpenAI, berbagai test case bermunculan silih berganti, yang dijamin menyenangkan.

Yang paling dilebih-lebihkan adalah "50 objek berbeda muncul dalam gambar yang ditentukan", dan ratusan di antaranya digambar.

Selain penataan ubin yang sederhana, benda-benda tersebut bisa dipadukan dengan lebih kreatif.

Untuk konsep kontrafaktual astronot yang menunggang kuda, berbagai model OpenAI dan Google di masa lalu hanya dapat menggambar astronot yang menunggang kuda**.

Makalah ini umumnya dianggap sebagai kasus kegagalan, dan diejek oleh Marcus, seorang pesimis AI pada saat itu.

Kini, DALL·E 3 dapat dengan mudah mengatasinya dengan dukungan ChatGPT.

Kemajuan besar DALL·E 3 kali ini bukan hanya hasil usaha OpenAI sendiri, tetapi juga hasil kerjasama antara ** dan Microsoft**.

Meskipun tidak disebutkan dengan jelas, setidaknya tiga insinyur dan peneliti Microsoft terlibat dalam bagian penelitian dari daftar kontribusi, dan sebagian besar anggota bagian optimasi inferensi berasal dari tim Microsoft DeepSpeed.

Melihat kembali GPT-4, GPT-4 sebagian besar masih dikembangkan secara internal oleh OpenAI, dan kemudian diberikan akses terbuka ke Microsoft dan lembaga penelitian lainnya untuk pengujian.

Perubahan model kerja sama ini** juga mencerminkan hubungan yang semakin mendalam antara kedua perusahaan**.

Satu lukisan menentukan 50 objek

Dikonfirmasi oleh CEO Microsoft Bing Mikhail Parakhin, beberapa persen pengguna yang beruntung telah memenuhi syarat untuk tes ini.

Karena jumlah tempatnya sangat terbatas, netizen yang sudah tidak sabar mengutarakan idenya secara online dan meminta bantuan orang-orang yang memiliki akun untuk mengujinya.

Netizen yang mengusulkan untuk menggambar 50 objek berbeda hanya ingin menguji berapa banyak objek DALL·E 3 yang dapat ditampung dalam satu gambar, mirip dengan "jendela konteks" dari model bahasa besar.

Nathan Shipley, desainer pihak ketiga yang menerima versi pratinjau studi tersebut, menerima tantangan tersebut.

Pertama, ia meminta ChatGPT untuk membuat daftar 50 objek sehari-hari secara acak, lalu langsung diminta untuk menggambar objek tersebut dalam sebuah lukisan. Kata prompt lengkapnya adalah ChatGPT menyelesaikannya dengan sendirinya, lalu DALL·E 3 menggambarnya.

Selanjutnya Nathan bertanya, "Bisakah kamu membuat gambar seorang peselancar yang menumpuk benda-benda tersebut sambil berselancar dengan keras?"

ChatGPT menambahkan beberapa detail di kata prompt:

Seorang peselancar pria Polinesia paruh baya dengan kulit yang terkena sinar matahari memegang 50 benda saat dia berselancar dengan keras, termasuk cangkir teh, sepeda, payung... dan ekspresi tekad dan sedikit panik saat ombak menerjang di sekelilingnya. , mencoba menyeimbangkan benda-benda tersebut dan papan selancarnya.

Hasilnya, saya mendapatkan gambar yang pada dasarnya memenuhi persyaratan dalam sekali percobaan, hanya saja ekspresi karakternya lebih terlihat seperti panik ekstrem daripada panik ringan.

Belakangan, Nathan meminta perspektif yang lebih rendah. Kali ini, ChatGPT mengubah deskripsi karakter di kata cepat menjadi "seorang wanita tua Spanyol".

Para penonton menganggapnya sangat mengejutkan, tetapi juga menunjukkan mengapa ukuran pensil itu tidak proporsional dengan benda lain.

Beberapa orang berspekulasi bahwa model hanya mengetahui seperti apa suatu objek, tetapi tidak mengetahui ukuran relatifnya, terutama karena gambar pena yang dipublikasikan sering kali menggunakan bidikan close-up.

Selain itu, Nathan juga menanyakan dari ChatGPT parameter layar mana yang dapat dikontrol pengguna.

ChatGPT merespons sebagai berikut:

menggambarkan:

Anda dapat memberikan penjelasan detail tentang gambar yang diinginkan. Semakin spesifik dan detail Anda, maka gambar yang dihasilkan akan semakin mendekati keinginan Anda.

Gaya dan media:

Anda dapat menentukan gaya atau media gambar, seperti "Lukisan", "Foto", "Ilustrasi", "Kartun", "Cat Air", "Rendering 3D", dll.

Resolusi:

Secara default, gambar dihasilkan pada resolusi 1729x1024. Namun jika deskripsi Anda menyarankan potret ukuran penuh atau sesuatu yang lebih sesuai untuk rasio aspek tinggi, gambar akan dihasilkan pada 1024x1792. Anda juga dapat meminta resolusi persegi (1024x1024) jika diperlukan.

Jumlah gambar

: Jika Anda tidak menentukannya, saya biasanya membuat empat gambar berbeda berdasarkan deskripsi Anda. Namun, Anda dapat meminta nomor tertentu (maksimal empat).

Revisi

: Jika Anda tidak puas dengan hasil awal, Anda dapat memberikan masukan dan meminta modifikasi. Meskipun saya tidak dapat secara langsung mengubah gambar yang ada, saya dapat menggunakan masukan Anda untuk menghasilkan gambar baru yang lebih sesuai dengan visi Anda.

Benih acak

: Jika Anda ingin memodifikasi gambar sebelumnya, saya dapat menggunakan seed dalam metadata gambar tersebut untuk menghasilkan versi baru. Ini memastikan konsistensi tertentu antara gambar asli dan gambar yang dimodifikasi.

Tolong dicatat,

Beberapa batasan berlaku. Misalnya, gambaran tokoh masyarakat dan gaya seniman dalam 100 tahun terakhir tidak bisa diciptakan secara langsung.

Fokusnya ada di belakang:

**Namun, saya dapat menawarkan alternatif atau menggunakan kata sifat untuk menangkap esensi gaya tertentu tanpa mengutipnya secara langsung. **

Teka-teki Astronot Menunggang Kuda Terpecahkan

Di antara karyawan internal OpenAI, Will DePue adalah yang paling aktif mengungkapkan hasil uji coba DALL·E 3.

Dalam uji astronot menunggang kuda, ia mengatakan tidak 100% berhasil.

Anda dapat melakukannya dengan benar dalam dua atau tiga kali percobaan karena GPT-4 bekerja dengan Anda untuk menyempurnakan kata-kata perintah hingga Anda melakukannya dengan benar.

Dengan sedikit usaha, Anda bisa mendapatkan hampir semua hal yang Anda inginkan.

Beberapa netizen mencoba memanfaatkan MidJourney untuk mendapatkan hasil yang sama, namun hanya bisa dikatakan bahwa hal tersebut bukan sepenuhnya tidak mungkin, namun membutuhkan banyak usaha.

Hampir mustahil, membutuhkan banyak rekayasa petunjuk, dan sulit untuk direproduksi.

Jika Anda adalah pengguna MidJourney yang berpengalaman, Anda sebaiknya mencoba melihat apakah itu berhasil.

Dalam tantangan "8 Jerapah Minum Air" yang diusung netizen, DALL·E 3 kembali menunjukkan kelemahannya yaitu sulit menghitung secara akurat.

△ Hitung berapa banyak jerapah yang ada di gambar

Upaya yang lebih salah juga menghasilkan jerapah berkepala dua.

Membuat AI menghitung dengan benar kali ini tidak menyelesaikan masalah, tetapi setidaknya memecahkan masalah pemahaman hubungan spasial.

Dalam tantangan "Empat zebra berlari di padang rumput, seekor singa mengejar di belakang, dan seekor elang di atas, tidak ada hewan lain di gambar" yang diajukan oleh netizen, hubungan spasial pada dasarnya benar, tetapi ada tambahan zebra.

Sebagai perbandingan, DALL·E 2 dan Difusi Stabil memiliki pemahaman yang lebih buruk tentang hubungan spasial.

Adam Goldberg, yang bertanggung jawab atas ChatGPT versi perusahaan di OpenAI, juga memposting banyak hasil berkualitas tinggi, tetapi tidak menyampaikan pesan singkatnya.

Jerry Tworek, yang bertanggung jawab menulis kode AI dan alat pemanggil, telah menciptakan banyak lukisan konsep abstrak, seperti "Divisi Sel Mekanik".

dan "Pohon Program Komputer di Seluruh Galaksi".

Microsoft OpenAI bekerja sama

DALL·E 3 telah membuat kemajuan besar kali ini Selain mengintegrasikan ChatGPT, bagaimana sebenarnya bagian pembuatan gambar dilakukan?

Sayangnya, mengingat tren OpenAI yang semakin dekat, kemungkinan besar tidak akan menerbitkan makalah seperti dua generasi sebelumnya.Kami hanya bisa menebak-nebak dari daftar kontribusi.

Ada lima penulis dalam makalah DALL·E 2.

Sedangkan untuk DALL·E 3, terlepas dari produk, keamanan, komunikasi publik, dan tim hukum, 18 orang berpartisipasi di bagian penelitian saja.

Diantaranya adalah Yang Song, alumni Tsinghua yang mengusulkan Model Konsistensi.

Model konsistensi lebih cepat daripada model difusi paling populer, dan dapat menghasilkan 64.256*256 gambar dalam 3,5 detik.

Namun kontribusi penelitian Song Yang kali ini kecil, tidak dapat dipastikan apakah DALL·E 3 menggunakan model konsistensi, kemungkinan besar ia meminjam metodenya dalam model difusi yang ditingkatkan.

Selain itu, selain penulis DALL·E 2 dan Ouyang Long dari tim ChatGPT, setidaknya tiga peneliti berasal dari Microsoft.

Jianfeng Wang lulus dari Universitas Sains dan Teknologi Tiongkok dan menjabat sebagai kepala peneliti di Microsoft.

Dr. Lijuan Wang lulus dari Universitas Tsinghua dan bekerja sebagai direktur manajer riset di Microsoft.

Keduanya pernah berpartisipasi dalam penelitian NUWA-Ininity, sebuah generasi gambar kanvas tanpa batas.

Lindsey Li (Lindsey Li) adalah alumnus Institut Teknologi Beijing. Dia menerima dua gelar master masing-masing dari Universitas Purdue dan UC San Diego. Dia adalah peneliti senior di Microsoft dan telah menerbitkan banyak makalah konferensi terkemuka di bidangnya multimodalitas.

Selain penelitian, optimasi inferensi DALL·E 3 melibatkan partisipasi mendalam dari tim Microsoft DeepSpeed.

Deepspeed adalah pustaka pengoptimalan pembelajaran mendalam sumber terbuka yang mengurangi konsumsi daya komputasi dan penggunaan memori, serta melatih dan menyimpulkan model terdistribusi skala besar melalui paralelisme yang lebih baik pada perangkat keras yang ada.

Banyak dari mereka menyatakan kegembiraannya untuk berpartisipasi dalam pekerjaan ini dan sangat antusias dengan perilisan DALL·E 3.

Terakhir, di antara kontribusi khusus tersebut, CEO Bing Microsoft Mikhail Parakhin dan Chief Vice President Azure Cloud Misha Bilenko termasuk di antara mereka.

Microsoft juga mengonfirmasi dalam aktivitas rilis sebelumnya bahwa Bing akan langsung mengintegrasikan DALL·E 3.

Menurut aturan saat ini, DALL·E 2 di Bing gratis. Akan dikeluarkan 99 token percepatan, tanpa token hanya akan memakan waktu lebih lama untuk mengantri.

Meskipun DALL·E 3 akan dikenakan biaya US$20 per bulan di ChatGPT Plus pada bulan Oktober.

Namun karena GPT-4 disediakan gratis di Bing, Anda juga dapat menantikan gelombang DALL·E 3 permainan gratis di masa mendatang~

Tautan referensi:

[1]

[2]

[3]

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
1/3
1Simple Earn Annual Rate 24.4%
34k Popularitas
2Gate Launchpad List IKA
37k Popularitas
3ETH Trading Volume Surges
36k Popularitas
4Gate ETH 10th Anniversary Celebration
22k Popularitas
5Trump’s AI Strategy
18k Popularitas

Sematkan

peta situs