Model raja multi-modal GPT-4V, 166 halaman "instruksi" telah dirilis! Dan itu diproduksi oleh Tim Microsoft.
Jenis kertas apa yang bisa ditulis dalam 166 halaman?
Ini tidak hanya mengevaluasi kinerja GPT-4V secara rinci pada sepuluh tugas teratas, tetapi juga menunjukkan segalanya mulai dari pengenalan gambar dasar hingga penalaran logis yang kompleks;
Ini juga mengajarkan satu set lengkap model besar multi-modal keterampilan penggunaan kata tip——
Ini mengajarkan Anda langkah demi langkah cara menulis kata-kata cepat dari 0 hingga 1, dan tingkat profesional dari jawabannya mudah dipahami secara sekilas. Ini benar-benar membuat ambang batas untuk menggunakan GPT-4V tidak ada.
Perlu disebutkan bahwa penulis makalah ini juga merupakan "kelas yang semuanya orang Tionghoa". Ketujuh penulis semuanya adalah orang Tionghoa, dan pemimpinnya adalah seorang kepala manajer penelitian wanita yang telah bekerja di Microsoft selama 17 tahun.
Sebelum laporan setebal 166 halaman dirilis, mereka juga berpartisipasi dalam penelitian DALL·E 3 terbaru OpenAI dan memiliki pemahaman mendalam tentang bidang ini.
Dibandingkan dengan makalah GPT-4V OpenAI setebal 18 halaman, "Panduan Makan" setebal 166 halaman ini langsung dianggap sebagai bacaan wajib bagi pengguna GPT-4V segera setelah dirilis:
Beberapa netizen mengeluh: Ini bukan makalah, ini hampir seperti buku setebal 166 halaman.
Beberapa netizen pun sempat panik setelah membaca:
Jangan hanya melihat detail jawaban GPT-4V, saya sangat takut dengan potensi kemampuan AI.
Jadi, apa sebenarnya yang dibicarakan dalam "makalah" Microsoft, dan "potensi" apa yang ditunjukkannya tentang GPT-4V?
**Apa isi laporan Microsoft setebal 166 halaman? **
Makalah ini mempelajari metode GPT-4V, yang intinya mengandalkan satu kata-"coba".
Peneliti Microsoft merancang serangkaian masukan yang mencakup beberapa domain, memasukkannya ke GPT-4V, dan mengamati serta mencatat keluaran GPT-4V.
Selanjutnya, mereka mengevaluasi kemampuan GPT-4V dalam menyelesaikan berbagai tugas, dan juga memberikan teknik kata cepat baru untuk menggunakan GPT-4V, termasuk empat aspek utama:
**1. Penggunaan GPT-4V: **
5 cara penggunaan: masukan gambar (images), sub-gambar (sub-gambar), teks (teks), teks adegan (scene text) dan penunjuk visual (visual pointer).
3 kemampuan yang didukung: mengikuti instruksi, rangkaian pemikiran, dan pembelajaran beberapa kali dalam konteks.
Misalnya saja kemampuan mengikuti instruksi yang ditunjukkan oleh GPT-4V setelah mengubah metode bertanya berdasarkan rantai berpikir:
Diantaranya adalah "pertanyaan penalaran gambar" yang memerlukan IQ tertentu untuk menyelesaikannya:
**3. Keterampilan kata cepat untuk model multi-modal besar yang mirip dengan GPT-4V: **
Teknik kata isyarat multi-modal baru "pengarahan visual" diusulkan, yang dapat menunjukkan tugas yang menarik dengan mengedit langsung gambar masukan dan digunakan dalam kombinasi dengan teknik kata isyarat lainnya.
**4. Potensi penelitian dan implementasi model besar multimodal: **
Dua jenis bidang yang harus menjadi fokus peneliti pembelajaran multimodal telah diprediksi, termasuk implementasi (skenario penerapan potensial) dan arahan penelitian.
Misalnya, ini adalah salah satu kemungkinan skenario GPT-4V yang ditemukan oleh para peneliti - deteksi kesalahan:
Namun apakah itu teknologi kata cepat yang baru atau skenario penerapan GPT-4V, yang paling dikhawatirkan semua orang adalah kekuatan sebenarnya dari GPT-4V.
Oleh karena itu, "panduan instruksi" ini kemudian menggunakan lebih dari 150 halaman untuk menampilkan berbagai demo, merinci kemampuan GPT-4V dalam menghadapi jawaban yang berbeda.
Mari kita lihat sejauh mana kemampuan multimodal GPT-4V telah berkembang saat ini.
Mahir gambar di bidang profesional, dan juga bisa belajar ilmu sekarang
Identifikasi Gambar
Identifikasi paling mendasar tentu saja sangat mudah, seperti selebritas dari semua lapisan masyarakat di bidang teknologi, olahraga, dan hiburan:
Dan Anda tidak hanya dapat melihat siapa orang-orang tersebut, tetapi Anda juga dapat menafsirkan apa yang mereka lakukan.Misalnya, pada gambar di bawah ini, Huang sedang memperkenalkan produk kartu grafis baru Nvidia.
Selain orang, landmark juga menjadi hal yang mudah untuk GPT-4V, tidak hanya dapat menentukan nama dan lokasi, tetapi juga memberikan pengenalan secara detail.
△Kiri: Times Square, New York, kanan: Kuil Kinkakuji, Kyoto
Namun, semakin terkenal orang dan tempat, semakin mudah untuk menilai, sehingga diperlukan gambar yang lebih sulit untuk menunjukkan kemampuan GPT-4V.
Misalnya, dalam pencitraan medis, untuk CT paru berikut, GPT-4V memberikan kesimpulan berikut:
Terdapat konsolidasi dan kekeruhan ground-glass di beberapa area pada kedua paru, dan mungkin terdapat infeksi atau peradangan pada paru. Mungkin juga terdapat massa atau nodul di lobus atas paru kanan.
Bahkan tanpa memberi tahu GPT-4V mengenai jenis dan lokasi gambar, ia dapat menilainya sendiri.
Dalam gambar ini, GPT-4V berhasil mengidentifikasinya sebagai gambar magnetic resonance imaging (MRI) otak.
Pada saat yang sama, GPT-4V juga menemukan akumulasi cairan dalam jumlah besar, yang dianggap sebagai glioma tingkat tinggi.
Setelah penilaian profesional, kesimpulan yang diberikan oleh GPT-4V sepenuhnya benar.
Selain konten "serius" ini, emotikon "warisan budaya takbenda" masyarakat manusia kontemporer juga telah ditangkap oleh GPT-4V.
△Terjemahan mesin, hanya untuk referensi
Tidak hanya dapat menafsirkan meme dalam emoticon, emosi yang diungkapkan oleh ekspresi manusia di dunia nyata juga dapat dilihat oleh GPT-4.
Selain gambar nyata tersebut, pengenalan teks juga merupakan tugas penting dalam visi mesin.
Dalam hal ini, GPT-4V tidak hanya dapat mengenali bahasa yang dieja dengan karakter Latin, tetapi juga mengenali bahasa lain seperti China, Jepang, dan Yunani.
Bahkan rumus matematika tulisan tangan:
### Penalaran Gambar
DEMO yang ditunjukkan di atas, tidak peduli seberapa profesional atau sulitnya dipahami, masih dalam lingkup pengakuan, namun ini hanyalah puncak gunung es dari keterampilan GPT-4V.
Selain memahami isi gambar, GPT-4V juga memiliki kemampuan penalaran tertentu.
Sederhananya, GPT-4V dapat menemukan perbedaan antara kedua gambar tersebut (walaupun masih ada beberapa kesalahan).
Pada rangkaian gambar berikut, perbedaan antara mahkota dan haluan ditemukan oleh GPT-4V.
Jika tingkat kesulitannya ditingkatkan, GPT-4V juga dapat menyelesaikan masalah grafis pada tes IQ.
Ciri-ciri atau hubungan logis pada ketiga soal di atas relatif sederhana, namun kesulitan yang akan muncul selanjutnya adalah:
Tentu saja kesulitannya bukan terletak pada grafik itu sendiri, perhatikan deskripsi teks keempat pada gambar, susunan grafik pada pertanyaan awal tidak seperti yang terlihat pada gambar.
### Anotasi gambar
Selain menjawab berbagai pertanyaan dengan teks, GPT-4V juga dapat melakukan serangkaian operasi pada gambar.
Misalnya, kami memiliki foto grup empat raksasa AI, dan kami memerlukan GPT-4V untuk membingkai karakter dan memberi label nama serta perkenalan singkat mereka.
GPT-4V pertama-tama menjawab pertanyaan-pertanyaan ini dengan teks, lalu memberikan gambar yang telah diproses:
### Analisis Konten Dinamis
Selain konten statis ini, GPT-4V juga dapat melakukan analisis dinamis, namun tidak secara langsung memberikan video kepada model.
Kelima gambar di bawah ini diambil dari video tutorial membuat sushi, tugas GPT-4V adalah menebak urutan kemunculan gambar-gambar tersebut (berdasarkan pemahaman isinya).
Untuk rangkaian gambar yang sama, mungkin terdapat cara pemahaman yang berbeda. Inilah sebabnya GPT-4V akan membuat penilaian berdasarkan perintah teks.
Misalnya, pada rangkaian gambar berikut, apakah tindakan orang tersebut membuka pintu atau menutup pintu akan menghasilkan hasil penyortiran yang sepenuhnya berlawanan.
Tentu saja, melalui perubahan status karakter di beberapa gambar, kita juga bisa menyimpulkan apa yang mereka lakukan.
Atau bahkan memprediksi apa yang akan terjadi selanjutnya:
### "Pembelajaran di tempat"
GPT-4V tidak hanya memiliki kemampuan visual yang kuat, namun kuncinya adalah dapat segera dipelajari dan dijual.
Misalnya, jika GPT-4V diminta membaca dashboard mobil, jawaban awalnya salah:
Lalu saya memberikan metode GPT-4V dalam teks, tetapi jawaban ini masih salah:
Lalu saya tunjukkan contohnya ke GPT-4V, dan jawabannya serupa, tapi sayangnya angkanya dibuat secara acak.
Hanya satu contoh yang memang agak kecil, namun seiring bertambahnya jumlah sampel (sebenarnya hanya ada satu lagi), kerja keras akhirnya membuahkan hasil, dan GPT-4V memberikan jawaban yang benar.
GPT-4V hanya menampilkan begitu banyak efek. Tentu saja, juga mendukung lebih banyak bidang dan tugas. Tidak mungkin menampilkannya satu per satu di sini. Jika tertarik, Anda dapat membaca laporan aslinya.
Jadi, tim seperti apa yang berada di balik efek artefak seperti GPT-4V ini?
Pemimpin alumni Tsinghua
Total penulis makalah ini ada 7 orang, semuanya adalah orang Tionghoa, 6 di antaranya adalah penulis inti.
Penulis utama proyek ini, Lijuan Wang, adalah manajer riset utama komputasi awan dan AI di Microsoft.
Beliau lulus dari Universitas Sains dan Teknologi Huazhong dan menerima gelar PhD dari Universitas Tsinghua di Tiongkok. Beliau bergabung dengan Microsoft Research Asia pada tahun 2006 dan Microsoft Research di Redmond pada tahun 2016.
Bidang penelitiannya adalah pembelajaran mendalam dan pembelajaran mesin berdasarkan kecerdasan perseptual multi-modal, yang secara khusus mencakup pra-pelatihan model bahasa visual, pembuatan subtitle gambar, deteksi target, dan teknologi AI lainnya.
Alamat asli:
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Microsoft telah menulis manual GPT-4V: 166 halaman penjelasan lengkap dan mendetail, termasuk contoh demo kata cepat.
Sumber: Qubit
Model raja multi-modal GPT-4V, 166 halaman "instruksi" telah dirilis! Dan itu diproduksi oleh Tim Microsoft.
Jenis kertas apa yang bisa ditulis dalam 166 halaman?
Ini tidak hanya mengevaluasi kinerja GPT-4V secara rinci pada sepuluh tugas teratas, tetapi juga menunjukkan segalanya mulai dari pengenalan gambar dasar hingga penalaran logis yang kompleks;
Ini juga mengajarkan satu set lengkap model besar multi-modal keterampilan penggunaan kata tip——
Ini mengajarkan Anda langkah demi langkah cara menulis kata-kata cepat dari 0 hingga 1, dan tingkat profesional dari jawabannya mudah dipahami secara sekilas. Ini benar-benar membuat ambang batas untuk menggunakan GPT-4V tidak ada.
Sebelum laporan setebal 166 halaman dirilis, mereka juga berpartisipasi dalam penelitian DALL·E 3 terbaru OpenAI dan memiliki pemahaman mendalam tentang bidang ini.
Dibandingkan dengan makalah GPT-4V OpenAI setebal 18 halaman, "Panduan Makan" setebal 166 halaman ini langsung dianggap sebagai bacaan wajib bagi pengguna GPT-4V segera setelah dirilis:
**Apa isi laporan Microsoft setebal 166 halaman? **
Makalah ini mempelajari metode GPT-4V, yang intinya mengandalkan satu kata-"coba".
Peneliti Microsoft merancang serangkaian masukan yang mencakup beberapa domain, memasukkannya ke GPT-4V, dan mengamati serta mencatat keluaran GPT-4V.
Selanjutnya, mereka mengevaluasi kemampuan GPT-4V dalam menyelesaikan berbagai tugas, dan juga memberikan teknik kata cepat baru untuk menggunakan GPT-4V, termasuk empat aspek utama:
**1. Penggunaan GPT-4V: **
5 cara penggunaan: masukan gambar (images), sub-gambar (sub-gambar), teks (teks), teks adegan (scene text) dan penunjuk visual (visual pointer).
3 kemampuan yang didukung: mengikuti instruksi, rangkaian pemikiran, dan pembelajaran beberapa kali dalam konteks.
Misalnya saja kemampuan mengikuti instruksi yang ditunjukkan oleh GPT-4V setelah mengubah metode bertanya berdasarkan rantai berpikir:
Pemahaman visual dunia terbuka, deskripsi visual, pengetahuan multimodal, akal sehat, pemahaman teks adegan, penalaran dokumen, pengkodean penulisan, penalaran temporal, penalaran abstrak, pemahaman emosi
Diantaranya adalah "pertanyaan penalaran gambar" yang memerlukan IQ tertentu untuk menyelesaikannya:
Teknik kata isyarat multi-modal baru "pengarahan visual" diusulkan, yang dapat menunjukkan tugas yang menarik dengan mengedit langsung gambar masukan dan digunakan dalam kombinasi dengan teknik kata isyarat lainnya.
Dua jenis bidang yang harus menjadi fokus peneliti pembelajaran multimodal telah diprediksi, termasuk implementasi (skenario penerapan potensial) dan arahan penelitian.
Misalnya, ini adalah salah satu kemungkinan skenario GPT-4V yang ditemukan oleh para peneliti - deteksi kesalahan:
Mari kita lihat sejauh mana kemampuan multimodal GPT-4V telah berkembang saat ini.
Mahir gambar di bidang profesional, dan juga bisa belajar ilmu sekarang
Identifikasi Gambar
Identifikasi paling mendasar tentu saja sangat mudah, seperti selebritas dari semua lapisan masyarakat di bidang teknologi, olahraga, dan hiburan:
Namun, semakin terkenal orang dan tempat, semakin mudah untuk menilai, sehingga diperlukan gambar yang lebih sulit untuk menunjukkan kemampuan GPT-4V.
Misalnya, dalam pencitraan medis, untuk CT paru berikut, GPT-4V memberikan kesimpulan berikut:
Dalam gambar ini, GPT-4V berhasil mengidentifikasinya sebagai gambar magnetic resonance imaging (MRI) otak.
Pada saat yang sama, GPT-4V juga menemukan akumulasi cairan dalam jumlah besar, yang dianggap sebagai glioma tingkat tinggi.
Setelah penilaian profesional, kesimpulan yang diberikan oleh GPT-4V sepenuhnya benar.
Tidak hanya dapat menafsirkan meme dalam emoticon, emosi yang diungkapkan oleh ekspresi manusia di dunia nyata juga dapat dilihat oleh GPT-4.
Dalam hal ini, GPT-4V tidak hanya dapat mengenali bahasa yang dieja dengan karakter Latin, tetapi juga mengenali bahasa lain seperti China, Jepang, dan Yunani.
DEMO yang ditunjukkan di atas, tidak peduli seberapa profesional atau sulitnya dipahami, masih dalam lingkup pengakuan, namun ini hanyalah puncak gunung es dari keterampilan GPT-4V.
Selain memahami isi gambar, GPT-4V juga memiliki kemampuan penalaran tertentu.
Sederhananya, GPT-4V dapat menemukan perbedaan antara kedua gambar tersebut (walaupun masih ada beberapa kesalahan).
Pada rangkaian gambar berikut, perbedaan antara mahkota dan haluan ditemukan oleh GPT-4V.
Tentu saja kesulitannya bukan terletak pada grafik itu sendiri, perhatikan deskripsi teks keempat pada gambar, susunan grafik pada pertanyaan awal tidak seperti yang terlihat pada gambar.
Selain menjawab berbagai pertanyaan dengan teks, GPT-4V juga dapat melakukan serangkaian operasi pada gambar.
Misalnya, kami memiliki foto grup empat raksasa AI, dan kami memerlukan GPT-4V untuk membingkai karakter dan memberi label nama serta perkenalan singkat mereka.
Selain konten statis ini, GPT-4V juga dapat melakukan analisis dinamis, namun tidak secara langsung memberikan video kepada model.
Kelima gambar di bawah ini diambil dari video tutorial membuat sushi, tugas GPT-4V adalah menebak urutan kemunculan gambar-gambar tersebut (berdasarkan pemahaman isinya).
Misalnya, pada rangkaian gambar berikut, apakah tindakan orang tersebut membuka pintu atau menutup pintu akan menghasilkan hasil penyortiran yang sepenuhnya berlawanan.
GPT-4V tidak hanya memiliki kemampuan visual yang kuat, namun kuncinya adalah dapat segera dipelajari dan dijual.
Misalnya, jika GPT-4V diminta membaca dashboard mobil, jawaban awalnya salah:
Jadi, tim seperti apa yang berada di balik efek artefak seperti GPT-4V ini?
Pemimpin alumni Tsinghua
Total penulis makalah ini ada 7 orang, semuanya adalah orang Tionghoa, 6 di antaranya adalah penulis inti.
Bidang penelitiannya adalah pembelajaran mendalam dan pembelajaran mesin berdasarkan kecerdasan perseptual multi-modal, yang secara khusus mencakup pra-pelatihan model bahasa visual, pembuatan subtitle gambar, deteksi target, dan teknologi AI lainnya.
Alamat asli: