Larangan Multimodal ChatGPT Dicabut, Netizen Bikin Gila!

**Sumber:**Xinzhiyuan

Pada hari Rabu, OpenAI baru saja mengumumkan pencabutan larangan kemampuan multi-modal ChatGPT.

Kini begitu online, netizen langsung menggila.

Selanjutnya, mari kita lihat seberapa kuat kemampuan pengenalan gambar ChatGPT.

Ambil foto dan unggah, dan kode akan langsung dibuat

Seorang netizen merekam video dan mengunggah gambar papan tulis saat rapat, lalu meminta ChatGPT untuk menuliskan kodenya.

Selain itu, Anda juga dapat mengunggah sketsa gambar tangan dan meminta ChatGPT untuk membuat halaman web dalam HTML.

Whoosh whoosh, kodenya keluar setiap menit.

Ini hanyalah kemampuan multimodal yang ditunjukkan oleh Greg Brockman ketika GPT-4 baru saja dirilis tahun ini.

Contoh lainnya, ambil foto buku catatan daftar tugas Anda.

Lalu biarkan GPT-4 membuat GUI Python Tkinter, lalu diimplementasikan...

Naskah gulungan kuno, sekilas diterjemahkan

Ini gambar manuskrip lain dari alkemis abad ke 17 Robert Boyle, bisakah GPT-4 membacanya?

Ini sangat mudah untuk itu.

Misalnya, "Panduan Obat Catalan tentang Obat Mumi".

ChatGPT juga dapat menyalin dan menerjemahkan.

Benjamin Breen, profesor sejarah di UCSC, berkata,

Hal ini akan berdampak besar bagi para sejarawan. Bayangkan GPT-4 multi-modal khusus yang dilatih pada kumpulan manuskrip tertentu. Ia tidak hanya dapat menyalin, tetapi juga menerjemahkan dan mengklasifikasikan. (Inilah, menulis tanpa LLM, itulah masalah besar menurut saya).

Ringkasan grafiknya juga sangat 6

Anda juga dapat memerintahkan GPT-4 untuk mengekstrak data berdasarkan bagan.

Kode Python kemudian dapat dibuat untuk mereplikasi bagan dan membuatnya lebih mirip bagan.

Kemudian masukkan grafik tren saham ke dalamnya, dan itu juga dapat menganalisis dan merangkum karakteristiknya.

Kenali gambar "IQ Unggul"

Berikan GPT-4 gambar abstrak.

Gambar tersebut sebenarnya dapat secara akurat mengidentifikasi metafora "pentingnya komunikasi" yang ingin diungkapkan oleh keempat gambar ini.

GPT-4V bahkan bisa membaca tulisan tangan dokter.

Beberapa netizen Jepang langsung menggunakan Sun Wukong dari "Dragon Ball" untuk mengikuti tes ChatGPT.

Ada juga berbagai kode verifikasi untuk "apakah kamu manusia?"

Unggah karya Anda sendiri, dan GPT-4 juga dapat memberi Anda saran untuk perbaikan.

Beberapa netizen menemukan bahwa GPT-4V memberikan jawaban yang benar atas pertanyaan tersebut di makalah kosmos-1, namun terdapat kesalahan dalam proses penalarannya.

Dengan fitur ini, anak tidak perlu lagi mengerjakan pekerjaan rumah.

Rangkuman dari netizen

Selain pengalaman di atas, beberapa netizen menulis artikel panjang yang memperkenalkan pengujian GPT-4V mereka sendiri.

Tes 1: Pertanyaan dan Jawaban Visual

Beri saya emotikon dan lihat seberapa baik GPT-4V memahaminya?

GPT-4V berhasil menjelaskan mengapa ini menarik dan menyebutkan masing-masing komponen gambar dan bagaimana mereka terhubung.

Perlu dicatat bahwa GPT-4V mampu membaca dan menanggapi komentar dalam tanda kurung yang diberikan.

Meskipun demikian, GPT-4V masih melakukan kesalahan dengan menandai ayam goreng tersebut sebagai "NVIDIA BURGER" dan bukan "GPU".

Kemudian, uji lagi dengan koin, foto satu sen Amerika. GPT-4V berhasil mengidentifikasi asal dan denominasi koin.

Tapi kalau gambarnya banyak koin dan tanya GPT-4V, berapa uang yang saya punya?

Pada titik ini, ia hanya dapat mengidentifikasi jumlah koin, tetapi tidak dapat mengidentifikasi jenis mata uangnya.

Tes 2: Pengenalan OCR

Ambil gambar teks dari halaman web dan unggah. GPT-4V dapat membaca konten dengan sangat baik.

Tes 3: OCR Matematika

OCR matematika adalah bentuk khusus pengenalan karakter optik yang menargetkan persamaan matematika.

Seorang netizen menanyakan soal matematika kepada GPT-4V dan menyajikannya dalam bentuk screenshot dokumen.

Soal ini melibatkan penghitungan panjang garis ritsleting dengan 2 sudut, dengan perintah "selesaikan" pada gambar.

Model tersebut mengidentifikasi masalah yang dapat diselesaikan dengan menggunakan trigonometri, mengidentifikasi fungsi yang akan digunakan, dan memberikan panduan langkah demi langkah tentang cara menyelesaikan masalah tersebut. GPT-4V kemudian memberikan jawaban yang benar atas pertanyaan tersebut.

Meskipun demikian, kartu sistem GPT-4V menyatakan bahwa model tersebut mungkin tidak memiliki simbol matematika.

Tes yang berbeda, termasuk tes dengan persamaan atau ekspresi yang ditulis dengan tangan di atas kertas, mungkin menunjukkan kurangnya kemampuan model untuk menjawab pertanyaan matematika.

Tes 4: Deteksi Objek

Meminta GPT-4V untuk mendeteksi anjing dalam gambar dan memberikan nilai x_min, y_min, x_max, dan y_max terkait dengan posisi anjing, koordinat kotak pembatas yang dikembalikan oleh GPT-4V tidak cocok posisi anjing itu.

Meskipun GPT-4V sangat ampuh dalam menjawab pertanyaan gambar, model ini tidak dapat menggantikan model deteksi objek yang menyempurnakan saat Anda ingin mengetahui lokasi suatu objek dalam gambar.

Tes 5: Kode verifikasi

GPT-4V ternyata mampu mengenali gambar yang berisi kode verifikasi, namun sering kali gagal dalam pengujian.

Dalam contoh pemilihan jaringan lampu lalu lintas, GPT-4V memilih lebih sedikit jaringan yang berisi lampu lalu lintas.

Tes 6: Teka-Teki Silang dan Sudoku

Dalam tes Sudoku, GPT-4V mengenali permainan tersebut tetapi salah memahami struktur papan sehingga memberikan hasil yang tidak akurat.

Omong-omong, fungsi jaringan ChatGPT telah kembali.

Referensi:

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)