Kemampuan multi-modal ChatGPT memicu kegemaran, namun makalahnya sendiri mengungkapkan bahwa GPT-4V masih memiliki kekurangan

Ditulis oleh Kyle Wiggers

Sumber: TechCrunch

Sumber gambar: dihasilkan oleh alat AI Tanpa Batas

Ketika OpenAI pertama kali merilis model AI generasi teks andalannya, GPT-4, perusahaan tersebut memuji multimodalitas model tersebut -- dengan kata lain, kemampuannya untuk memahami tidak hanya teks tetapi juga gambar. OpenAI mengatakan GPT-4 dapat memberi teks dan bahkan menjelaskan gambar yang relatif kompleks, seperti mengidentifikasi adaptor Kabel Lightning dari gambar iPhone yang dicolokkan ke dalamnya.

Namun sejak GPT-4 dirilis pada akhir Maret, OpenAI tetap mempertahankan kemampuan pencitraan model tersebut, yang dilaporkan karena kekhawatiran tentang penyalahgunaan dan masalah privasi. Sampai saat ini, sifat sebenarnya dari kekhawatiran ini masih menjadi misteri. Awal pekan ini, OpenAI menerbitkan makalah teknis yang merinci upayanya untuk mengurangi aspek bermasalah pada alat analisis gambar GPT-4.

Hingga saat ini, GPT-4 yang dilengkapi penglihatan (secara internal disebut sebagai "GPT-4V" di OpenAI) hanya digunakan secara teratur oleh ribuan pengguna Be My Eyes, sebuah aplikasi yang membantu orang-orang tunanetra dan tunanetra menavigasi lingkungan sekitar mereka. Namun, selama beberapa bulan terakhir, OpenAI juga mulai bekerja sama dengan “petugas tim merah” untuk mengeksplorasi model tanda-tanda perilaku yang tidak terduga, menurut surat kabar tersebut.

Dalam makalah tersebut, OpenAI mengklaim bahwa mereka memiliki perlindungan untuk mencegah GPT-4V digunakan secara jahat, seperti memecahkan CAPTCHA, mengidentifikasi seseorang atau memperkirakan usia atau rasnya, dan menarik kesimpulan berdasarkan informasi yang tidak ada dalam foto. . OpenAI juga mengatakan pihaknya telah berupaya menekan bias yang lebih berbahaya dalam GPT-4V, khususnya yang terkait dengan penampilan, jenis kelamin, atau ras seseorang.

Namun seperti semua model AI, upaya perlindungan hanya bisa dilakukan sejauh ini.

Makalah ini menunjukkan bahwa GPT-4V terkadang kesulitan membuat kesimpulan yang benar, misalnya dengan menggabungkan dua rangkaian teks dalam sebuah gambar secara salah sehingga menghasilkan istilah fiktif. Seperti basis GPT-4, GPT-4V rentan terhadap halusinasi, atau mengarang fakta dengan nada berwibawa. Selain itu, ia melewatkan kata atau karakter, mengabaikan simbol matematika, dan gagal mengenali objek dan pengaturan tempat yang cukup jelas.

Maka tidak mengherankan jika OpenAI secara eksplisit menyatakan bahwa GPT-4V tidak dapat digunakan untuk mengenali zat atau bahan kimia berbahaya dalam gambar. (Reporter ini bahkan tidak memikirkan kasus penggunaan seperti itu, namun tampaknya OpenAI cukup tertarik dengan prospek tersebut sehingga perusahaan merasa perlu untuk menunjukkannya). Tim merah menemukan bahwa meskipun model tersebut terkadang dengan benar mengidentifikasi makanan beracun, seperti jamur beracun, model tersebut juga salah mengidentifikasi zat seperti fentanil, karfentanil, dan kokain dalam gambar struktur kimia.

GPT-4V juga memiliki kinerja yang buruk ketika diterapkan pada pencitraan medis, terkadang memberikan jawaban yang salah terhadap pertanyaan yang sama padahal telah dijawab dengan benar pada situasi sebelumnya. Selain itu, GPT-4V tidak mengetahui beberapa praktik standar, seperti melihat pemindaian gambar dengan pasien menghadap Anda (artinya sisi kanan gambar sama dengan sisi kiri pasien), yang juga dapat menyebabkan kesalahan diagnosis.

Di tempat lain, OpenAI memperingatkan, GPT-4V juga tidak memahami nuansa simbol kebencian tertentu -- misalnya, GPT-4V tidak mengetahui arti modern dari Temple Cross (untuk supremasi kulit putih) di Amerika Serikat. Yang lebih aneh lagi, dan mungkin merupakan gejala dari kecenderungan halusinasinya, GPT-4V pernah diamati membuat lagu atau puisi yang memuji tokoh atau kelompok tertentu yang penuh kebencian ketika diberi gambar tentang mereka, meskipun tokoh atau kelompok tersebut tidak terwakili.

GPT-4V juga mendiskriminasi gender dan tipe tubuh tertentu -- meskipun hanya jika perlindungan hasil panen OpenAI dinonaktifkan. Dalam sebuah tes, ketika diminta untuk memberikan nasehat kepada seorang wanita yang mengenakan pakaian renang, GPT-4V memberikan jawaban yang hampir seluruhnya berkaitan dengan konsep berat badan dan kondisi fisik wanita tersebut, tulis OpenAI. Kami menduga hal ini tidak akan terjadi jika orang dalam gambar tersebut adalah laki-laki.

Dilihat dari peringatan yang ada di makalah ini, GPT-4V masih dalam tahap pengembangan -- masih beberapa langkah lagi dari visi awal OpenAI. Dalam banyak kasus, perusahaan harus menerapkan pengamanan yang terlalu ketat untuk mencegah model menyebarkan informasi yang beracun atau salah atau membahayakan privasi pribadi.

OpenAI mengklaim sedang membangun “mitigasi” dan “proses” untuk memperluas kemampuan model dengan cara yang “aman”, seperti memungkinkan GPT-4V mendeskripsikan wajah dan orang tanpa menyebutkan nama mereka. Namun makalah ini menunjukkan bahwa GPT-4V tidak mahakuasa, dan OpenAI masih memiliki banyak pekerjaan yang harus diselesaikan.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)