GPT-4V belajar menjelajahi Internet dengan keyboard dan mouse, dan manusia menontonnya memposting dan bermain game

Sumber artikel: qubits

GPT-4V belajar mengoperasikan komputer secara otomatis, dan hari akhirnya tiba.

Anda hanya perlu mencolokkan mouse dan keyboard ke GPT-4V, dan dapat menjelajahi Internet sesuai dengan antarmuka browser:

Anda bahkan dapat dengan cepat mengetahui situs web dan tombol pemutar untuk "memutar musik", dan memberi diri Anda musik:

Bukankah itu sedikit menakutkan?

Ini adalah pekerjaan baru yang dibuat oleh saudara sarjana MIT, bernama GPT-4V-Act.

Hanya dengan beberapa alat sederhana, GPT-4V dapat belajar mengontrol keyboard dan mouse Anda, menggunakan browser untuk memposting online, membeli bahan makanan, dan bahkan bermain game.

Jika ada yang tidak beres dengan alat yang digunakan, GPT-4V bahkan akan menyadarinya dan mencoba memperbaikinya.

Begini caranya.

Ajarkan GPT-4V untuk "menjelajahi Internet secara otomatis"

GPT-4V-Act, yang pada dasarnya adalah asisten multimodal AI berbasis browser web (Chromium Copilot).

Itu dapat "melihat" antarmuka web dengan mouse, keyboard, dan layar seperti manusia, dan menggunakan tombol interaktif di halaman web untuk mengambil langkah berikutnya.

Untuk mencapai efek ini, selain GPT-4V, tiga alat digunakan.

Salah satunya adalah antarmuka UI, yang memungkinkan GPT-4V untuk "melihat" tangkapan layar halaman web, dan juga memungkinkan pengguna untuk berinteraksi dengan GPT-4V.

Dengan cara ini, GPT-4V dapat mencerminkan gagasan setiap langkah dalam bentuk kotak dialog, dan pengguna dapat memutuskan apakah akan terus mengoperasikannya.

Yang lainnya adalah alat Set-of-Mark ing (SoM), alat yang memungkinkan GPT-4V belajar berinteraksi.

Alat ini diciptakan oleh Microsoft untuk merekayasa kata-kata cepat dengan lebih baik untuk GPT-4V.

Alih-alih membiarkan GPT-4V secara langsung "melihat gambar dan berbicara", alat ini dapat membagi detail utama gambar menjadi beberapa bagian dan menomorinya, sehingga GPT-4V dapat ditargetkan:

Hal yang sama berlaku untuk web, di mana Set-of-Mark menggunakan pendekatan serupa untuk memberi tahu GPT-4V bagian mana dari browser web untuk mencari jawabannya dan berinteraksi dengannya.

Terakhir, Anda juga perlu menggunakan pelabel otomatis JS DOM, yang dapat menandai semua tombol interaktif di sisi web, dan membiarkan GPT-4V memutuskan mana yang akan ditekan.

Setelah serangkaian proses, GPT-4V tidak hanya dapat secara akurat menentukan konten mana pada gambar yang memenuhi kebutuhan, tetapi juga secara akurat menemukan tombol interaktif dan belajar untuk "menjelajahi Internet secara otomatis".

Ini adalah proyek besar, dan hanya beberapa fitur yang telah diterapkan sejauh ini, termasuk mengklik, mengetik interaksi, anotasi otomatis, dll.

Selanjutnya, ada fitur lain untuk diterapkan, seperti mencoba penanda AI (interaksi saat ini di sisi web masih melalui antarmuka JS untuk mengetahui di mana harus berinteraksi dan bukan pengenalan AI), dan mendorong pengguna untuk memasukkan informasi terperinci.

Selain itu, penulis juga menyebutkan bahwa masih ada beberapa poin yang harus diperhatikan dalam penggunaan GPT-4V-Act pada tahap ini.

Misalnya, GPT-4V-Act mungkin "bingung" dengan iklan pop-up yang luar biasa setelah halaman web dibuka, dan kemudian akan ada bug interaksi.

Contoh lain adalah bahwa permainan semacam ini dapat melanggar peraturan penggunaan produk OpenAI:

Kecuali sebagaimana diizinkan oleh API, Anda tidak boleh menggunakan metode otomatis atau terprogram apa pun untuk mengekstrak data dari Layanan dan output, termasuk scraping, web harvesting, atau web data extraction.

Jadi Anda juga harus rendah hati saat menggunakannya (doge)

Penulis Microsoft SoM juga datang untuk menonton

Setelah proyek itu diposting online, itu menarik banyak penonton.

Misalnya, penulis alat Set-of-Mark Microsoft yang digunakan oleh saudara laki-laki saya menemukan proyek ini:

Kerja bagus!

Beberapa netizen menyebutkan bahwa itu bahkan dapat digunakan untuk membuat AI membaca kode verifikasi dengan sendirinya.

Seperti disebutkan dalam proyek SoM, GPT-4V dapat berhasil menguraikan CAPTCHA (jadi Anda mungkin tidak tahu apakah itu manusia atau mesin yang berselancar di Internet di masa depan.)

)。

Pada saat yang sama, beberapa netizen sudah membayangkan pengoperasian otomatisasi desktop.

Yang penulis tanggapi:

auto-annotator AI harus dapat melakukan ini, dan saya berencana untuk membuat Copilot yang lebih umum.

Namun, saat ini GPT-4V masih harus diisi dayanya, apakah ada cara lain untuk menerapkannya?

Para penulis juga mengatakan bahwa belum ada, tetapi mereka dapat mencoba model open source seperti Fuyu-8B atau LLa.

Asisten AI streaming desktop otomatis gratis dapat diharapkan menjadi gelombang jauh.

Link Referensi:
[1]
[2]

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 1
  • Posting ulang
  • Bagikan
Komentar
0/400
GoodFortuneComesvip
· 2023-11-05 05:24
AI berkembang menjadi dewasa, bukankah menakutkan [terkejut]
Lihat AsliBalas0
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)