GPT-4V, klavye ve fare ile internette gezinmeyi öğrendi ve insanlar onu oyun yayınlamayı ve oyun oynamayı izledi

Makale kaynağı: kübitler

GPT-4V, bilgisayarları otomatik olarak çalıştırmayı öğrendi ve sonunda o gün geldi.

GPT-4V'ye yalnızca fare ve klavye takmanız yeterlidir ve tarayıcı arayüzüne göre internette gezinebilir:

Hatta oynatıcının web sitesini ve "müzik çal" düğmesini hızlı bir şekilde bulabilir ve kendinize bir parça müzik verebilirsiniz:

Biraz korkutucu değil mi?

Bu, bir MIT lisans kardeşi tarafından GPT-4V-Act adında yapılan yeni bir iş.

GPT-4V, yalnızca birkaç basit araçla klavyenizi ve farenizi kontrol etmeyi, çevrimiçi paylaşım yapmak, yiyecek satın almak ve hatta oyun oynamak için tarayıcıyı kullanmayı öğrenebilir.

Kullanılan araçta bir şeyler ters giderse, GPT-4V bunun farkında bile olacak ve düzeltmeye çalışacaktır.

İşte nasıl.

GPT-4V'ye "internette otomatik olarak gezinmeyi" öğretin

GPT-4V-Act, esasen bir web tarayıcısı tabanlı AI multimodal asistanıdır (Chromium Copilot).

Web arayüzünü tıpkı bir insan gibi fare, klavye ve ekranla "görebilir" ve bir sonraki adımı atmak için web sayfasındaki etkileşimli tuşları kullanabilir.

Bu etkiyi elde etmek için GPT-4V'ye ek olarak üç araç kullanılır.

Bunlardan biri, GPT-4V'nin web sayfalarının ekran görüntülerini "görmesine" ve ayrıca kullanıcıların GPT-4V ile etkileşime girmesine olanak tanıyan UI arayüzüdür.

Bu şekilde GPT-4V, her adımın fikrini bir iletişim kutusu şeklinde yansıtabilir ve kullanıcı, onu çalıştırmaya devam edip etmeyeceğine karar verebilir.

Diğeri ise GPT-4V'nin etkileşimi öğrenmesini sağlayan bir araç olan İşaretleme Seti (SoM) aracıdır.

Bu araç, GPT-4V için istem sözcüklerini daha iyi tasarlamak için Microsoft tarafından icat edildi.

GPT-4V'nin doğrudan "resme bakmasına ve konuşmasına" izin vermek yerine, bu araç görüntünün temel ayrıntılarını farklı parçalara bölebilir ve bunları numaralandırabilir, böylece GPT-4V hedeflenebilir:

Aynı şey, Set-of-Marking'in GPT-4V'nin web tarayıcısının hangi bölümünden yanıt arayacağını ve onunla etkileşime gireceğini bilmesini sağlamak için benzer bir yaklaşım kullandığı web için de geçerlidir.

Son olarak, web tarafındaki tüm etkileşimli düğmeleri işaretleyebilen ve hangisine basılacağına GPT-4V'nin karar vermesine izin veren bir JS DOM otomatik etiketleyici kullanmanız gerekir.

Bir dizi işlemden sonra GPT-4V, yalnızca resimdeki hangi içeriğin ihtiyaçları karşıladığını doğru bir şekilde belirlemekle kalmaz, aynı zamanda etkileşimli düğmeleri doğru bir şekilde bulur ve "internette otomatik olarak gezinmeyi" öğrenir.

Bu büyük bir proje ve şu ana kadar tıklama, yazma etkileşimi, otomatik açıklama vb. dahil olmak üzere yalnızca bazı özellikler uygulandı.

Ardından, AI işaretçisini denemek (web tarafındaki mevcut etkileşim, AI tanıma değil, nerede etkileşime girileceğini bilmek için hala JS arayüzü aracılığıyladır) ve kullanıcıdan ayrıntılı bilgi girmesini istemek gibi uygulanması gereken başka özellikler de vardır.

Ayrıca yazar, bu aşamada GPT-4V-Act kullanımında hala dikkat edilmesi gereken bazı noktalar olduğundan da bahsetmiştir.

Örneğin, GPT-4V-Act, web sayfası açıldıktan sonra bunaltıcı pop-up reklamlarla "kafası karışabilir" ve ardından bir etkileşim hatası olacaktır.

Başka bir örnek, bu tür bir oyunun OpenAI'nin ürün kullanım düzenlemelerini ihlal edebileceğidir:

API tarafından izin verilenler dışında, Hizmetlerden veri çıkarmak ve veri toplamak için kazıma, web toplama veya web verisi çıkarma dahil olmak üzere herhangi bir otomatik veya programlı yöntem kullanamazsınız.

Bu nedenle, onu kullanırken de düşük anahtarlı olmalısınız (doge)

Microsoft SoM yazarları da izlemeye geliyor

Proje çevrimiçi olarak yayınlandıktan sonra birçok izleyicinin ilgisini çekti.

Örneğin, kardeşim tarafından kullanılan Microsoft'un İşaret Kümesi aracının yazarı bu projeyi buldu:

Mükemmel iş!

Bazı netizenler, yapay zekanın doğrulama kodunu kendi başına okumasını sağlamak için bile kullanılabileceğinden bahsetti.

SoM projesinde belirtildiği gibi, GPT-4V, CAPTCHA'ları başarılı bir şekilde deşifre edebilir (bu nedenle gelecekte internette gezinenin bir insan mı yoksa makine mi olduğunu bilemeyebilirsiniz.)

)。

Aynı zamanda, bazı netizenler zaten masaüstü otomasyonunun çalışmasını hayal ediyor.

Yazarın yanıtladığı:

AI otomatik açıklayıcısı bunu yapabilmeli ve daha genel bir Copilot yapmayı planlıyorum.

Ancak şu anda GPT-4V'nin hala şarj edilmesi gerekiyor, bunu uygulamanın başka bir yolu var mı?

Yazarlar ayrıca henüz olmadığını, ancak Fuyu-8B veya LLa gibi açık kaynaklı modelleri deneyebileceklerini söylüyorlar.

Ücretsiz bir otomatik masaüstü akışı AI asistanının bir dalga uzakta olması beklenebilir.

Referans Linkleri:
[1]
[2]

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 1
  • Repost
  • Share
Comment
0/400
GoodFortuneComesvip
· 2023-11-05 05:24
Yapay zeka bir yetişkine dönüşüyor, korkutucu değil mi [şaşırdı]
View OriginalReply0
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)