GPT-4V, bilgisayarları otomatik olarak çalıştırmayı öğrendi ve sonunda o gün geldi.
GPT-4V'ye yalnızca fare ve klavye takmanız yeterlidir ve tarayıcı arayüzüne göre internette gezinebilir:
Hatta oynatıcının web sitesini ve "müzik çal" düğmesini hızlı bir şekilde bulabilir ve kendinize bir parça müzik verebilirsiniz:
Biraz korkutucu değil mi?
Bu, bir MIT lisans kardeşi tarafından GPT-4V-Act adında yapılan yeni bir iş.
GPT-4V, yalnızca birkaç basit araçla klavyenizi ve farenizi kontrol etmeyi, çevrimiçi paylaşım yapmak, yiyecek satın almak ve hatta oyun oynamak için tarayıcıyı kullanmayı öğrenebilir.
Kullanılan araçta bir şeyler ters giderse, GPT-4V bunun farkında bile olacak ve düzeltmeye çalışacaktır.
İşte nasıl.
GPT-4V'ye "internette otomatik olarak gezinmeyi" öğretin
GPT-4V-Act, esasen bir web tarayıcısı tabanlı AI multimodal asistanıdır (Chromium Copilot).
Web arayüzünü tıpkı bir insan gibi fare, klavye ve ekranla "görebilir" ve bir sonraki adımı atmak için web sayfasındaki etkileşimli tuşları kullanabilir.
Bu etkiyi elde etmek için GPT-4V'ye ek olarak üç araç kullanılır.
Bunlardan biri, GPT-4V'nin web sayfalarının ekran görüntülerini "görmesine" ve ayrıca kullanıcıların GPT-4V ile etkileşime girmesine olanak tanıyan UI arayüzüdür.
Bu şekilde GPT-4V, her adımın fikrini bir iletişim kutusu şeklinde yansıtabilir ve kullanıcı, onu çalıştırmaya devam edip etmeyeceğine karar verebilir.
Diğeri ise GPT-4V'nin etkileşimi öğrenmesini sağlayan bir araç olan İşaretleme Seti (SoM) aracıdır.
Bu araç, GPT-4V için istem sözcüklerini daha iyi tasarlamak için Microsoft tarafından icat edildi.
GPT-4V'nin doğrudan "resme bakmasına ve konuşmasına" izin vermek yerine, bu araç görüntünün temel ayrıntılarını farklı parçalara bölebilir ve bunları numaralandırabilir, böylece GPT-4V hedeflenebilir:
Aynı şey, Set-of-Marking'in GPT-4V'nin web tarayıcısının hangi bölümünden yanıt arayacağını ve onunla etkileşime gireceğini bilmesini sağlamak için benzer bir yaklaşım kullandığı web için de geçerlidir.
Son olarak, web tarafındaki tüm etkileşimli düğmeleri işaretleyebilen ve hangisine basılacağına GPT-4V'nin karar vermesine izin veren bir JS DOM otomatik etiketleyici kullanmanız gerekir.
Bir dizi işlemden sonra GPT-4V, yalnızca resimdeki hangi içeriğin ihtiyaçları karşıladığını doğru bir şekilde belirlemekle kalmaz, aynı zamanda etkileşimli düğmeleri doğru bir şekilde bulur ve "internette otomatik olarak gezinmeyi" öğrenir.
Bu büyük bir proje ve şu ana kadar tıklama, yazma etkileşimi, otomatik açıklama vb. dahil olmak üzere yalnızca bazı özellikler uygulandı.
Ardından, AI işaretçisini denemek (web tarafındaki mevcut etkileşim, AI tanıma değil, nerede etkileşime girileceğini bilmek için hala JS arayüzü aracılığıyladır) ve kullanıcıdan ayrıntılı bilgi girmesini istemek gibi uygulanması gereken başka özellikler de vardır.
Ayrıca yazar, bu aşamada GPT-4V-Act kullanımında hala dikkat edilmesi gereken bazı noktalar olduğundan da bahsetmiştir.
Örneğin, GPT-4V-Act, web sayfası açıldıktan sonra bunaltıcı pop-up reklamlarla "kafası karışabilir" ve ardından bir etkileşim hatası olacaktır.
Başka bir örnek, bu tür bir oyunun OpenAI'nin ürün kullanım düzenlemelerini ihlal edebileceğidir:
API tarafından izin verilenler dışında, Hizmetlerden veri çıkarmak ve veri toplamak için kazıma, web toplama veya web verisi çıkarma dahil olmak üzere herhangi bir otomatik veya programlı yöntem kullanamazsınız.
Bu nedenle, onu kullanırken de düşük anahtarlı olmalısınız (doge)
Microsoft SoM yazarları da izlemeye geliyor
Proje çevrimiçi olarak yayınlandıktan sonra birçok izleyicinin ilgisini çekti.
Örneğin, kardeşim tarafından kullanılan Microsoft'un İşaret Kümesi aracının yazarı bu projeyi buldu:
Mükemmel iş!
Bazı netizenler, yapay zekanın doğrulama kodunu kendi başına okumasını sağlamak için bile kullanılabileceğinden bahsetti.
SoM projesinde belirtildiği gibi, GPT-4V, CAPTCHA'ları başarılı bir şekilde deşifre edebilir (bu nedenle gelecekte internette gezinenin bir insan mı yoksa makine mi olduğunu bilemeyebilirsiniz.)
)。
Aynı zamanda, bazı netizenler zaten masaüstü otomasyonunun çalışmasını hayal ediyor.
Yazarın yanıtladığı:
AI otomatik açıklayıcısı bunu yapabilmeli ve daha genel bir Copilot yapmayı planlıyorum.
Ancak şu anda GPT-4V'nin hala şarj edilmesi gerekiyor, bunu uygulamanın başka bir yolu var mı?
Yazarlar ayrıca henüz olmadığını, ancak Fuyu-8B veya LLa gibi açık kaynaklı modelleri deneyebileceklerini söylüyorlar.
Ücretsiz bir otomatik masaüstü akışı AI asistanının bir dalga uzakta olması beklenebilir.
Referans Linkleri:
[1]
[2]
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
2 Likes
Reward
2
1
Repost
Share
Comment
0/400
GoodFortuneComes
· 2023-11-05 05:24
Yapay zeka bir yetişkine dönüşüyor, korkutucu değil mi [şaşırdı]
GPT-4V, klavye ve fare ile internette gezinmeyi öğrendi ve insanlar onu oyun yayınlamayı ve oyun oynamayı izledi
Makale kaynağı: kübitler
GPT-4V'ye yalnızca fare ve klavye takmanız yeterlidir ve tarayıcı arayüzüne göre internette gezinebilir:
Bu, bir MIT lisans kardeşi tarafından GPT-4V-Act adında yapılan yeni bir iş.
Kullanılan araçta bir şeyler ters giderse, GPT-4V bunun farkında bile olacak ve düzeltmeye çalışacaktır.
GPT-4V'ye "internette otomatik olarak gezinmeyi" öğretin
GPT-4V-Act, esasen bir web tarayıcısı tabanlı AI multimodal asistanıdır (Chromium Copilot).
Web arayüzünü tıpkı bir insan gibi fare, klavye ve ekranla "görebilir" ve bir sonraki adımı atmak için web sayfasındaki etkileşimli tuşları kullanabilir.
Bu etkiyi elde etmek için GPT-4V'ye ek olarak üç araç kullanılır.
Bunlardan biri, GPT-4V'nin web sayfalarının ekran görüntülerini "görmesine" ve ayrıca kullanıcıların GPT-4V ile etkileşime girmesine olanak tanıyan UI arayüzüdür.
Bu şekilde GPT-4V, her adımın fikrini bir iletişim kutusu şeklinde yansıtabilir ve kullanıcı, onu çalıştırmaya devam edip etmeyeceğine karar verebilir.
GPT-4V'nin doğrudan "resme bakmasına ve konuşmasına" izin vermek yerine, bu araç görüntünün temel ayrıntılarını farklı parçalara bölebilir ve bunları numaralandırabilir, böylece GPT-4V hedeflenebilir:
Son olarak, web tarafındaki tüm etkileşimli düğmeleri işaretleyebilen ve hangisine basılacağına GPT-4V'nin karar vermesine izin veren bir JS DOM otomatik etiketleyici kullanmanız gerekir.
Bu büyük bir proje ve şu ana kadar tıklama, yazma etkileşimi, otomatik açıklama vb. dahil olmak üzere yalnızca bazı özellikler uygulandı.
Ardından, AI işaretçisini denemek (web tarafındaki mevcut etkileşim, AI tanıma değil, nerede etkileşime girileceğini bilmek için hala JS arayüzü aracılığıyladır) ve kullanıcıdan ayrıntılı bilgi girmesini istemek gibi uygulanması gereken başka özellikler de vardır.
Örneğin, GPT-4V-Act, web sayfası açıldıktan sonra bunaltıcı pop-up reklamlarla "kafası karışabilir" ve ardından bir etkileşim hatası olacaktır.
Microsoft SoM yazarları da izlemeye geliyor
Proje çevrimiçi olarak yayınlandıktan sonra birçok izleyicinin ilgisini çekti.
Örneğin, kardeşim tarafından kullanılan Microsoft'un İşaret Kümesi aracının yazarı bu projeyi buldu:
Yazarın yanıtladığı:
Yazarlar ayrıca henüz olmadığını, ancak Fuyu-8B veya LLa gibi açık kaynaklı modelleri deneyebileceklerini söylüyorlar.
Referans Linkleri:
[1]
[2]