GPT-4V đã học cách lướt Internet bằng bàn phím và chuột, và con người đã xem nó đăng và chơi trò chơi

Nguồn bài viết: qubits

GPT-4V đã học cách vận hành máy tính tự động, và ngày cuối cùng đã đến.

Bạn chỉ cần cắm ** chuột ** và ** bàn phím ** vào GPT-4V và nó có thể lướt Internet theo giao diện trình duyệt:

Bạn thậm chí có thể nhanh chóng tìm ra trang web và nút trình phát để "phát nhạc" và tạo cho mình một bản nhạc:

Không phải có chút đáng sợ sao?

Đây là một công việc mới được thực hiện bởi một anh em đại học MIT, tên là **GPT-4V-Act **.

Chỉ với một vài công cụ đơn giản, GPT-4V có thể học cách điều khiển bàn phím và chuột, sử dụng trình duyệt để đăng trực tuyến, mua hàng tạp hóa và thậm chí chơi trò chơi.

Nếu có sự cố xảy ra với công cụ được sử dụng, GPT-4V thậm chí sẽ nhận thức được điều đó và cố gắng khắc phục.

Đây là cách thực hiện.

** Dạy GPT-4V "tự động lướt Internet"**

GPT-4V-Act, về cơ bản là một trợ lý đa phương thức AI dựa trên trình duyệt web (Chromium Copilot).

Nó có thể "nhìn thấy" giao diện web bằng chuột, bàn phím và màn hình giống như con người và sử dụng các phím tương tác trong trang web để thực hiện bước tiếp theo.

Để đạt được hiệu ứng này, ngoài GPT-4V, ba công cụ được sử dụng.

Một là giao diện UI, cho phép GPT-4V "xem" ảnh chụp màn hình của các trang web và cũng cho phép người dùng tương tác với GPT-4V.

Bằng cách này, GPT-4V có thể phản ánh ý tưởng của từng bước dưới dạng hộp thoại và người dùng có thể quyết định có tiếp tục vận hành nó hay không.

Công cụ còn lại là công cụ Set-of-Mark ing (SoM), một công cụ cho phép GPT-4V học cách tương tác.

Công cụ này được phát minh bởi Microsoft để thiết kế tốt hơn các từ nhắc nhở cho GPT-4V.

Thay vì để GPT-4V trực tiếp "nhìn vào hình ảnh và nói", công cụ này có thể chia các chi tiết chính của hình ảnh thành các phần khác nhau và đánh số chúng, để GPT-4V có thể được nhắm mục tiêu:

Điều tương tự cũng đúng với web, nơi Set-of-Mark ing sử dụng cách tiếp cận tương tự để cho GPT-4V biết phần nào của trình duyệt web để tìm câu trả lời và tương tác với nó.

Cuối cùng, bạn cũng cần sử dụng trình dán nhãn tự động JS DOM, có thể đánh dấu tất cả các nút tương tác ở phía web và để GPT-4V quyết định nhấn nút nào.

Sau một loạt các quy trình, GPT-4V không chỉ có thể xác định chính xác nội dung nào trên hình ảnh đáp ứng nhu cầu mà còn tìm chính xác các nút tương tác và học cách "tự động lướt Internet".

Đây là một dự án lớn và chỉ một số tính năng đã được triển khai cho đến nay, bao gồm nhấp chuột, nhập tương tác, chú thích tự động, v.v.

Tiếp theo, có các tính năng khác để thực hiện, chẳng hạn như thử đánh dấu AI (tương tác hiện tại ở phía web vẫn thông qua giao diện JS để biết nơi tương tác chứ không phải nhận dạng AI) và nhắc người dùng nhập thông tin chi tiết.

Ngoài ra, tác giả cũng đề cập rằng vẫn còn một số điểm cần chú ý trong việc sử dụng GPT-4V-Act ở giai đoạn này.

Ví dụ: GPT-4V-Act có thể bị "nhầm lẫn" bởi các quảng cáo bật lên áp đảo sau khi trang web được mở, và sau đó sẽ có một lỗi tương tác.

Một ví dụ khác là kiểu chơi này có thể vi phạm các quy định sử dụng sản phẩm của OpenAI:

Trừ khi được API cho phép, bạn không được sử dụng bất kỳ phương pháp tự động hoặc lập trình nào để trích xuất dữ liệu từ Dịch vụ và đầu ra, bao gồm cạo, thu thập web hoặc trích xuất dữ liệu web.

Vì vậy, bạn cũng nên thấp thỏm khi sử dụng nó (doge)

Tác giả Microsoft SoM cũng đến xem

Sau khi dự án được đăng tải lên mạng, nó đã thu hút nhiều người xem.

Ví dụ, tác giả của công cụ Set-of-Mark của Microsoft được sử dụng bởi anh trai tôi đã tìm thấy dự án này:

Công việc tuyệt vời!

Một số cư dân mạng đề cập rằng nó thậm chí có thể được sử dụng để làm cho AI tự đọc mã xác minh.

Như đã đề cập trong dự án SoM, GPT-4V có thể giải mã thành công CAPTCHA (vì vậy bạn có thể không biết đó là con người hay máy móc lướt Internet trong tương lai.)

)。

Đồng thời, một số cư dân mạng đã tưởng tượng ra hoạt động của tự động hóa máy tính để bàn.

Tác giả trả lời:

chú thích tự động AI sẽ có thể làm điều này và tôi có kế hoạch tạo ra một Copilot chung chung hơn.

Tuy nhiên, hiện tại, GPT-4V vẫn phải sạc, có cách nào khác để thực hiện không?

Các tác giả cũng nói rằng chưa có, nhưng họ có thể thử các mô hình nguồn mở như Fuyu-8B hoặc LLa.

Một trợ lý AI phát trực tuyến trên máy tính để bàn tự động miễn phí có thể được mong đợi là một làn sóng.

Liên kết tham khảo:
[1]
[2]

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 1
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
GoodFortuneComesvip
· 2023-11-05 05:24
AI phát triển thành người lớn, không đáng sợ không [ngạc nhiên]
Xem bản gốcTrả lời0
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)