GPT-4V навчився серфити в Інтернеті за допомогою клавіатури та миші, а люди спостерігали за ним, публікували та грали в ігри

Джерело статті: qubits

GPT-4V навчився керувати комп'ютерами в автоматичному режимі, і цей день нарешті настав.

Вам потрібно лише підключити мишу та клавіатуру до GPT-4V, і він може серфити в Інтернеті відповідно до інтерфейсу браузера:

Можна навіть швидко розібратися з сайтом плеєра і кнопкою «відтворити музику», і подарувати собі музичний твір:

Хіба це не трохи страшно?

Це нова робота, зроблена братом-студентом Массачусетського технологічного інституту, на ім'я GPT-4V-Act.

За допомогою лише кількох простих інструментів GPT-4V може навчитися керувати клавіатурою та мишею, використовувати браузер для публікацій в Інтернеті, купувати продукти та навіть грати в ігри.

Якщо щось піде не так з використовуваним інструментом, GPT-4V навіть дізнається про це і спробує це виправити.

Ось як це зробити.

Навчіть GPT-4V "автоматично серфити в Інтернеті"

GPT-4V-Act, який, по суті, є мультимодальним помічником штучного інтелекту на основі веб-браузера (Chromium Copilot).

Він може «бачити» веб-інтерфейс за допомогою миші, клавіатури та екрана так само, як людина, і використовувати інтерактивні клавіші на веб-сторінці, щоб зробити наступний крок.

Для досягнення такого ефекту, крім GPT-4V, використовуються три інструменти.

Одним з них є інтерфейс інтерфейсу користувача, який дозволяє GPT-4V «бачити» скріншоти веб-сторінок, а також дозволяє користувачам взаємодіяти з GPT-4V.

Таким чином, GPT-4V може відобразити ідею кожного кроку у вигляді діалогового вікна, і користувач може вирішити, чи продовжувати його експлуатувати.

Інший – це інструмент Set-of-Marking (SoM), інструмент, який дозволяє GPT-4V навчитися взаємодіяти.

Цей інструмент був винайдений Microsoft для кращої інженерії слів-підказок для GPT-4V.

Замість того, щоб дозволяти GPT-4V безпосередньо «дивитися на зображення та говорити», цей інструмент може розділити ключові деталі зображення на різні частини та пронумерувати їх, щоб GPT-4V можна було націлити на нього:

Те ж саме вірно і для Інтернету, де Set-of-Mark використовує подібний підхід, щоб GPT-4V знав, в якій частині веб-браузера шукати відповідь і взаємодіяти з нею.

Нарешті, вам також потрібно використовувати автомаркувальник JS DOM, який може позначити всі інтерактивні кнопки на веб-стороні та дозволити GPT-4V вирішувати, яку з них натиснути.

Пройшовши комплекс процесів, GPT-4V може не тільки точно визначити, який контент на картинці відповідає потребам, але і безпомилково знайти інтерактивні кнопки і навчитися «автоматично серфити в інтернеті».

Це великий проект, і поки що реалізовано лише деякі функції, включаючи кліки, взаємодію з набором тексту, автоматичну анотацію тощо.

Далі є інші функції, які потрібно реалізувати, наприклад, спробувати маркер штучного інтелекту (поточна взаємодія на веб-стороні все ще відбувається через інтерфейс JS, щоб знати, де взаємодіяти, а не розпізнавання ШІ) і запропонувати користувачеві ввести детальну інформацію.

Крім того, автор також зазначив, що на даному етапі ще є деякі моменти, на які слід звернути увагу у використанні GPT-4V-Act.

Наприклад, GPT-4V-Act може бути «збентежений» переважною спливаючою рекламою після відкриття веб-сторінки, і тоді виникне помилка взаємодії.

Інший приклад полягає в тому, що така гра може порушувати правила використання продуктів OpenAI:

За винятком випадків, дозволених API, ви не маєте права використовувати будь-які автоматизовані або програмні методи для вилучення даних із Служб і вихідних даних, зокрема скрейпінг, збирання даних з Інтернету або вилучення веб-даних.

Тому ви також повинні бути стриманими при його використанні (doge)

Автори Microsoft SoM також приходять подивитися

Після того, як проєкт виклали в мережу, він привернув увагу багатьох глядачів.

Наприклад, автор інструменту Microsoft Set-of-Mark, яким користувався мій брат, знайшов такий проект:

Відмінна робота!

Деякі користувачі мережі зазначили, що його навіть можна використовувати, щоб змусити ШІ самостійно прочитати код перевірки.

Як згадувалося в проекті SoM, GPT-4V може успішно розшифровувати CAPTCHA (тому ви можете не знати, чи це людина, чи машина, яка серфить в Інтернеті в майбутньому).

)。

У той же час деякі користувачі мережі вже уявляють собі роботу автоматизації робочого столу.

На що автор відповів:

автоанотатор зі штучним інтелектом повинен вміти це робити, і я планую зробити більш загальний Copilot.

Однак наразі GPT-4V ще потрібно заряджати, чи є інший спосіб його реалізувати?

Автори також кажуть, що поки що немає, але можуть спробувати моделі з відкритим вихідним кодом, такі як Fuyu-8B або LLa.

Можна очікувати, що безкоштовний автоматизований асистент зі штучним інтелектом для потокового передавання робочого столу буде на хвилі.

Посилання на джерела:
[1]
[2]

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 1
  • Репост
  • Поділіться
Прокоментувати
0/400
GoodFortuneComesvip
· 2023-11-05 05:24
Штучний інтелект перетворюється на дорослу людину, хіба це не страшно [здивовано]
Переглянути оригіналвідповісти на0
  • Закріпити