GPT-4V навчився керувати комп'ютерами в автоматичному режимі, і цей день нарешті настав.
Вам потрібно лише підключити мишу та клавіатуру до GPT-4V, і він може серфити в Інтернеті відповідно до інтерфейсу браузера:
Можна навіть швидко розібратися з сайтом плеєра і кнопкою «відтворити музику», і подарувати собі музичний твір:
Хіба це не трохи страшно?
Це нова робота, зроблена братом-студентом Массачусетського технологічного інституту, на ім'я GPT-4V-Act.
За допомогою лише кількох простих інструментів GPT-4V може навчитися керувати клавіатурою та мишею, використовувати браузер для публікацій в Інтернеті, купувати продукти та навіть грати в ігри.
Якщо щось піде не так з використовуваним інструментом, GPT-4V навіть дізнається про це і спробує це виправити.
Ось як це зробити.
Навчіть GPT-4V "автоматично серфити в Інтернеті"
GPT-4V-Act, який, по суті, є мультимодальним помічником штучного інтелекту на основі веб-браузера (Chromium Copilot).
Він може «бачити» веб-інтерфейс за допомогою миші, клавіатури та екрана так само, як людина, і використовувати інтерактивні клавіші на веб-сторінці, щоб зробити наступний крок.
Для досягнення такого ефекту, крім GPT-4V, використовуються три інструменти.
Одним з них є інтерфейс інтерфейсу користувача, який дозволяє GPT-4V «бачити» скріншоти веб-сторінок, а також дозволяє користувачам взаємодіяти з GPT-4V.
Таким чином, GPT-4V може відобразити ідею кожного кроку у вигляді діалогового вікна, і користувач може вирішити, чи продовжувати його експлуатувати.
Інший – це інструмент Set-of-Marking (SoM), інструмент, який дозволяє GPT-4V навчитися взаємодіяти.
Цей інструмент був винайдений Microsoft для кращої інженерії слів-підказок для GPT-4V.
Замість того, щоб дозволяти GPT-4V безпосередньо «дивитися на зображення та говорити», цей інструмент може розділити ключові деталі зображення на різні частини та пронумерувати їх, щоб GPT-4V можна було націлити на нього:
Те ж саме вірно і для Інтернету, де Set-of-Mark використовує подібний підхід, щоб GPT-4V знав, в якій частині веб-браузера шукати відповідь і взаємодіяти з нею.
Нарешті, вам також потрібно використовувати автомаркувальник JS DOM, який може позначити всі інтерактивні кнопки на веб-стороні та дозволити GPT-4V вирішувати, яку з них натиснути.
Пройшовши комплекс процесів, GPT-4V може не тільки точно визначити, який контент на картинці відповідає потребам, але і безпомилково знайти інтерактивні кнопки і навчитися «автоматично серфити в інтернеті».
Це великий проект, і поки що реалізовано лише деякі функції, включаючи кліки, взаємодію з набором тексту, автоматичну анотацію тощо.
Далі є інші функції, які потрібно реалізувати, наприклад, спробувати маркер штучного інтелекту (поточна взаємодія на веб-стороні все ще відбувається через інтерфейс JS, щоб знати, де взаємодіяти, а не розпізнавання ШІ) і запропонувати користувачеві ввести детальну інформацію.
Крім того, автор також зазначив, що на даному етапі ще є деякі моменти, на які слід звернути увагу у використанні GPT-4V-Act.
Наприклад, GPT-4V-Act може бути «збентежений» переважною спливаючою рекламою після відкриття веб-сторінки, і тоді виникне помилка взаємодії.
Інший приклад полягає в тому, що така гра може порушувати правила використання продуктів OpenAI:
За винятком випадків, дозволених API, ви не маєте права використовувати будь-які автоматизовані або програмні методи для вилучення даних із Служб і вихідних даних, зокрема скрейпінг, збирання даних з Інтернету або вилучення веб-даних.
Тому ви також повинні бути стриманими при його використанні (doge)
Автори Microsoft SoM також приходять подивитися
Після того, як проєкт виклали в мережу, він привернув увагу багатьох глядачів.
Наприклад, автор інструменту Microsoft Set-of-Mark, яким користувався мій брат, знайшов такий проект:
Відмінна робота!
Деякі користувачі мережі зазначили, що його навіть можна використовувати, щоб змусити ШІ самостійно прочитати код перевірки.
Як згадувалося в проекті SoM, GPT-4V може успішно розшифровувати CAPTCHA (тому ви можете не знати, чи це людина, чи машина, яка серфить в Інтернеті в майбутньому).
)。
У той же час деякі користувачі мережі вже уявляють собі роботу автоматизації робочого столу.
На що автор відповів:
автоанотатор зі штучним інтелектом повинен вміти це робити, і я планую зробити більш загальний Copilot.
Однак наразі GPT-4V ще потрібно заряджати, чи є інший спосіб його реалізувати?
Автори також кажуть, що поки що немає, але можуть спробувати моделі з відкритим вихідним кодом, такі як Fuyu-8B або LLa.
Можна очікувати, що безкоштовний автоматизований асистент зі штучним інтелектом для потокового передавання робочого столу буде на хвилі.
Посилання на джерела:
[1]
[2]
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
2 лайків
Нагородити
2
1
Репост
Поділіться
Прокоментувати
0/400
GoodFortuneComes
· 2023-11-05 05:24
Штучний інтелект перетворюється на дорослу людину, хіба це не страшно [здивовано]
GPT-4V навчився серфити в Інтернеті за допомогою клавіатури та миші, а люди спостерігали за ним, публікували та грали в ігри
Джерело статті: qubits
Вам потрібно лише підключити мишу та клавіатуру до GPT-4V, і він може серфити в Інтернеті відповідно до інтерфейсу браузера:
Це нова робота, зроблена братом-студентом Массачусетського технологічного інституту, на ім'я GPT-4V-Act.
Якщо щось піде не так з використовуваним інструментом, GPT-4V навіть дізнається про це і спробує це виправити.
Навчіть GPT-4V "автоматично серфити в Інтернеті"
GPT-4V-Act, який, по суті, є мультимодальним помічником штучного інтелекту на основі веб-браузера (Chromium Copilot).
Він може «бачити» веб-інтерфейс за допомогою миші, клавіатури та екрана так само, як людина, і використовувати інтерактивні клавіші на веб-сторінці, щоб зробити наступний крок.
Для досягнення такого ефекту, крім GPT-4V, використовуються три інструменти.
Одним з них є інтерфейс інтерфейсу користувача, який дозволяє GPT-4V «бачити» скріншоти веб-сторінок, а також дозволяє користувачам взаємодіяти з GPT-4V.
Таким чином, GPT-4V може відобразити ідею кожного кроку у вигляді діалогового вікна, і користувач може вирішити, чи продовжувати його експлуатувати.
Замість того, щоб дозволяти GPT-4V безпосередньо «дивитися на зображення та говорити», цей інструмент може розділити ключові деталі зображення на різні частини та пронумерувати їх, щоб GPT-4V можна було націлити на нього:
Нарешті, вам також потрібно використовувати автомаркувальник JS DOM, який може позначити всі інтерактивні кнопки на веб-стороні та дозволити GPT-4V вирішувати, яку з них натиснути.
Це великий проект, і поки що реалізовано лише деякі функції, включаючи кліки, взаємодію з набором тексту, автоматичну анотацію тощо.
Далі є інші функції, які потрібно реалізувати, наприклад, спробувати маркер штучного інтелекту (поточна взаємодія на веб-стороні все ще відбувається через інтерфейс JS, щоб знати, де взаємодіяти, а не розпізнавання ШІ) і запропонувати користувачеві ввести детальну інформацію.
Наприклад, GPT-4V-Act може бути «збентежений» переважною спливаючою рекламою після відкриття веб-сторінки, і тоді виникне помилка взаємодії.
Автори Microsoft SoM також приходять подивитися
Після того, як проєкт виклали в мережу, він привернув увагу багатьох глядачів.
Наприклад, автор інструменту Microsoft Set-of-Mark, яким користувався мій брат, знайшов такий проект:
На що автор відповів:
Автори також кажуть, що поки що немає, але можуть спробувати моделі з відкритим вихідним кодом, такі як Fuyu-8B або LLa.
Посилання на джерела:
[1]
[2]