GPT-4V научился пользоваться Интернетом с помощью клавиатуры и мыши, а люди наблюдали за тем, как он публикует сообщения и играет в игры

Источник статьи: qubits

GPT-4V научился управлять компьютерами в автоматическом режиме, и этот день наконец-то настал.

Вам нужно только подключить мышь и клавиатуру к GPT-4V, и он сможет путешествовать по Интернету в соответствии с интерфейсом браузера:

Можно даже быстро разобраться с сайтом плеера и кнопкой «воспроизвести музыку», и подарить себе музыкальное произведение:

Не страшновато ли это?

Это новая работа, сделанная братом-студентом Массачусетского технологического института, по имени GPT-4V-Act.

С помощью всего нескольких простых инструментов GPT-4V может научиться управлять клавиатурой и мышью, использовать браузер для публикации сообщений в Интернете, покупки продуктов и даже играть в игры.

Если что-то пойдет не так с используемым инструментом, GPT-4V даже узнает об этом и попытается исправить.

Вот как это сделать.

Научите GPT-4V "автоматически выходить в Интернет"

GPT-4V-Act, который, по сути, является мультимодальным помощником с искусственным интеллектом на основе веб-браузера (Chromium Copilot).

Он может «видеть» веб-интерфейс с помощью мыши, клавиатуры и экрана, как человек, и использовать интерактивные клавиши на веб-странице, чтобы сделать следующий шаг.

Для достижения такого эффекта, помимо GPT-4V, используются три инструмента.

Одним из них является интерфейс пользовательского интерфейса, который позволяет GPT-4V «видеть» скриншоты веб-страниц, а также позволяет пользователям взаимодействовать с GPT-4V.

Таким образом, GPT-4V может отражать идею каждого шага в виде диалогового окна, и пользователь может решить, продолжать ли с ним работать.

Другой — инструмент Set-of-Marking, SoM, инструмент, который позволяет GPT-4V научиться взаимодействовать.

Этот инструмент был изобретен Microsoft для улучшения разработки слов-подсказок для GPT-4V.

Вместо того, чтобы позволить GPT-4V напрямую «смотреть на картинку и говорить», этот инструмент может разделить ключевые детали изображения на разные части и пронумеровать их, чтобы GPT-4V можно было нацелиться:

То же самое верно и для Интернета, где Set-of-Mark ing использует аналогичный подход, чтобы GPT-4V знал, в какой части веб-браузера искать ответ, и взаимодействовать с ним.

Наконец, вам также нужно использовать автомаркировку JS DOM, которая может помечать все интерактивные кнопки на веб-стороне и позволять GPT-4V решать, какую из них нажимать.

После набора процессов GPT-4V может не только безошибочно определить, какой контент на картинке соответствует потребностям, но и безошибочно находить интерактивные кнопки и учиться «автоматически серфить в интернете».

Это большой проект, и до сих пор были реализованы только некоторые функции, включая клики, взаимодействие с набором текста, автоматическое аннотирование и т. д.

Кроме того, необходимо реализовать и другие функции, такие как попытка маркера ИИ (текущее взаимодействие на веб-стороне по-прежнему осуществляется через интерфейс JS, чтобы знать, где взаимодействовать, а не распознавание ИИ) и предложение пользователю ввести подробную информацию.

Кроме того, автор также упомянул, что на данном этапе все еще есть некоторые моменты, на которые следует обратить внимание при использовании GPT-4V-Act.

Например, GPT-4V-Act может быть «сбит с толку» подавляющим количеством всплывающей рекламы после открытия веб-страницы, и тогда возникнет ошибка взаимодействия.

Другой пример: такая игра может нарушать правила использования продуктов OpenAI:

За исключением случаев, разрешенных API, вы не можете использовать какие-либо автоматизированные или программные методы для извлечения данных из Сервисов и вывода, включая скрейпинг, веб-сбор или извлечение веб-данных.

Так что вы также должны быть сдержанны при его использовании (doge)

Авторы Microsoft SoM также приходят посмотреть

После того, как проект был размещен в Интернете, он привлек множество зрителей.

Например, автор инструмента Microsoft Set-of-Mark, которым пользовался мой брат, нашел такой проект:

Отличная работа!

Некоторые пользователи сети упомянули, что его можно даже использовать для того, чтобы заставить ИИ самостоятельно считывать код подтверждения.

Как упоминалось в проекте SoM, GPT-4V может успешно расшифровывать CAPTCHA (так что в будущем вы можете не знать, кто это — человек или машина).

)。

В то же время некоторые пользователи сети уже представляют себе работу автоматизации рабочего стола.

На что автор ответил:

автоматический аннотатор ИИ должен уметь это делать, и я планирую сделать более универсальный Copilot.

Однако в настоящее время GPT-4V все еще нужно заряжать, есть ли другой способ это реализовать?

Авторы также говорят, что пока нет, но они могут попробовать модели с открытым исходным кодом, такие как Fuyu-8B или LLa.

Можно ожидать, что бесплатный автоматизированный настольный потоковый ИИ-помощник будет на расстоянии одной руки.

Ссылки:
[1]
[2]

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 1
  • Репост
  • Поделиться
комментарий
0/400
GoodFortuneComesvip
· 2023-11-05 05:24
ИИ развивается во взрослого человека, не страшно ли [удивленно]
Посмотреть ОригиналОтветить0
  • Закрепить