GPT-4V научился управлять компьютерами в автоматическом режиме, и этот день наконец-то настал.
Вам нужно только подключить мышь и клавиатуру к GPT-4V, и он сможет путешествовать по Интернету в соответствии с интерфейсом браузера:
Можно даже быстро разобраться с сайтом плеера и кнопкой «воспроизвести музыку», и подарить себе музыкальное произведение:
Не страшновато ли это?
Это новая работа, сделанная братом-студентом Массачусетского технологического института, по имени GPT-4V-Act.
С помощью всего нескольких простых инструментов GPT-4V может научиться управлять клавиатурой и мышью, использовать браузер для публикации сообщений в Интернете, покупки продуктов и даже играть в игры.
Если что-то пойдет не так с используемым инструментом, GPT-4V даже узнает об этом и попытается исправить.
Вот как это сделать.
Научите GPT-4V "автоматически выходить в Интернет"
GPT-4V-Act, который, по сути, является мультимодальным помощником с искусственным интеллектом на основе веб-браузера (Chromium Copilot).
Он может «видеть» веб-интерфейс с помощью мыши, клавиатуры и экрана, как человек, и использовать интерактивные клавиши на веб-странице, чтобы сделать следующий шаг.
Для достижения такого эффекта, помимо GPT-4V, используются три инструмента.
Одним из них является интерфейс пользовательского интерфейса, который позволяет GPT-4V «видеть» скриншоты веб-страниц, а также позволяет пользователям взаимодействовать с GPT-4V.
Таким образом, GPT-4V может отражать идею каждого шага в виде диалогового окна, и пользователь может решить, продолжать ли с ним работать.
Другой — инструмент Set-of-Marking, SoM, инструмент, который позволяет GPT-4V научиться взаимодействовать.
Этот инструмент был изобретен Microsoft для улучшения разработки слов-подсказок для GPT-4V.
Вместо того, чтобы позволить GPT-4V напрямую «смотреть на картинку и говорить», этот инструмент может разделить ключевые детали изображения на разные части и пронумеровать их, чтобы GPT-4V можно было нацелиться:
То же самое верно и для Интернета, где Set-of-Mark ing использует аналогичный подход, чтобы GPT-4V знал, в какой части веб-браузера искать ответ, и взаимодействовать с ним.
Наконец, вам также нужно использовать автомаркировку JS DOM, которая может помечать все интерактивные кнопки на веб-стороне и позволять GPT-4V решать, какую из них нажимать.
После набора процессов GPT-4V может не только безошибочно определить, какой контент на картинке соответствует потребностям, но и безошибочно находить интерактивные кнопки и учиться «автоматически серфить в интернете».
Это большой проект, и до сих пор были реализованы только некоторые функции, включая клики, взаимодействие с набором текста, автоматическое аннотирование и т. д.
Кроме того, необходимо реализовать и другие функции, такие как попытка маркера ИИ (текущее взаимодействие на веб-стороне по-прежнему осуществляется через интерфейс JS, чтобы знать, где взаимодействовать, а не распознавание ИИ) и предложение пользователю ввести подробную информацию.
Кроме того, автор также упомянул, что на данном этапе все еще есть некоторые моменты, на которые следует обратить внимание при использовании GPT-4V-Act.
Например, GPT-4V-Act может быть «сбит с толку» подавляющим количеством всплывающей рекламы после открытия веб-страницы, и тогда возникнет ошибка взаимодействия.
Другой пример: такая игра может нарушать правила использования продуктов OpenAI:
За исключением случаев, разрешенных API, вы не можете использовать какие-либо автоматизированные или программные методы для извлечения данных из Сервисов и вывода, включая скрейпинг, веб-сбор или извлечение веб-данных.
Так что вы также должны быть сдержанны при его использовании (doge)
Авторы Microsoft SoM также приходят посмотреть
После того, как проект был размещен в Интернете, он привлек множество зрителей.
Например, автор инструмента Microsoft Set-of-Mark, которым пользовался мой брат, нашел такой проект:
Отличная работа!
Некоторые пользователи сети упомянули, что его можно даже использовать для того, чтобы заставить ИИ самостоятельно считывать код подтверждения.
Как упоминалось в проекте SoM, GPT-4V может успешно расшифровывать CAPTCHA (так что в будущем вы можете не знать, кто это — человек или машина).
)。
В то же время некоторые пользователи сети уже представляют себе работу автоматизации рабочего стола.
На что автор ответил:
автоматический аннотатор ИИ должен уметь это делать, и я планирую сделать более универсальный Copilot.
Однако в настоящее время GPT-4V все еще нужно заряжать, есть ли другой способ это реализовать?
Авторы также говорят, что пока нет, но они могут попробовать модели с открытым исходным кодом, такие как Fuyu-8B или LLa.
Можно ожидать, что бесплатный автоматизированный настольный потоковый ИИ-помощник будет на расстоянии одной руки.
Ссылки:
[1]
[2]
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
2 Лайков
Награда
2
1
Репост
Поделиться
комментарий
0/400
GoodFortuneComes
· 2023-11-05 05:24
ИИ развивается во взрослого человека, не страшно ли [удивленно]
GPT-4V научился пользоваться Интернетом с помощью клавиатуры и мыши, а люди наблюдали за тем, как он публикует сообщения и играет в игры
Источник статьи: qubits
Вам нужно только подключить мышь и клавиатуру к GPT-4V, и он сможет путешествовать по Интернету в соответствии с интерфейсом браузера:
Это новая работа, сделанная братом-студентом Массачусетского технологического института, по имени GPT-4V-Act.
Если что-то пойдет не так с используемым инструментом, GPT-4V даже узнает об этом и попытается исправить.
Научите GPT-4V "автоматически выходить в Интернет"
GPT-4V-Act, который, по сути, является мультимодальным помощником с искусственным интеллектом на основе веб-браузера (Chromium Copilot).
Он может «видеть» веб-интерфейс с помощью мыши, клавиатуры и экрана, как человек, и использовать интерактивные клавиши на веб-странице, чтобы сделать следующий шаг.
Для достижения такого эффекта, помимо GPT-4V, используются три инструмента.
Одним из них является интерфейс пользовательского интерфейса, который позволяет GPT-4V «видеть» скриншоты веб-страниц, а также позволяет пользователям взаимодействовать с GPT-4V.
Таким образом, GPT-4V может отражать идею каждого шага в виде диалогового окна, и пользователь может решить, продолжать ли с ним работать.
Вместо того, чтобы позволить GPT-4V напрямую «смотреть на картинку и говорить», этот инструмент может разделить ключевые детали изображения на разные части и пронумеровать их, чтобы GPT-4V можно было нацелиться:
Наконец, вам также нужно использовать автомаркировку JS DOM, которая может помечать все интерактивные кнопки на веб-стороне и позволять GPT-4V решать, какую из них нажимать.
Это большой проект, и до сих пор были реализованы только некоторые функции, включая клики, взаимодействие с набором текста, автоматическое аннотирование и т. д.
Кроме того, необходимо реализовать и другие функции, такие как попытка маркера ИИ (текущее взаимодействие на веб-стороне по-прежнему осуществляется через интерфейс JS, чтобы знать, где взаимодействовать, а не распознавание ИИ) и предложение пользователю ввести подробную информацию.
Например, GPT-4V-Act может быть «сбит с толку» подавляющим количеством всплывающей рекламы после открытия веб-страницы, и тогда возникнет ошибка взаимодействия.
Авторы Microsoft SoM также приходят посмотреть
После того, как проект был размещен в Интернете, он привлек множество зрителей.
Например, автор инструмента Microsoft Set-of-Mark, которым пользовался мой брат, нашел такой проект:
На что автор ответил:
Авторы также говорят, что пока нет, но они могут попробовать модели с открытым исходным кодом, такие как Fuyu-8B или LLa.
Ссылки:
[1]
[2]