GPT-4V學會用鍵鼠上網，人類眼睜睜看著它發帖玩遊戲

巴比特_ · 2023-11-05T02:16:51+00:00

文章來源：量子位![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ec0d6bda9d-dd1a6f-cd5cc0) GPT-4V學會自動操縱電腦，這一天終於還是到來了。只需要給GPT-4V接入**滑鼠**和**鍵盤**，它就能根據瀏覽器介面上網：![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-08cd56dff6-dd1a6f-cd5cc0) 甚至還能快速摸清楚「播放音樂」的播放機網站和按鈕，給自己來一段music：![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-70c222e17a-dd1a6f-cd5cc0) 是不是有點細思極恐了？這是一個MIT本科生小哥整出來的新活，名叫**GPT-4V-Act**。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b81d6e922a-dd1a6f-cd5cc0) 只需要幾個簡單的工具，GPT-4V就能學會控制你的鍵盤和滑鼠，用瀏覽器上網發帖、買東西甚至是玩遊戲。要是用到的工具出bug了，GPT-4V甚至還能意識到、並試圖解決它。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a95b8054c8-dd1a6f-cd5cc0) 來看看這是怎麼做到的。 ## **教GPT-4V“自動上網”** GPT-4V-Act，本質上是一個基於Web瀏覽器的**AI多模態助手**（Chromium Copilot）。它可以像人類一樣用滑鼠、鍵盤和螢幕「查看」網頁介面，並通過網頁中的交互按鍵進行下一步操作。要實現這種效果，除了GPT-4V以外，還用到了三個工具。一個是**UI介面**，可以讓GPT-4V“看見”網頁截圖，也能讓使用者與GPT-4V發生交互。這樣，GPT-4V就能將每一步運行思路都通過對話方塊的形式反映出來，用戶來決定是否要繼續讓它操作。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cede5ae183-dd1a6f-cd5cc0) 另一個是**Set-of-Mark ing**（SoM）工具，讓GPT-4V學會交互的一款工具。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8a41a22d69-dd1a6f-cd5cc0) 這個工具由微軟發明，目的是更好地對GPT-4V進行提示詞工程。相比讓GPT-4V直接「看圖說話」，這個工具可以將圖片關鍵細節拆分成不同的部分，並進行編號，讓GPT-4V有的放矢：![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e45bf737a8-dd1a6f-cd5cc0) 對於網頁端也是如此，Set-of-Mark ing用類似的方式讓GPT-4V知道從網頁瀏覽器的哪個部分找答案，並進行交互。最後，還需要用到一個**自動標註器**（JS DOM auto-labeler），可以將網頁端所有能交互的按鍵標註出來，讓GPT-4V決定要按哪個。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-793fab9c04-dd1a6f-cd5cc0) 一套流程下來， GPT-4V不僅能準確判斷圖片上的哪些內容符合需求，還能準確找到交互按鍵，並學會“自動上網”。這是個大專案，目前還只實現了部分功能，包括點擊、打字交互、自動標註等。接下來，還有其他的一些功能要實現，例如試試AI打標器（目前網頁端的交互還是通過通過JS介面得知哪裡能交互，不是AI識別的）、以及提示使用者輸入詳細資訊等。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5555729fd5-dd1a6f-cd5cc0) 此外，作者也提到，現階段GPT-4V-Act用法上還有一些需要注意的地方。例如，GPT-4V-Act可能會被網頁打開後鋪天蓋地的彈窗小廣告給“整懵了”，然後出現交互bug。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-966abf8cc1-dd1a6f-cd5cc0) 又例如，目前這種玩法可能會違反OpenAI的產品使用規定：> 除非API允許，否則不得使用任何自動化或程式設計的方法從服務中提取數據並輸出，包括抓取、網路收集或網路數據提取。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-a924083ce9-dd1a6f-cd5cc0) 所以用的時候也要低調一點（doge） ## **微軟SoM作者也來圍觀** 這個專案在網上發出后，吸引了不少人的圍觀。像是小哥用到的微軟Set-of-Mark ing工具的作者，就發現了這個專案：> 出色的工作！![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f9224bf124-dd1a6f-cd5cc0) 還有網友提到，甚至可以用來讓AI自己讀取驗證碼。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-84f9efa831-dd1a6f-cd5cc0) 這個在SoM專案中提到過，GPT-4V是能成功解讀驗證碼的（所以以後可能還真不知道是人還是機器在上網![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5b99300c4c-dd1a6f-cd5cc0) ）。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-80c7595147-dd1a6f-cd5cc0) 與此同時，也有網友已經在想像桌面流自動化（desktop automation）的操作了。對此作者回應稱：> AI自動標註器應該能實現這個，我也確實在計劃製作一個更通用的Copilot。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d4b79af60d-dd1a6f-cd5cc0) 不過目前GPT-4V還是要收費的，有沒有其他的實現方法？作者也表示，目前還沒有，但確實可能會嘗試Fuyu-8B或者LLa這樣的開源模型。![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7b5105bac6-dd1a6f-cd5cc0) 免費的自動化桌面流AI助手，可以期待一波了。參考連結： [1] [2]