📢 Gate廣場專屬 #WXTM创作大赛# 正式開啓!
聚焦 CandyDrop 第59期 —— MinoTari (WXTM),總獎池 70,000 枚 WXTM 等你贏!
🎯 關於 MinoTari (WXTM)
Tari 是一個以數字資產爲核心的區塊鏈協議,由 Rust 構建,致力於爲創作者提供設計全新數字體驗的平台。
通過 Tari,數字稀缺資產(如收藏品、遊戲資產等)將成爲創作者拓展商業價值的新方式。
🎨 活動時間:
2025年8月7日 17:00 - 8月12日 24:00(UTC+8)
📌 參與方式:
在 Gate廣場發布與 WXTM 或相關活動(充值 / 交易 / CandyDrop)相關的原創內容
內容不少於 100 字,形式不限(觀點分析、教程分享、圖文創意等)
添加標籤: #WXTM创作大赛# 和 #WXTM#
附本人活動截圖(如充值記錄、交易頁面或 CandyDrop 報名圖)
🏆 獎勵設置(共計 70,000 枚 WXTM):
一等獎(1名):20,000 枚 WXTM
二等獎(3名):10,000 枚 WXTM
三等獎(10名):2,000 枚 WXTM
📋 評選標準:
內容質量(主題相關、邏輯清晰、有深度)
用戶互動熱度(點讚、評論)
附帶參與截圖者優先
📄 活動說明:
內容必須原創,禁止抄襲和小號刷量行爲
獲獎用戶需完成 Gate廣場實名
GPT-4V學會用鍵鼠上網,人類眼睜睜看著它發帖玩遊戲
文章來源:量子位
只需要給GPT-4V接入滑鼠和鍵盤,它就能根據瀏覽器介面上網:
這是一個MIT本科生小哥整出來的新活,名叫GPT-4V-Act。
要是用到的工具出bug了,GPT-4V甚至還能意識到、並試圖解決它。
教GPT-4V“自動上網”
GPT-4V-Act,本質上是一個基於Web瀏覽器的AI多模態助手(Chromium Copilot)。
它可以像人類一樣用滑鼠、鍵盤和螢幕「查看」網頁介面,並通過網頁中的交互按鍵進行下一步操作。
要實現這種效果,除了GPT-4V以外,還用到了三個工具。
一個是UI介面,可以讓GPT-4V“看見”網頁截圖,也能讓使用者與GPT-4V發生交互。
這樣,GPT-4V就能將每一步運行思路都通過對話方塊的形式反映出來,用戶來決定是否要繼續讓它操作。
相比讓GPT-4V直接「看圖說話」,這個工具可以將圖片關鍵細節拆分成不同的部分,並進行編號,讓GPT-4V有的放矢:
最後,還需要用到一個自動標註器(JS DOM auto-labeler),可以將網頁端所有能交互的按鍵標註出來,讓GPT-4V決定要按哪個。
這是個大專案,目前還只實現了部分功能,包括點擊、打字交互、自動標註等。
接下來,還有其他的一些功能要實現,例如試試AI打標器(目前網頁端的交互還是通過通過JS介面得知哪裡能交互,不是AI識別的)、以及提示使用者輸入詳細資訊等。
例如,GPT-4V-Act可能會被網頁打開後鋪天蓋地的彈窗小廣告給“整懵了”,然後出現交互bug。
微軟SoM作者也來圍觀
這個專案在網上發出后,吸引了不少人的圍觀。
像是小哥用到的微軟Set-of-Mark ing工具的作者,就發現了這個專案:
對此作者回應稱:
作者也表示,目前還沒有,但確實可能會嘗試Fuyu-8B或者LLa這樣的開源模型。
參考連結:
[1]
[2]