📢 Gate广场专属 #WXTM创作大赛# 正式开启!
聚焦 CandyDrop 第59期 —— MinoTari (WXTM),总奖池 70,000 枚 WXTM 等你赢!
🎯 关于 MinoTari (WXTM)
Tari 是一个以数字资产为核心的区块链协议,由 Rust 构建,致力于为创作者提供设计全新数字体验的平台。
通过 Tari,数字稀缺资产(如收藏品、游戏资产等)将成为创作者拓展商业价值的新方式。
🎨 活动时间:
2025年8月7日 17:00 - 8月12日 24:00(UTC+8)
📌 参与方式:
在 Gate广场发布与 WXTM 或相关活动(充值 / 交易 / CandyDrop)相关的原创内容
内容不少于 100 字,形式不限(观点分析、教程分享、图文创意等)
添加标签: #WXTM创作大赛# 和 #WXTM#
附本人活动截图(如充值记录、交易页面或 CandyDrop 报名图)
🏆 奖励设置(共计 70,000 枚 WXTM):
一等奖(1名):20,000 枚 WXTM
二等奖(3名):10,000 枚 WXTM
三等奖(10名):2,000 枚 WXTM
📋 评选标准:
内容质量(主题相关、逻辑清晰、有深度)
用户互动热度(点赞、评论)
附带参与截图者优先
📄 活动说明:
内容必须原创,禁止抄袭和小号刷量行为
获奖用户需完成 Gate广场实名
GPT-4V学会用键鼠上网,人类眼睁睁看着它发帖玩游戏
文章来源:量子位
只需要给GPT-4V接入鼠标和键盘,它就能根据浏览器界面上网:
这是一个MIT本科生小哥整出来的新活,名叫GPT-4V-Act。
要是用到的工具出bug了,GPT-4V甚至还能意识到、并试图解决它。
教GPT-4V“自动上网”
GPT-4V-Act,本质上是一个基于Web浏览器的AI多模态助手(Chromium Copilot)。
它可以像人类一样用鼠标、键盘和屏幕“查看”网页界面,并通过网页中的交互按键进行下一步操作。
要实现这种效果,除了GPT-4V以外,还用到了三个工具。
一个是UI界面,可以让GPT-4V“看见”网页截图,也能让用户与GPT-4V发生交互。
这样,GPT-4V就能将每一步运行思路都通过对话框的形式反映出来,用户来决定是否要继续让它操作。
相比让GPT-4V直接“看图说话”,这个工具可以将图片关键细节拆分成不同的部分,并进行编号,让GPT-4V有的放矢:
最后,还需要用到一个自动标注器(JS DOM auto-labeler),可以将网页端所有能交互的按键标注出来,让GPT-4V决定要按哪个。
这是个大项目,目前还只实现了部分功能,包括点击、打字交互、自动标注等。
接下来,还有其他的一些功能要实现,例如试试AI打标器(目前网页端的交互还是通过通过JS接口得知哪里能交互,不是AI识别的)、以及提示用户输入详细信息等。
例如,GPT-4V-Act可能会被网页打开后铺天盖地的弹窗小广告给“整懵了”,然后出现交互bug。
微软SoM作者也来围观
这个项目在网上发出后,吸引了不少人的围观。
像是小哥用到的微软Set-of-Mark ing工具的作者,就发现了这个项目:
对此作者回应称:
作者也表示,目前还没有,但确实可能会尝试Fuyu-8B或者LLa这样的开源模型。
参考链接:
[1]
[2]