📢 Gate广场 #NERO发帖挑战# 秀观点赢大奖活动火热开启!
Gate NERO生态周来袭!发帖秀出NERO项目洞察和活动实用攻略,瓜分30,000NERO!
💰️ 15位优质发帖用户 * 2,000枚NERO每人
如何参与:
1️⃣ 调研NERO项目
对NERO的基本面、社区治理、发展目标、代币经济模型等方面进行研究,分享你对项目的深度研究。
2️⃣ 参与并分享真实体验
参与NERO生态周相关活动,并晒出你的参与截图、收益图或实用教程。可以是收益展示、简明易懂的新手攻略、小窍门,也可以是行情点位分析,内容详实优先。
3️⃣ 鼓励带新互动
如果你的帖子吸引到他人参与活动,或者有好友评论“已参与/已交易”,将大幅提升你的获奖概率!
NERO热门活动(帖文需附以下活动链接):
NERO Chain (NERO) 生态周:Gate 已上线 NERO 现货交易,为回馈平台用户,HODLer Airdrop、Launchpool、CandyDrop、余币宝已上线 NERO,邀您体验。参与攻略见公告:https://www.gate.com/announcements/article/46284
高质量帖子Tips:
教程越详细、图片越直观、互动量越高,获奖几率越大!
市场见解独到、真实参与经历、有带新互动者,评选将优先考虑。
帖子需原创,字数不少于250字,且需获得至少3条有效互动
AI搞定谷歌验证码,最新多模态大模型比GPT-4V空间理解更准确
原文来源:量子位
谷歌人机验证已经拦不住AI了!
最新多模态大模型,能轻松找到图中所有交通信号灯,还准确圈出了具体位置。
比如下图中非常细小的部件(region 1),它也可以分辨出来是避震。
“点一点”图像大模型都懂
Ferret解决的核心问题是让引用(referring)和定位(grounding)两方面空间理解能力更加紧密。
引用是指让模型准确理解给定区域的语义,也就是指一个位置它能知道是什么。
定位则是给出语义,让模型在图中找到对应目标。
对于人类来说,这两种能力是自然结合的,但是现有很多多模态大模型却只会单独使用引用和定位。
这样一来,模型就能分辨出边界框几乎一样的对象。
比如下图中两个物体的情况,如果只用离散边界框,模型会感到很“困惑”。和连续的自由形状混合表示相结合,能很好解决这一问题。
因此,Ferret可以接受各种区域输入,如点、边界框和自由形状,并理解其语义。
在输出中,它可以根据文本自动生成每个定位对象的坐标。
Ferret结合了离散坐标和连续特征,形成了一种混合区域表示。
这种表示方法旨在解决表示各种形状和格式的区域的挑战,包括点、边界框和自由形状。
离散坐标中每个坐标都被量化为一个目标框的离散坐标,这种量化确保了模型对不同图像大小的鲁棒性。
而连续特征则由空间感知视觉采样器提取,它利用二进制掩码和特征图在ROI内随机采样点,并通过双线性插值获得特征。
这些特征经过一个由3D点云模型启发的空间感知模块处理后,被浓缩成一个单一的向量, 并映射到大型语言模型(LLM)进行下一步处理。
这个数据集包含1.1M个样本,涵盖了个体对象、对象之间的关系、特定区域的描述以及基于区域的复杂推理等四个主要类别。
GRIT数据集包括了从公共数据集转换而来的数据、通过ChatGPT和GPT-4生成的指令调整数据,并额外提供了95K个困难的负样本以提高模型的鲁棒性。
Ferret模型在LLaVA-Bench和Ferret-Bench上进行评估,在所有任务中都表现出色,特别是在需要指代和视觉grounding的三个新任务上,Ferret的表现很出色。
全华人团队
Ferret大模型由苹果AI/ML和哥伦比亚大学研究团队共同带来,全华人阵容。
有昊轩和张昊天为共同一作。
有昊轩现在为哥伦毕业大学计算机科学博士,毕业后将加入苹果AI/ML团队。2018年从西安电子科技大学本科毕业。
主要研究方向为视觉语言理解、文本-图像生成和视觉语言。
在加入苹果之前,张昊天在华盛顿大学获得博士学位,本科毕业于上海交通大学。
他是GLIP/GLIPv2的主要作者之一,GLIP曾获得CVPR2022的Best Paper Award的提名。
论文地址: