📢 Gate广场 #MBG任务挑战# 发帖赢大奖活动火热开启!
想要瓜分1,000枚MBG?现在就来参与,展示你的洞察与实操,成为MBG推广达人!
💰️ 本期将评选出20位优质发帖用户,每人可轻松获得50枚MBG!
如何参与:
1️⃣ 调研MBG项目
对MBG的基本面、社区治理、发展目标、代币经济模型等方面进行研究,分享你对项目的深度研究。
2️⃣ 参与并分享真实体验
参与MBG相关活动(包括CandyDrop、Launchpool或现货交易),并晒出你的参与截图、收益图或实用教程。可以是收益展示、简明易懂的新手攻略、小窍门,也可以是现货行情点位分析,内容详实优先。
3️⃣ 鼓励带新互动
如果你的帖子吸引到他人参与活动,或者有好友评论“已参与/已交易”,将大幅提升你的获奖概率!
MBG热门活动(帖文需附下列活动链接):
Gate第287期Launchpool:MBG — 质押ETH、MBG即可免费瓜分112,500 MBG,每小时领取奖励!参与攻略见公告:https://www.gate.com/announcements/article/46230
Gate CandyDrop第55期:CandyDrop x MBG — 通过首次交易、交易MBG、邀请好友注册交易即可分187,500 MBG!参与攻略见公告:https://www.gate.com/announcements
微软写了份 GPT-4V 说明书:166 页讲解又全又详细,提示词 demo 示例一应俱全
来源:量子位
多模态王炸大模型GPT-4V,**166页“说明书”**重磅发布!而且还是微软团队出品。
什么样的论文,能写出166页?
不仅详细测评了GPT-4V在十大任务上的表现,从基础的图像识别、到复杂的逻辑推理都有展示;
还传授了一整套多模态大模型提示词使用技巧——
手把手教你从0到1学会写提示词,回答专业程度一看就懂,属实是把GPT-4V的使用门槛打到不存在了。
在166页报告发布前,他们还参与了OpenAI最新DALL·E 3的研究,对这个领域了解颇深。
相比OpenAI的18页GPT-4V论文,这篇166页“食用指南”一发布,立刻被奉为GPT-4V用户必读之物:
微软166页报告讲了啥?
这篇论文钻研GPT-4V的方法,核心就靠一个字——“试”。
微软研究员们设计了涵盖多个领域的一系列输入,将它们喂给GPT-4V,并观察和记录GPT-4V的输出。
随后,他们对GPT-4V完成各类任务的能力进行评估,还给出了使用GPT-4V的新提示词技巧,具体包括4大方面:
1、GPT-4V的用法:
5种使用方式:输入图像(images)、子图像(sub-images)、文本(texts)、场景文本(scene texts)和视觉指针(visual pointers)。
3种支持的能力:指令遵循(instruction following)、思维链(chain-of-thoughts)、上下文少样本学习(in-context few-shot learning)。
例如这是基于思维链变更提问方式后,GPT-4V展现出的指令遵循能力:
开放世界视觉理解(open-world visual understanding)、视觉描述(visual deion)、多模态知识(multimodal knowledge)、常识(commonsense)、场景文本理解(scene text understandin)、文档推理(document reasoning)、写代码(coding)、时间推理(temporal reasonin)、抽象推理(abstract reasoning)、情感理解(emotion understanding)
其中就包括这种,需要一些智商才能做出来的“图像推理题”:
提出了一种新的多模态提示词技巧“视觉参考提示”(visual referring ing),可以通过直接编辑输入图像来指示感兴趣的任务,并结合其他提示词技巧使用。
预测了多模态学习研究人员应该关注的2类领域,包括落地(潜在应用场景)和研究方向。
例如这是研究人员发现的GPT-4V可用场景之一——故障检测:
一起来看看GPT-4V如今的多模态能力进化到哪一步了。
精通专业领域图像,还能现学知识
图像识别
最基础的识别自然是不在话下,比如科技、体育界以及娱乐圈的各路名人:
不过越是有名的人和地点,判断起来也就越容易,所以要难度更大的图才能展现GPT-4V的能力。
比如医学影像,针对下面这张肺部CT,GPT-4V给出了这样的结论:
这张图中,GPT-4V成功识别出了这是一张脑部的核磁共振(MRI)影像。
同时,GPT-4V还发现存在大量积液,认为很可能是高级别脑胶质瘤。
经过专业人士判断,GPT-4V给出的结论完全正确。
不仅是解读表情包中的梗,真实世界中人类的表情所表达的情感也能被GPT-4看穿。
这方面,GPT-4V除了可以识别拉丁文字拼写的语言之外,中文、日文、希腊文等其他文字也都认识。
前面展示的DEMO,无论多么专业或多么难懂,都还停留在识别的范畴,但这只是GPT-4V技能的冰山一角。
除了看懂图片中的内容,GPT-4V还具有一定的推理能力。
简单一些的,GPT-4V可以发现两张图中的不同(虽然还有些错误)。
下面的一组图中,王冠和蝴蝶结的区别都被GPT-4V发现了。
当然难度不是在于图形本身,注意图中的第4条文字说明,原题目中图形的排列方式不是图中展示的样子。
除了用文本回答各种问题,GPT-4V还可以在图片中执行一系列操作。
比如我们手里有一张四位AI巨头的合影,要GPT-4V框出其中的人物并标注他们的姓名和简介。
除了这些静态内容,GPT-4V还能做动态分析,不过不是直接喂给模型一段视频。
下面的五张图是从一段制作寿司的教程视频中截取的,GPT-4V的任务是(在理解内容的基础上)推测这些图片出现的顺序。
比如下面的一组图中,人的动作究竟是开门还是关门,会导致排序结果截然相反。
GPT-4V不仅视觉本领强,关键是还能现学现卖。
还是举个例子,让GPT-4V读汽车仪表盘,一开始得出的答案是错误的:
那么,GPT-4V这些神器的效果背后,是怎样的一个团队呢?
清华校友领衔
这篇论文的作者一共有7位,均为华人,其中6位是核心作者。
她的研究领域是基于多模态感知智能的深度学习和机器学习,具体又包括视觉语言模型预训练、图像字幕生成、目标检测等AI技术。
原文地址: