📢 Gate广场 #创作者活动第一期# 火热开启,助力 PUMP 公募上线!
Solana 爆火项目 Pump.Fun($PUMP)现已登陆 Gate 平台开启公开发售!
参与 Gate广场创作者活动,释放内容力量,赢取奖励!
📅 活动时间:7月11日 18:00 - 7月15日 22:00(UTC+8)
🎁 活动总奖池:$500 USDT 等值代币奖励
✅ 活动一:创作广场贴文,赢取优质内容奖励
📅 活动时间:2025年7月12日 22:00 - 7月15日 22:00(UTC+8)
📌 参与方式:在 Gate 广场发布与 PUMP 项目相关的原创贴文
内容不少于 100 字
必须带上话题标签: #创作者活动第一期# #PumpFun#
🏆 奖励设置:
一等奖(1名):$100
二等奖(2名):$50
三等奖(10名):$10
📋 评选维度:Gate平台相关性、内容质量、互动量(点赞+评论)等综合指标;参与认购的截图的截图、经验分享优先;
✅ 活动二:发推同步传播,赢传播力奖励
📌 参与方式:在 X(推特)上发布与 PUMP 项目相关内容
内容不少于 100 字
使用标签: #PumpFun # Gate
发布后填写登记表登记回链 👉 https://www.gate.com/questionnaire/6874
🏆 奖励设置:传播影响力前 10 名用户,瓜分 $2
谷歌AGI机器人大招:54人天团憋7个月,强泛化强推理,DeepMind和谷歌大脑合并后新成果
原文来源:量子位
爆火的大模型,正在重塑谷歌DeepMind的机器人研究。
最新成果之一,就是他们耗时7个月打造的机器人项目RT-2,狠狠在网上火了一把:
只需用人话下达命令,面前这个小家伙就能挥动机械臂,思考并完成“主人的任务”。
像是给流行歌手霉霉(Taylor Swift)递水、或是辨认明星球队Logo:
用网友的话来说,别小看这个能力,这是实现了从“灭绝的动物”到“塑料恐龙”的逻辑飞跃。
更“要命”的是,它还能轻松解决“给疲惫的人选一种饮料”这种需要结合思想链的多阶段推理问题——一听到命令小手就直奔红牛而去,简直不要太聪明。
有网友看完感叹:
将多模态大模型“塞进”机械臂
这个名叫RT-2(Robotic Transformer 2)的机器人项目,是去年年底发布的RT-1的“进化版”。
相比于其他的机器人研究,RT-2的核心优势在于,不仅能理解“人话”,还能对“人话”进行推理,并转变为机器人能理解的指令,从而分阶段完成任务。
具体来说,它具备三大能力——符号理解(Symbol understanding)、推理(Reasoning)和人类识别(Human recognition)。
第一个能力是“符号理解”,能将大模型预训练的知识,直接延展到机器人此前没见过的数据上。例如机器人数据库中虽然没有“红牛”,但它却能从大模型的知识中理解并掌握“红牛”的外貌,并拿捏物品。
第二个能力是“推理”,这也是RT-2的核心优势,要求机器人掌握数学、视觉推理和多语言理解三大技能。
技能一,包含数学逻辑推理的命令,“将香蕉放到2+1的总和的位置”:
那么,这三个能力是怎么实现的?
简单来说,就是将视觉-文本多模态大模型(VLM)具备的“推理”、“识别”、“数学”等能力,和机器人的操作能力结合起来。
例如将转动度数、放到哪个坐标点等数据,转变成文本“放到某个位置”。
这样一来,机器人数据也能被用到视觉-语言数据集中进行训练,同时在进行推理的过程中,原本的文本指令也会被重新转化为机器人数据,实现控制机器人等一系列操作。
没错,就是这么简单粗暴(手动狗头)
在这次的研究中,团队主要基于谷歌的一系列基础大模型来“做升级”,包括50亿和550亿的PaLI-X、30亿的PaLI以及120亿的PaLM-E。
为了提升大模型本身的能力,研究人员也下了不少功夫,把最近爆火的思维链、向量数据库和无梯度架构(no-gradient architectures)都用上了。
这一系列操作,也让RT-2和去年发布的RT-1相比,具有了不少新优势。
下面就来看看具体的实验结果。
性能可达RT-1三倍
RT-2使用上一代机器人模型RT-1的数据进行训练(也就是说数据没变,只是方法不同了)。
这些数据是用13个机器人在办公室搭建的一个厨房环境中耗时17个月收集到的。
在实际测试中(一共历经6000次),作者给了RT-2许多以前未见过的物体,需要RT-2在微调数据之外进行语义理解来完成任务。
结果完成的都相当不错:
包括从简单的识别字母、国旗、人物到从玩偶中识别陆生动物、选出颜色不相同的那只,甚至是捡起快要从桌上掉下去的零食等复杂的命令。
如前文所述,这两个变体分别在120亿参数的PaLM-E和550亿参数的PaLI-X上进行训练。
而为了更好地理解RT-2的不同设置如何影响泛化结果,作者又设计了两大类评估:
一是在模型尺寸上,仅在RT-2 PaLI-X变体分别采用50亿参数与550亿参数进行训练;
二是训练方法上,分别采用从头开始训练模型vs微调vs协同微调的方法。
最终结果表明,视觉语言模型预训练权重的重要性以及模型泛化能力有随着模型大小而提高的趋势。
最后,由于RT-2 PaLM-E变体是一个视觉-语言-动作模型,可以在单个神经网络中充当LLM、VLM和机器人控制器,因此RT-2还可以执行可控的思想链推理。
如下图所示的5个需要推理的任务中(尤其最后一个非常有意思:选择可以替代锤子的物品),它接到命令后会先输出自然语言步骤,然后再给出具体的动作token。
One More Thing
谷歌将机器人研究的重心放在大模型上,似乎也不是“空穴来风”。
就在这两天,他们和哥伦比亚大学合作的一篇关于“用大模型帮助获取更多机器人操作技能”的论文,同样很火:
再联想到前不久李飞飞团队的具身智能成果,可以说,用大模型带动机器人着实成为一种研究趋势,且已经让我们看到了一波非常有潜力的进展。
对于这个研究方向,你有哪些期待?
项目地址:
参考链接:
[1]
[2]
[3]
[4]