2025-08-23 10:34:18

您将看到类人模型不断使用一种系统2 + 系统1风格的架构，这实际上是受到人类认知的启发。

大多数视觉-语言-行动(VLA)模型今天被构建为集中式多模态系统，能够在单一网络中处理感知、语言和行动。

Codec的基础设施非常适合这一点，因为它将每个操作员视为一个沙盒模块。这意味着您可以并行启动多个操作员，每个操作员运行自己的模型或任务，同时通过相同的架构保持它们的封装和协调。

机器人和类人机器人通常具有多个大脑，其中一个操作员可能负责视觉处理，另一个负责平衡，另一个进行高级规划等，这些都可以通过Codec的系统进行协调。

Nvidia的基础模型Issac GR00T N1使用了两模块的System 2 + System 1架构。System 2是一个视觉语言模型(a版本的PaLM或类似的多模态)，它通过机器人的摄像头观察世界并听取指令，然后制定高层次计划。

系统1是一个扩散变换器策略，它将计划转化为实时的连续动作。你可以把系统2看作是深思熟虑的大脑，而系统1则是本能的身体控制器。系统2可能会输出诸如“移动到红杯，抓住它，然后将其放在架子上”这样的指令，而系统1将生成详细的关节轨迹，以便腿和手臂顺利地执行每一步。

系统1在大量轨迹数据(上进行了训练，包括人类遥控演示和物理模拟数据)，以掌握精细动作，而系统2则基于具有互联网预训练的变压器(进行语义理解)。

这种推理与行动的分离对NVIDIA来说非常强大。这意味着GR00T可以处理需要规划的长期任务(，得益于系统2)，同时也能即时对扰动作出反应(，得益于系统1)。

如果一个机器人正在搬运托盘，而有人轻推托盘，系统1可以立即纠正平衡，而不是等待较慢的系统2注意到。

GR00T N1 是最早公开可用的机器人基础模型之一，并迅速获得了关注。

开箱即用，它在多个任务的模拟中展示了技能，能够用一只手或两只手抓取和移动物体，将物品在手之间传递，并在没有任何特定任务编程的情况下执行多步骤的工作。由于它并不局限于单一的具体化，开发者展示了它在不同机器人上工作，只需进行最小的调整。

这对于 Helix (Figure 的基础模型)也是如此，该模型使用这种类型的架构。Helix 允许两个机器人或多个技能同时操作，Codec 可以通过运行多个共享信息的操作员来实现多智能体大脑。

这种“隔离舱”设计意味着每个组件可以专门化(，就像系统1与系统2)，甚至可以由不同的团队开发，但它们可以协同工作。

这是一种独特的方法，因为Codec正在构建深层软件堆栈，以支持这种模块化的分布式智能，而大多数其他公司只关注AI模型本身。

Codec 还利用了大型的预训练模型。如果您正在在其上构建机器人应用程序，您可能会将 OpenVLA 或 Pi Zero 基础模型作为您的操作员的一部分。Codec 提供了连接器，方便访问摄像头视频流或机器人 API，因此您不必编写低级代码来获取机器人摄像头的图像或向其电动机发送速度命令。所有这些都通过高级 SDK 进行了抽象。

我对Codec如此看好的原因之一正是我上面所概述的。他们并没有追逐叙事，架构旨在成为基础模型之间的粘合剂，并且它无缝支持多脑系统，这对人类复杂性至关重要。

因为我们在这个趋势中还处于早期阶段，因此研究行业领导者的设计并理解它们为何有效是值得的。考虑到硬件和软件之间的层次关系，机器人技术很难掌握，但一旦你学会逐块分析每个部分，就会变得更容易理解。

现在可能觉得这是一种浪费时间，但这就是在AI季节让我获得先机的方法，这也是我早早参与许多项目的原因。要变得有纪律，学习哪些组件可以共存，哪些组件无法扩展。

在接下来的几个月里，它将带来回报。

十亿万亿 ( $CODEC ) 编码。

LL1.14%

VSN-2.69%

IN-7.04%

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

0/400

暂无评论