CMU Tsinghua MIT detonou o primeiro fluxo infinito de Agente do mundo, e o robô "007" não pode parar de trabalhar horas extras e autoaprendizagem! A inteligência incorporada é revolucionada

2023-11-04 08:23:51

Fonte do artigo: New Zhiyuan

Editor: Eneias está sonolento

Recentemente, o RoboGen, o primeiro agente robótico generativo do mundo proposto pela CMU/MIT/Tsinghua/Umass, pode gerar dados infinitamente e permitir que os robôs treinem sem parar 24 horas por dia, 7 dias por semana. A AIGC para a Robótica é, de facto, o caminho do futuro.

O primeiro agente bot generativo do mundo foi lançado!

Por muito tempo, em comparação com modelos de linguagem ou visão que podem ser treinados em dados de Internet em larga escala, o modelo de estratégia para treinar robôs requer dados com informações de interação física dinâmica, e a falta desses dados sempre foi o maior gargalo no desenvolvimento da inteligência incorporada.

Recentemente, pesquisadores da CMU, Tsinghua University, MIT, UMass e outras instituições propuseram um novo agente RoboGen.

Usando o conhecimento em larga escala contido em grandes modelos de linguagem e modelos generativos, juntamente com as informações físicas fornecidas por mundos simulados realistas, várias tarefas, cenários e dados de ensino podem ser gerados "ilimitadamente", e o robô pode ser totalmente treinado 24 horas por dia, 7 dias por semana.

No momento, estamos rapidamente ficando sem tokens do mundo real de alta qualidade da rede. Os dados usados para treinar IA em todo o mundo estão se esgotando.

Hinton, o pai do deep learning, disse: "As empresas de tecnologia estão treinando novos modelos com 100 vezes mais poder de computação do que o GPT-4 nos próximos 18 meses". Os parâmetros do modelo são maiores, e a demanda de poder de computação é enorme, mas onde estão os dados?

Diante de modelos famintos, a síntese de IA é a resposta.

Endereço:

Página inicial do projeto:

Endereço Open Source:

Especificamente, uma equipe de pesquisa liderada por Gan Chuang, cientista-chefe do MIT-IBM, propôs um loop "propose-generate-learn" com o apoio de IA generativa e simulações físicas diferenciáveis, permitindo que os agentes resolvam problemas e treinem robôs por conta própria.

Em primeiro lugar, o agente sugeriu que deveríamos desenvolver essa habilidade.

Em seguida, ele gera o ambiente, a configuração e a orientação de aprendizagem de habilidades apropriadas para criar um ambiente simulado.

Finalmente, o agente irá decompor a tarefa de nível superior proposta em subtarefas, selecionar o melhor método de aprendizagem e, em seguida, aprender a estratégia e dominar as habilidades propostas.

Vale a pena notar que todo o processo quase não requer supervisão humana, e o número de tarefas é ilimitado!

Para este estudo de sucesso, Jim Fan, cientista sênior da NVIDIA, também o encaminhou.

Agora, o robô aprendeu uma série de operações de jateamento -

Coloque seus pertences em um armário:

Micro-ondas uma tigela de sopa:

Puxe a alavanca para preparar café:

Bem como backflips e muito mais:

Ambiente simulado, a chave para a aprendizagem de competências diversas

O dilema perene na investigação em robótica é como dar aos robôs as competências necessárias para operar em ambientes não fabris e executar uma vasta gama de tarefas para os seres humanos.

Nos últimos anos, ensinamos aos robôs uma variedade de habilidades complexas, como manipulação de fluidos, arremesso de objetos, jogar futebol, parkour e muito mais, mas essas habilidades são isoladas, têm um campo de visão curto e exigem descrições de tarefas projetadas por humanos e supervisão de treinamento.

Como a coleta de dados do mundo real é cara e trabalhosa, essas habilidades são treinadas em simulações aleatórias no domínio apropriado e, em seguida, implantadas no mundo real.

Os ambientes simulados têm muitas vantagens em relação à exploração e coleta de dados do mundo real, como fornecer acesso privilegiado a um estado de baixo nível e oportunidades ilimitadas de exploração; Suporta computação massivamente paralela, e a velocidade de coleta de dados é significativamente acelerada; Permite que os bots desenvolvam estratégias de loop fechado e recursos de recuperação de erros.

No entanto, a construção de um ambiente simulado requer uma série de tarefas tediosas (projetar tarefas, selecionar ativos relevantes e semanticamente significativos, gerar layouts e configurações de cenários sensatos, formular supervisão de treinamento, como funções de recompensa ou perda). Mesmo no mundo simulado, a escalabilidade do aprendizado de habilidades do robô é muito limitada.

Por isso, os investigadores propõem um paradigma de "simulação generativa" que combina os avanços na aprendizagem de competências robóticas simuladas com os mais recentes avanços em modelos fundacionais e generativos.

Aproveitando as capacidades de geração de modelos de base de última geração, as simulações generativas podem gerar informações para todas as etapas necessárias para as várias habilidades do robô na simulação.

Graças ao conhecimento abrangente de codificação nos modelos base mais recentes, o cenário e os dados de tarefas gerados dessa forma podem ser muito semelhantes à distribuição de cenários do mundo real.

Além disso, esses modelos podem fornecer subtarefas decompostas de baixo nível que podem ser perfeitamente tratadas por métodos de aprendizagem de políticas específicas do domínio, resultando em demonstrações em circuito fechado de várias habilidades e cenários.

Processo RoboGen

RoboGen é um processo totalmente automatizado que permite que os robôs aprendam várias habilidades 24 horas por dia, 7 dias por semana e consiste em 4 etapas:

Proposta de tarefa;
Geração de cenas;
Formação de geração supervisionada;
Use as informações geradas para a aprendizagem de habilidades.

Aproveitando as capacidades incorporadas de senso comum e geração dos modelos básicos mais recentes, o RoboGen pode automatizar a geração de tarefas, cenários e supervisão de treinamento, permitindo o aprendizado multi-habilidade para robôs em escala.

Sugestão de Tarefa

Nesta fase, o RoboGen é capaz de propor tarefas de nível superior, gerar o ambiente correspondente, decompor os objetivos de nível superior em subtarefas de nível baixo e, em seguida, aprender subhabilidades sequencialmente.

Primeiro, o RoboGen gera tarefas significativas, diversificadas e de alto nível para o robô aprender.

O pesquisador inicializa o sistema usando um tipo específico de robô e amostras aleatórias de objetos da piscina. As informações fornecidas do robô e do objeto de amostra são então inseridas no LLM.

Este processo de amostragem garante a diversidade de tarefas de geração.

Por exemplo, um robô de pernas como um robô quadrúpede pode adquirir uma variedade de habilidades motoras, enquanto um manipulador de braço robótico, quando emparelhado, tem o potencial de executar uma variedade de tarefas de manipulação com diferentes objetos de amostragem.

Os pesquisadores usaram o GPT-4 para fazer consultas no processo atual. Isto é seguido por uma explicação dos detalhes do RoboGen no contexto de uma máquina, bem como as tarefas relacionadas com a manipulação de objetos.

Os objetos usados para inicialização são amostrados a partir de uma lista predefinida, incluindo objetos articulados e não articulados que são comuns em cenas domésticas, como fornos, micro-ondas, dispensadores de água, laptops, máquinas de lavar louça e assim por diante.

Como o GPT-4 foi treinado em grandes conjuntos de dados da Internet, ele tem uma compreensão rica da acessibilidade desses objetos, como interagir com eles e a quais tarefas significativas eles podem ser associados.

Por exemplo, se o objeto articulado amostrado for um forno de micro-ondas, onde a junta 0 é a junta rotativa que conecta a porta, e a junta 1 é outra junta rotativa que controla o botão do temporizador, o GPT-4 retornará uma tarefa - "O braço do robô coloca uma tigela de sopa no forno de micro-ondas, fecha a porta e define o temporizador de micro-ondas para aquecer o tempo a".

Os outros objetos necessários para a tarefa gerada, há uma tigela de sopa a, e as articulações e ligações associadas à tarefa, incluindo a junta 0 (para abrir a porta do micro-ondas), a junta 1 (para definir o temporizador), o link 0 (para a porta) e o link 1 (o botão do temporizador).

Para objetos articulados, como o PartNetMobility é o único conjunto de dados de objetos articulados de alta qualidade e já abrange uma ampla gama de ativos articulados, as tarefas são geradas com base nos ativos amostrados.

Ao consultar repetidamente diferentes objetos de amostra e exemplos, uma variedade de operações e tarefas de movimento pode ser gerada.

Geração de cena

Dada uma tarefa, você pode continuar a gerar o cenário de simulação correspondente para aprender as habilidades para concluir essa tarefa.

Como mostrado na imagem, os componentes e configurações da cena são gerados de acordo com a descrição da tarefa, e os ativos do objeto são recuperados ou gerados, que são então preenchidos com a cena de simulação.

Os componentes e configurações da cena são compostos pelos seguintes elementos: uma consulta para o ativo relacionado a ser preenchido na cena, seus parâmetros físicos (como tamanho), configuração (como ângulo de articulação inicial) e a configuração espacial geral do ativo.

Além dos ativos de objeto necessários necessários para a tarefa gerada na etapa anterior, a fim de aumentar a complexidade e a diversidade da cena gerada, ao mesmo tempo em que se assemelham à distribuição de objetos da cena real, os pesquisadores também pediram ao GPT-4 para retornar consultas adicionais para objetos relacionados à semântica da tarefa.

Por exemplo, para a tarefa "Abra o armário, coloque o brinquedo nele e feche-o", a cena resultante também incluirá um tapete de sala de estar, uma lâmpada, um livro e uma cadeira de escritório.

### Formação Geração Supervisionada

A fim de adquirir competências relevantes, a aprendizagem de competências deve ser supervisionada.

O RoboGen consultará primeiro o GPT-4 para planejar e dividir tarefas longas em subtarefas mais curtas.

Uma suposição chave é que, quando uma tarefa é dividida em subtarefas suficientemente curtas, cada subtarefa pode ser resolvida de forma confiável por algoritmos existentes, como aprendizagem por reforço, planejamento de movimento, otimização de trajetória, etc.

Após a decomposição, o RoboGen consulta o GPT-4 para selecionar o algoritmo apropriado para resolver cada subtarefa.

Vários tipos diferentes de algoritmos de aprendizagem estão integrados no RoboGen: aprendizagem por reforço, estratégias evolutivas, otimização de trajetória baseada em gradiente e inicialização de ações com planeamento de movimento.

Cada um é adequado para diferentes tarefas, como otimização de trajetória baseada em gradiente, que é mais adequada para aprender tarefas de manipulação refinadas envolvendo corpos moles, como moldar a massa em uma forma alvo.

A inicialização de ações em combinação com o planejamento de movimento é mais confiável ao resolver tarefas, como se aproximar de um objeto alvo por meio de um caminho livre de colisão.

A aprendizagem por reforço e as estratégias evolutivas são mais adequadas para tarefas ricas em contato que envolvem interação constante com outros componentes da cena, como movimentos das pernas, ou quando a ação desejada não pode simplesmente ser parametrizada por uma pose discreta de efetor final, como girar o botão de um forno.

Em resumo, o GPT-4 escolhe qual algoritmo usar online com base nas subtarefas geradas.

Em seguida, é hora de construir um cenário de simulação para o robô e deixá-lo aprender habilidades.

Robô aprende a abrir cofre

Por exemplo, o RoboGen pedirá ao robô para aprender a tarefa muito delicada de ajustar a direção de uma lâmpada de mesa.

Curiosamente, nesta cena, há objetos frágeis, como monitores de computador, no chão.

Pode-se dizer que é um grande teste da capacidade de reconhecimento ambiental do robô.

Para isso, o RoboGen gera um código de operação muito detalhado, incluindo configuração de cena, decomposição de tarefas e supervisão:

Além disso, tarefas que exigem muitas etapas para serem concluídas, como fazer com que o robô retire o conteúdo do cofre, serão treinadas.

Isso envolve abrir, tomar, colocar, fechar a porta e outras operações, durante as quais também é necessário tentar evitar a colisão com móveis.

O código fornecido pelo RoboGen é o seguinte:

Ou, por exemplo, ter um robô humanoide na Boston Dynamics girando no lugar, que pode ser encontrado em um pequeno espaço.

Aqui está o código:

Resultados Experimentais

- Diversidade da Missão

Como mostrado na Tabela 1, o RoboGen alcança a menor semelhança de auto-BLEU e incorporação em comparação com todos os benchmarks anteriores. Em outras palavras, a diversidade de tarefas de geração RoboGen é maior do que a de benchmarks e conjuntos de dados de aprendizagem de habilidades feitos artificialmente!

- Eficácia do Cenário

Como mostrado na Figura 4, a remoção da verificação de tamanho resulta em uma queda acentuada nas pontuações do BLIP-2 devido à grande discrepância entre o tamanho dos objetos no Objaverse e no PartNetMobility e o tamanho real no mundo real. Além disso, o BLIP-2 sem validação de objeto também apresentou menor pontuação e maior variância.

Em contraste, a etapa de validação no RoboGen pode melhorar significativamente a eficácia da seleção de objetos.

- Eficácia das Instruções de Formação

Como mostrado na Figura 3, o robô aprende habilidades com base na orientação de treinamento (ou seja, decomposição de tarefas e função de recompensa) gerada pelo RoboGen em quatro tarefas de longo alcance.

Os resultados mostram que o robô aprende com sucesso as habilidades para completar as tarefas correspondentes. Em outras palavras, os coaches de treinamento gerados automaticamente são eficazes na obtenção de habilidades significativas e úteis.

- Aprendizagem de Competências

Os resultados da Tabela 2 mostram que permitir a escolha do algoritmo de aprendizagem é benéfico para melhorar o desempenho da conclusão da tarefa. Se você usar apenas RL, você vai falhar no aprendizado de habilidades para a maioria das tarefas.

-Sistema

Como mostrado na Figura 1, o RoboGen pode gerar uma variedade de tarefas para a aprendizagem de habilidades, incluindo manipulação de objetos rígidos/articulares, locomoção e manipulação de corpos moles.

A Figura 3 mostra ainda que o RoboGen é capaz de fornecer habilidades de operação de longo alcance de uma maneira razoável de decomposição.

Introdução ao autor

Yufei Wang é estudante do terceiro ano de doutoramento no Instituto de Robótica da Universidade Carnegie Mellon, onde é supervisionado pelo Prof. Zackory Erickson e pelo Prof. David Held, com um interesse de investigação na aprendizagem da robótica.

Anteriormente, ele recebeu seu mestrado em ciência da computação da CMU em dezembro de 2020 sob a supervisão do Prof. David Held, e seu bacharelado em ciência de dados do Yuanpei College, Universidade de Pequim em julho de 2019 sob a supervisão do Prof. Bin Dong.

Zhou Xian é estudante de doutoramento no Instituto de Robótica da Universidade Carnegie Mellon sob a supervisão de Katerina Fragkiadaki. Os seus interesses de investigação são robótica, visão computacional e aprendizagem de modelos mundiais.

Antes de ingressar na CMU, ele completou seu bacharelado na Universidade Tecnológica de Nanyang, Cingapura, sob a supervisão de Pham Quang Cuong e I-Ming Chen. Ele também estagiou na Meta AI, Akshara Rai e MIT-IBM AI Lab sob o mentor de Chuang Gan.

Atualmente, sua pesquisa se concentra na construção de uma estratégia neural unificada e infraestrutura de simulação para aprendizagem de robôs escalável.

Além disso, há também Chen Feng de Tsinghua Yao Ban.

O líder da equipe, Gan Chuang, é atualmente o cientista-chefe da IBM e professor assistente na Universidade de Massachusetts, e é discípulo do acadêmico Yao Chizhi. Durante seu Ph.D., ele ganhou o Tsinghua Special Award, Microsoft Scholar e Baidu Scholar. Sua pesquisa foi financiada pelo Amazon Research Award, Sony Faculty Award, Cisco Faculty Award, Microsoft Accelerate Foundation Models Research Program, entre outros.

Recursos:

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

0/400

Sem comentários

Tema
#Gate & WLFI USD1 Points Program
59k Popularidade
#Trump Allows 401(k) Crypto Investing
34k Popularidade
#Join Copy Trading Share to Win $2,000
27k Popularidade
#Show My Alpha Points
77k Popularidade
#SOL Futures Reach New High
22k Popularidade

Marcar

sitemap