O RT-2 do Google é o momento GPT-3 para robôs?

Question

Em 29 de julho, um repórter do New York Times assumiu a liderança ao ver o mais recente robô controlado por modelo RT-2 do Google no Google Lab.

Um robô de um braço está parado em frente a uma mesa. Sobre a mesa estão três estatuetas de plástico: um leão, uma baleia e um dinossauro. O engenheiro deu ao robô o comando: “Pegue animais extintos.” O robô ronronou por um momento, depois estendeu os braços, abriu as patas e caiu. Ele pegou o dinossauro.

É um lampejo de inteligência.

O New York Times descreveu: "Até a semana passada, esta demonstração era impossível. Os robôs não podem manipular de forma confiável objetos que nunca viram antes e certamente não podem atingir o objetivo de passar de "animais extintos" para "dinossauros de plástico". salto lógico. "

**Embora ainda esteja na demonstração, e o Google não planeja fazer um lançamento maior ou comercializá-lo imediatamente, a demonstração foi suficiente para mostrar um pequeno vislumbre das oportunidades que modelos grandes podem trazer para os robôs. **

Antes da chegada da era dos grandes modelos, as pessoas treinavam robôs, geralmente otimizados para cada tarefa, como pegar um determinado brinquedo, o que exigia uma quantidade suficiente de dados, para que o robô pudesse identificar com precisão esse brinquedo de todos os ângulos e sob vários luzes e segure o brinquedo. sucesso. Para que o robô perceba que tem a função de agarrar o brinquedo, o robô precisa estar programado para resolvê-lo.

As capacidades de inteligência e generalização do grande modelo permitem que as pessoas vejam o início da solução desses problemas e se movam em direção a robôs universais.

Aplique o Transformer no robô

O novo modelo RT-2 do Google, chamado Robotic Transformer 2, usa a arquitetura Transformer como base de seu modelo.

A arquitetura Transformer proposta em 2018 é a base do modelo de linguagem grande (LLM) que atualmente é popular em todo o mundo, mas, na verdade, como arquitetura, o Transformer pode ser usado não apenas em modelos de linguagem grande, mas também em Train em outros tipos de dados. Já em março deste ano, o Google lançou o PaLM-E, que era o maior modelo de linguagem visual (VLM) do mundo na época.

No modelo de linguagem grande, a linguagem é codificada como um vetor e as pessoas fornecem uma grande quantidade de corpus para o modelo, para que ele possa prever o que os humanos costumam dizer na próxima frase, de modo a gerar uma resposta de linguagem.

No modelo de linguagem visual, o modelo pode codificar informações de imagem em um vetor de linguagem, permitindo que o modelo "entenda" o texto e "entenda" as imagens da mesma maneira. Os pesquisadores forneceram uma grande quantidade de corpus e imagens ao modelo de linguagem visual, permitindo que ele realizasse tarefas como responder a perguntas visuais, legendar imagens e reconhecer objetos.

Ambas as imagens e linguagem são relativamente fáceis de obter uma grande quantidade de dados. Portanto, é fácil para o modelo alcançar resultados surpreendentes.

No entanto, existe uma grande dificuldade em utilizar a arquitetura Transformer para gerar o comportamento do robô. "Os dados relacionados aos movimentos do robô são muito caros." O professor Xu Huazhe, professor assistente do Instituto de Informação Interdisciplinar da Universidade de Tsinghua, disse ao Geek Park: "Os dados de visão e linguagem vêm de humanos, que são dados passivos, enquanto os dados do robô todos os dados de movimento vêm de dados ativos para bots.

**Por exemplo, eu quero estudar a ação de um robô servindo café. Seja escrevendo um código para o robô executar ou usando outros métodos para o robô executar, é necessário que o robô realmente execute esta operação uma vez para obter esses dados. ** Portanto, a escala e a magnitude dos dados, linguagem e imagens do robô são completamente diferentes. "

**Na primeira geração do robô Transformer modelo RT-1 pesquisado pelo Google, o Google abriu pela primeira vez um desafio desse tipo, tentando construir um modelo de ação em linguagem visual. **

Para construir esse modelo, o Google usou 13 robôs e passou 17 meses em um ambiente de cozinha construído para coletar um conjunto de dados composto pelos dados ativos dos robôs em mais de 700 tarefas.

O conjunto de dados registra simultaneamente três dimensões:

Visão - dados da câmera quando o robô está executando tarefas;
Linguagem - texto da tarefa descrita em linguagem natural;
e movimento do robô - eixo xyz e dados de deflexão, etc. quando a mão do robô executa uma tarefa.

Embora bons resultados experimentais tenham sido obtidos naquela época, é concebível que seja muito difícil aumentar ainda mais a quantidade de dados no conjunto de dados.

Fonte da imagem: vídeo de introdução do Google AI

**A inovação do RT-2 é que o RT-2 usa o já mencionado modelo de linguagem visual (VLM) PaLM-E e outro modelo de linguagem visual PaLI-X como base - um modelo de linguagem visual puro pode ser transmitido Os dados em nível de rede é treinado, porque a quantidade de dados é grande o suficiente e bons resultados podem ser obtidos.No estágio de ajuste fino, os dados de movimento do robô são adicionados a ele e ajustados juntos (co-ajuste fino). **

Dessa forma, o robô é equivalente a primeiro ter um sistema de bom senso que foi aprendido em dados massivos - embora ainda não consiga entender as bananas, ele já pode reconhecer as bananas e até sabe que as bananas são uma espécie de fruta. comer.

No estágio de ajuste fino, ao adicionar o conhecimento de como o robô pega as bananas depois de vê-las no mundo real, o robô não só tem a capacidade de reconhecer as bananas sob várias luzes e ângulos, mas também tem a capacidade de pegar as bananas. habilidade.

Desta forma, os dados necessários para treinar o robô com a arquitetura Transformer são significativamente reduzidos.

O RT-2 usa diretamente o conjunto de dados de visão/linguagem/ação do robô usado no estágio de treinamento do RT-1 no estágio de ajuste fino. Os dados fornecidos pelo Google mostram que o RT-2 funciona tão bem quanto o RT-1 ao pegar itens que apareceram originalmente nos dados de treinamento. E por causa do "cérebro com bom senso", ao pegar itens que não foram vistos antes, a taxa de sucesso aumentou de 32% do RT-1 para 62%.

"Esta é a beleza do modelo grande." Xu Huazhe disse: "Você não pode desmontá-lo porque reconhece que os dois objetos são semelhantes em material, ou porque são semelhantes em tamanho, ou por outras razões. O sucesso a taxa de apreensão aumentou. Depois de aprender coisas suficientes, algumas habilidades surgirão.

O futuro da interação com robôs usando linguagem natural

Academicamente, a forte generalização exibida pelo RT-2 pode resolver o problema de dados insuficientes de treinamento do robô. **Além disso, o choque intuitivo do RT-2 ainda vem de seu lado inteligente. **

Em experimentos em que os pesquisadores queriam que ele pudesse pegar "algo que pudesse ser usado como martelo", o robô pegou uma pedra em uma pilha de objetos e, quando solicitado a pegar uma bebida oferecida a um cansado Red Bull é selecionado na pilha de itens.

Essa habilidade vem da capacidade do pesquisador de introduzir uma "cadeia de pensamento" ao treinar grandes modelos. Tal raciocínio semântico multi-segmentado é muito difícil de alcançar na pesquisa tradicional de aprendizagem por imitação de robôs.

No entanto, usar linguagem natural para interagir com robôs não é uma ideia original do RT-2.

Nas pesquisas de robótica anteriores, os pesquisadores sempre precisavam converter os requisitos da tarefa em códigos para os robôs entenderem. Ao mesmo tempo, uma vez que os problemas ocorriam, eles também precisavam escrever códigos para corrigir o comportamento dos robôs. Todo o processo exigia várias interações e era ineficiente . **E agora que já temos um robô de diálogo muito inteligente, o próximo passo natural é deixar o robô interagir com humanos em linguagem natural. **

"Começamos a trabalhar nesses modelos de linguagem há cerca de dois anos e então percebemos que havia uma riqueza de conhecimento neles", diz o cientista de pesquisa do Google Karol Hausman, "então começamos a conectá-los a robôs".

No entanto, usar um modelo grande como a mente de um robô tem suas próprias dificuldades. Um dos problemas mais importantes é o problema de aterramento, ou seja, como converter a resposta do modelo grande, que geralmente é relativamente irrestrito, em instruções que direcionam as ações do robô.

** Em 2022, o Google lançou o modelo Say-can. **Modelos, como o nome sugere, usam considerações duplas para ajudar o robô a agir. A primeira consideração é dizer. O modelo é combinado com o modelo PaLM de modelo de linguagem grande do Google, que pode decompor as tarefas obtidas por meio de linguagem natural e interação humana e encontrar o mais adequado para a ação atual. Outra consideração é possível. O modelo usa uma algoritmo para calcular Encontre a probabilidade de que o robô atual possa executar esta tarefa com sucesso. O robô se move com base nessas duas considerações.

Por exemplo, diga ao robô "Meu leite derramou, você pode me ajudar?" esponja para limpá-lo por si só. Em seguida, o robô calculará por meio de um algoritmo que, como robô, a probabilidade de encontrar com sucesso um limpador é muito baixa e a probabilidade de encontrar uma esponja para limpá-la sozinha é alta. Após dupla consideração, o robô escolherá a ação de procurar uma esponja para enxugar o leite.

Fonte da imagem: vídeo introdutório Saycan

Embora em uma arquitetura de modelo de duas camadas, as ações que o robô pode executar com sucesso já estejam pré-projetadas, o modelo de linguagem grande pode apenas ajudar o robô a escolher um plano de tarefa apropriado. Nesse modelo, o robô já demonstrou um forte senso de inteligência.

**Entretanto, embora o efeito pareça semelhante por fora, o RT-2 segue um caminho diferente. Durante o treinamento, o modelo aprende os três tipos de dados de visão, linguagem e comportamento do robô ao mesmo tempo. O modelo RT-2 não executa a decomposição da tarefa primeiro e depois executa as operações da tarefa, mas após a entrada da linguagem natural, ele gera ações diretamente através da operação do modelo. **

"A estrutura de dois níveis é semelhante ao que eu quero fazer. Primeiro penso no primeiro passo para fazer isso, no segundo passo para fazer aquilo e, em seguida, implemento essas estratégias uma por uma." O professor Xu Huazhe disse: "E a estrutura de ponta a ponta é semelhante. Então, eu realmente não pensei sobre a primeira etapa e a segunda etapa, então apenas fiz.” Um exemplo da última pode ser comparado a digitar e bater papo em telefones celulares todos os dias Normalmente, não levamos isso a sério ao digitar e conversar. Pense em como os músculos devem se mover, mas pense nas palavras a serem digitadas e digite-as diretamente.

"Duas rotas diferentes ou métodos diferentes ainda não provaram ser a única maneira correta", disse Xu Huazhe. No entanto, devido ao excelente desempenho do RT-2, um modelo que pode assumir a direção técnica de entrada e saída parece valer a pena explorar.

"Por causa dessa mudança (o excelente desempenho do RT-2), tivemos que repensar todo o nosso plano de pesquisa", disse Vincent Vanhoucke, diretor de robótica da DeepMind do Google. "Muitas coisas que fiz antes são completamente inúteis."

RT-2 é o momento GPT3 para robôs?

O robô RT-2 do Google não é perfeito. Em uma demonstração real testemunhada por um repórter do New York Times, identificou erroneamente o sabor de uma lata de refrigerante de limão (dizendo "laranja"). Em outra ocasião, quando questionado sobre qual fruta havia na mesa, o robô respondeu “branco” (na verdade era uma banana). Um porta-voz do Google explicou que o bot usou respostas em cache para responder a perguntas de testadores anteriores porque seu Wi-Fi foi brevemente interrompido.

**Além disso, usar modelos grandes para treinar robôs inevitavelmente enfrentará problemas de custo. **Atualmente, quando os robôs do Google estão raciocinando e fazendo julgamentos, eles precisam transmitir dados para a nuvem, e vários TPUs calcularão juntos e enviarão os resultados de volta ao robô, que executará a operação. Tais cálculos podem ser considerados muito caros.

Vincent Vanhoucke, diretor de robótica da DeepMind do Google, acredita que a nova pesquisa abre as portas para robôs serem usados em ambientes humanos - os pesquisadores acreditam que robôs com modelos de linguagem integrados podem entrar em armazéns, na indústria médica e até mesmo como um assistente doméstico, ajudando a dobrar a roupa, remover itens da máquina de lavar louça e arrumar a casa.

"Se você abrir uma fábrica e precisar usar robôs, a taxa de sucesso deve ser muito alta. Você não quer dizer que depois de comprar um robô, você precisa de muita gente para manter o robô e melhorar as coisas que o robô não faz bem. Então isso O custo é muito alto." O professor Xu Huazhe disse: "Robôs na cena doméstica podem ser outra situação, porque talvez os requisitos de taxa de sucesso para algumas tarefas na cena doméstica não sejam tão altos. por exemplo, dobrar roupas não é tão bom. Aos seus olhos, esta missão falhou, mas não terá um grande impacto em você."

Yang Likun (Yaan Lecun), um dos três gigantes da inteligência artificial, tem uma afirmação famosa que foi enfatizada muitas vezes: a inteligência artificial não é inteligente o suficiente. Qualquer criança pode aprender rapidamente a limpar a mesa e colocar a louça na máquina de lavar louça, mas um robô não.

Isso pode ser verdade para a pesquisa atual de robôs, mas assim como o imperfeito GPT-3 mostrou à indústria a direção do desenvolvimento de modelos em larga escala, talvez o imperfeito RT-2 de hoje também abra uma era futura em que os robôs entram em casa e tornam-se nossos assistentes.

Ver original

O RT-2 do Google é o momento GPT-3 para robôs?

Aplique o Transformer no robô

O futuro da interação com robôs usando linguagem natural

**RT-2 é o momento GPT3 para robôs? **

RT-2 é o momento GPT3 para robôs?