Em 27 de outubro, a Boston Dynamics, maior desenvolvedora de robótica do mundo, mostrou um novo estudo em seu site que desenvolveu um cão-robô guiado por guia falante combinando ChatGPT, Spot e outros modelos de IA.
É relatado que o cão robô pode falar com os seres humanos de acordo com prompts de texto e voz, e fornece uma função visual de perguntas e respostas, que pode analisar a imagem tirada pela câmera e gerar automaticamente descrições de imagem.
A Boston Dynamics diz que modelos de linguagem grande, como o ChatGPT, demonstraram poderosas capacidades de controle e saída, que os inspiraram a controlar o comportamento e as funções de tomada de decisão de robôs físicos. Por exemplo, inserir alguns dados específicos da atração, fotos, etc., permite que o robô forneça funções lógicas e organizadas de guia turístico.
Além disso, isso também aumenta a capacidade antropomórfica dos robôs físicos, como contar uma piada fria e fazer uma ação engraçada que te faz feliz. Se você usar o método de cabelo tradicional, será uma coisa muito difícil.
Princípios da Tecnologia de Cães Robôs para Guia de Turismo
A Boston Dynamics usa seu robô quadrúpede auto-desenvolvido Spot como uma estrutura de robô físico para realizar funções básicas, como caminhada, monitoramento, navegação e digitalização.
Para permitir que o cão-robô fale e interaja com humanos, os desenvolvedores o equiparam com um alto-falante Respeaker V2, um microfone ring array com LEDs, que pode ser conectado ao EAP 2 do Spot via USB para transmissão de dados.
1) Spot EAP 2) Alto-falante 3) Alto-falante Bluetooth 4) Braço de ponto e câmera de fixação
Um computador foi usado como cérebro de controle do cão-robô e interagiu com ele através do Spot SDK. Para que o cão-robô tenha ações antropomórficas, como acenar e esticar o pescoço, são usados o braço ponteiro e a câmera de grampo de Spot.
Coloque o cão-robô falando com o ChatGPT
Depois que o ambiente físico de hardware é construído, a fim de fazer com que o cão robô tenha a função de diálogo, o pessoal de R & D usa GPT-3.5 e GPT-4 combinados com o SDK Spot, e realiza um ajuste fino de instruções simples, para que o cão robô tenha a função de julgamento e diálogo de guia primário.
Em seguida, para permitir que o Spot interaja com os seres humanos e o ambiente, o VQA e o software de fala para texto são integrados. Ao mesmo tempo, a câmara de garra do robô e a câmara corporal frontal são alimentadas no BLIP-2 e apresentadas num modo visual de perguntas e respostas (por exemplo, "O que há de tão interessante nesta imagem?"). e outras perguntas simples) ou modo de legenda de imagem para executá-lo.
O processo é executado aproximadamente uma vez por segundo e os resultados são inseridos diretamente no prompt.
Para permitir que o cão-robô perceba a função de "ouvir", os desenvolvedores inserem os dados do microfone no modelo de fala da OpenAI, Whisper, em texto em inglês.
Para que o cão-robô tenha uma conversa com um humano, ele precisa converter comandos de voz humanos em texto para solicitar o ChatGPT, então uma ferramenta de conversão também é necessária. Depois de experimentar uma variedade de ferramentas, os desenvolvedores decidiram usar o serviço de nuvem ElevenLabs.
Fenómenos surpreendentes em experiências
No decorrer de várias conversas de teste, os desenvolvedores encontraram um fenômeno surpreendente, o cão-robô parece ter uma simples capacidade de autodecisão.
Por exemplo, quando você pergunta ao cão-robô quem é Marc Raibert (diretor executivo da Boston Dynamics)? Ele respondeu: "Não sei quem é, vamos ao help desk e perguntar". "**
Uma vez no balcão de atendimento, o cão-robô continuou a perguntar à equipe de serviço quem era Marc Raibert?
Quando os desenvolvedores perguntam: Quem são seus pais? O cão-robô caminhou até as áreas de exibição do Spot V1 e do Big Dog, e considerou esses robôs como seus pais. Na verdade, eles têm uma correlação**.
O cão-robô também mostra um lado interessante, e pode perguntar ativamente aos transeuntes se há alguma criatura misteriosa ao redor.
A Boston Dynamics disse que continuará a otimizar as funções do produto no futuro. A combinação de ChatGPT e robôs físicos abre as portas para o pouso físico de grandes modelos linguísticos, que podem ser amplamente utilizados em guias turísticos, entretenimento, logística, companheirismo e outros campos.
Sobre a Boston Dynamics
A Boston Dynamics foi fundada em 1992 e está sediada em Boston, Massachusetts. O que começou como uma filial do Instituto de Tecnologia de Massachusetts (MIT) transformou-se numa empresa independente.
A Boston Dynamics é conhecida por desenvolver robôs altamente avançados, flexíveis e práticos, e seus produtos são usados em áreas industriais, de pesquisa e de consumo, principalmente robôs representativos incluem: BigDog, Atlas, Spot, Handle, etc.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Combinando o ChatGPT com robôs físicos, a Boston Dynamics desenvolveu um monstro!
Fonte original: AIGC Open Community
Em 27 de outubro, a Boston Dynamics, maior desenvolvedora de robótica do mundo, mostrou um novo estudo em seu site que desenvolveu um cão-robô guiado por guia falante combinando ChatGPT, Spot e outros modelos de IA.
É relatado que o cão robô pode falar com os seres humanos de acordo com prompts de texto e voz, e fornece uma função visual de perguntas e respostas, que pode analisar a imagem tirada pela câmera e gerar automaticamente descrições de imagem.
A Boston Dynamics diz que modelos de linguagem grande, como o ChatGPT, demonstraram poderosas capacidades de controle e saída, que os inspiraram a controlar o comportamento e as funções de tomada de decisão de robôs físicos. Por exemplo, inserir alguns dados específicos da atração, fotos, etc., permite que o robô forneça funções lógicas e organizadas de guia turístico.
Além disso, isso também aumenta a capacidade antropomórfica dos robôs físicos, como contar uma piada fria e fazer uma ação engraçada que te faz feliz. Se você usar o método de cabelo tradicional, será uma coisa muito difícil.
Princípios da Tecnologia de Cães Robôs para Guia de Turismo
A Boston Dynamics usa seu robô quadrúpede auto-desenvolvido Spot como uma estrutura de robô físico para realizar funções básicas, como caminhada, monitoramento, navegação e digitalização.
Um computador foi usado como cérebro de controle do cão-robô e interagiu com ele através do Spot SDK. Para que o cão-robô tenha ações antropomórficas, como acenar e esticar o pescoço, são usados o braço ponteiro e a câmera de grampo de Spot.
Coloque o cão-robô falando com o ChatGPT
Depois que o ambiente físico de hardware é construído, a fim de fazer com que o cão robô tenha a função de diálogo, o pessoal de R & D usa GPT-3.5 e GPT-4 combinados com o SDK Spot, e realiza um ajuste fino de instruções simples, para que o cão robô tenha a função de julgamento e diálogo de guia primário.
Em seguida, para permitir que o Spot interaja com os seres humanos e o ambiente, o VQA e o software de fala para texto são integrados. Ao mesmo tempo, a câmara de garra do robô e a câmara corporal frontal são alimentadas no BLIP-2 e apresentadas num modo visual de perguntas e respostas (por exemplo, "O que há de tão interessante nesta imagem?"). e outras perguntas simples) ou modo de legenda de imagem para executá-lo.
O processo é executado aproximadamente uma vez por segundo e os resultados são inseridos diretamente no prompt.
Fenómenos surpreendentes em experiências
No decorrer de várias conversas de teste, os desenvolvedores encontraram um fenômeno surpreendente, o cão-robô parece ter uma simples capacidade de autodecisão.
Por exemplo, quando você pergunta ao cão-robô quem é Marc Raibert (diretor executivo da Boston Dynamics)? Ele respondeu: "Não sei quem é, vamos ao help desk e perguntar". "**
Uma vez no balcão de atendimento, o cão-robô continuou a perguntar à equipe de serviço quem era Marc Raibert?
Quando os desenvolvedores perguntam: Quem são seus pais? O cão-robô caminhou até as áreas de exibição do Spot V1 e do Big Dog, e considerou esses robôs como seus pais. Na verdade, eles têm uma correlação**.
O cão-robô também mostra um lado interessante, e pode perguntar ativamente aos transeuntes se há alguma criatura misteriosa ao redor.
A Boston Dynamics disse que continuará a otimizar as funções do produto no futuro. A combinação de ChatGPT e robôs físicos abre as portas para o pouso físico de grandes modelos linguísticos, que podem ser amplamente utilizados em guias turísticos, entretenimento, logística, companheirismo e outros campos.
Sobre a Boston Dynamics
A Boston Dynamics foi fundada em 1992 e está sediada em Boston, Massachusetts. O que começou como uma filial do Instituto de Tecnologia de Massachusetts (MIT) transformou-se numa empresa independente.
A Boston Dynamics é conhecida por desenvolver robôs altamente avançados, flexíveis e práticos, e seus produtos são usados em áreas industriais, de pesquisa e de consumo, principalmente robôs representativos incluem: BigDog, Atlas, Spot, Handle, etc.