Le 27 octobre, Boston Dynamics, le plus grand développeur de robotique au monde, a présenté une nouvelle étude sur son site Web qui a développé un chien robot guidé par un guide parlant en combinant ChatGPT, Spot et d’autres modèles d’IA.
Il est rapporté que le chien robot peut parler aux humains selon des invites textuelles et vocales, et fournit une fonction visuelle de questions et réponses, qui peut analyser la photo prise par la caméra et générer automatiquement des descriptions d’images.
Boston Dynamics affirme que les modèles à langage large tels que ChatGPT ont démontré de puissantes capacités de contrôle et de sortie, ce qui les a incités à contrôler le comportement et les fonctions de prise de décision des robots physiques. Par exemple, la saisie de données d’attractions spécifiques, d’images, etc., permet au robot de fournir des fonctions de guide touristique logiques et organisées.
De plus, cela améliore également la capacité anthropomorphique des robots physiques, comme vous raconter une blague froide et faire une action amusante qui vous rend heureux. Si vous utilisez la méthode capillaire traditionnelle, ce sera une chose très difficile.
Principes de la technologie des chiens robots pour les guides touristiques
Boston Dynamics utilise son robot quadrupède Spot, qu’il a développé lui-même, comme cadre robotique physique pour réaliser des fonctions de base telles que la marche, la surveillance, la navigation et le balayage.
Afin de permettre au chien robot de parler et d’interagir avec les humains, les développeurs l’ont équipé d’un haut-parleur Respeaker V2, un microphone à anneau avec LED, qui peut être connecté à l’EAP 2 de Spot via USB pour la transmission de données.
1) Spot EAP 2) Haut-parleur 3) Haut-parleur Bluetooth 4) Bras de pointage et caméra de luminaire
Un ordinateur a été utilisé comme cerveau de contrôle du chien robot et a interagi avec lui par le biais du SDK Spot. Afin de faire en sorte que le chien robot ait des actions anthropomorphiques, telles que hocher la tête et étirer son cou, le bras pointeur et la caméra à pince de Spot sont utilisés.
Faites parler le chien robot avec ChatGPT
Une fois l’environnement matériel physique construit, afin de faire en sorte que le chien robot ait une fonction de dialogue, le personnel de R & D utilise GPT-3.5 et GPT-4 combinés avec le SDK Spot, et effectue un réglage fin d’instruction simple, de sorte que le chien robot ait la fonction de jugement et de dialogue de guide primaire.
Ensuite, pour permettre à Spot d’interagir avec les humains et l’environnement, le VQA et le logiciel de synthèse vocale sont intégrés. Dans le même temps, la caméra de préhension et la caméra frontale du robot sont introduites dans le BLIP-2 et affichées en mode de questions-réponses visuelles (par exemple, « Qu’est-ce qui est si intéressant dans cette image ? »). et d’autres questions simples) ou le mode légende de l’image pour l’exécuter.
Le processus s’exécute environ une fois par seconde et les résultats sont saisis directement dans l’invite.
Afin de permettre au chien robot de réaliser la fonction d'« écoute », les développeurs saisissent les données du microphone dans le modèle vocal Whisper into English text d’OpenAI.
Pour que le chien robot puisse avoir une conversation avec un humain, il doit convertir les commandes vocales humaines en texte pour inviter ChatGPT, donc un outil de conversion est également nécessaire. Après avoir essayé une variété d’outils, les développeurs ont décidé d’utiliser le service cloud ElevenLabs.
Phénomènes surprenants dans les expériences
Au cours de plusieurs conversations de test, les développeurs ont découvert un phénomène surprenant, le chien robot semble avoir une capacité simple d’auto-décision.
Par exemple, lorsque vous demandez au chien robot qui est Marc Raibert (directeur exécutif de Boston Dynamics) ? Il a répondu : « Je ne sais pas qui il est, allons au service d’assistance et demandons. » "**
Une fois au comptoir de service, le chien robot a continué à demander au personnel de service qui était Marc Raibert ?
Quand les développeurs demandent : Qui sont tes parents ? Le chien robot s’est dirigé vers les zones d’exposition du Spot V1 et du Big Dog, et a considéré ces robots comme ses pères. En fait, ils ont une corrélation**.
Le chien robot montre également un côté intéressant et peut demander activement aux passants s’il y a des créatures mystérieuses dans les environs.
Boston Dynamics a déclaré qu’il continuerait à optimiser les fonctions du produit à l’avenir. La combinaison de ChatGPT et de robots physiques ouvre la porte à l’atterrissage physique de grands modèles de langage, qui peuvent être largement utilisés dans les guides touristiques, le divertissement, la logistique, la compagnie et d’autres domaines.
À propos de Boston Dynamics
Boston Dynamics a été fondée en 1992 et son siège social est situé à Boston, dans le Massachusetts. Ce qui a commencé comme une succursale du Massachusetts Institute of Technology (MIT) est devenu une entreprise indépendante.
Boston Dynamics est connu pour développer des robots très avancés, flexibles et pratiques, et ses produits sont utilisés dans les domaines de l’industrie, de la recherche et de la consommation, principalement les robots représentatifs : BigDog, Atlas, Spot, Handle, etc.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
En combinant ChatGPT avec des robots physiques, Boston Dynamics a développé un monstre !
Source originale : Communauté ouverte de l’AIGC
Le 27 octobre, Boston Dynamics, le plus grand développeur de robotique au monde, a présenté une nouvelle étude sur son site Web qui a développé un chien robot guidé par un guide parlant en combinant ChatGPT, Spot et d’autres modèles d’IA.
Il est rapporté que le chien robot peut parler aux humains selon des invites textuelles et vocales, et fournit une fonction visuelle de questions et réponses, qui peut analyser la photo prise par la caméra et générer automatiquement des descriptions d’images.
Boston Dynamics affirme que les modèles à langage large tels que ChatGPT ont démontré de puissantes capacités de contrôle et de sortie, ce qui les a incités à contrôler le comportement et les fonctions de prise de décision des robots physiques. Par exemple, la saisie de données d’attractions spécifiques, d’images, etc., permet au robot de fournir des fonctions de guide touristique logiques et organisées.
De plus, cela améliore également la capacité anthropomorphique des robots physiques, comme vous raconter une blague froide et faire une action amusante qui vous rend heureux. Si vous utilisez la méthode capillaire traditionnelle, ce sera une chose très difficile.
Principes de la technologie des chiens robots pour les guides touristiques
Boston Dynamics utilise son robot quadrupède Spot, qu’il a développé lui-même, comme cadre robotique physique pour réaliser des fonctions de base telles que la marche, la surveillance, la navigation et le balayage.
Un ordinateur a été utilisé comme cerveau de contrôle du chien robot et a interagi avec lui par le biais du SDK Spot. Afin de faire en sorte que le chien robot ait des actions anthropomorphiques, telles que hocher la tête et étirer son cou, le bras pointeur et la caméra à pince de Spot sont utilisés.
Faites parler le chien robot avec ChatGPT
Une fois l’environnement matériel physique construit, afin de faire en sorte que le chien robot ait une fonction de dialogue, le personnel de R & D utilise GPT-3.5 et GPT-4 combinés avec le SDK Spot, et effectue un réglage fin d’instruction simple, de sorte que le chien robot ait la fonction de jugement et de dialogue de guide primaire.
Ensuite, pour permettre à Spot d’interagir avec les humains et l’environnement, le VQA et le logiciel de synthèse vocale sont intégrés. Dans le même temps, la caméra de préhension et la caméra frontale du robot sont introduites dans le BLIP-2 et affichées en mode de questions-réponses visuelles (par exemple, « Qu’est-ce qui est si intéressant dans cette image ? »). et d’autres questions simples) ou le mode légende de l’image pour l’exécuter.
Le processus s’exécute environ une fois par seconde et les résultats sont saisis directement dans l’invite.
Phénomènes surprenants dans les expériences
Au cours de plusieurs conversations de test, les développeurs ont découvert un phénomène surprenant, le chien robot semble avoir une capacité simple d’auto-décision.
Par exemple, lorsque vous demandez au chien robot qui est Marc Raibert (directeur exécutif de Boston Dynamics) ? Il a répondu : « Je ne sais pas qui il est, allons au service d’assistance et demandons. » "**
Une fois au comptoir de service, le chien robot a continué à demander au personnel de service qui était Marc Raibert ?
Quand les développeurs demandent : Qui sont tes parents ? Le chien robot s’est dirigé vers les zones d’exposition du Spot V1 et du Big Dog, et a considéré ces robots comme ses pères. En fait, ils ont une corrélation**.
Le chien robot montre également un côté intéressant et peut demander activement aux passants s’il y a des créatures mystérieuses dans les environs.
Boston Dynamics a déclaré qu’il continuerait à optimiser les fonctions du produit à l’avenir. La combinaison de ChatGPT et de robots physiques ouvre la porte à l’atterrissage physique de grands modèles de langage, qui peuvent être largement utilisés dans les guides touristiques, le divertissement, la logistique, la compagnie et d’autres domaines.
À propos de Boston Dynamics
Boston Dynamics a été fondée en 1992 et son siège social est situé à Boston, dans le Massachusetts. Ce qui a commencé comme une succursale du Massachusetts Institute of Technology (MIT) est devenu une entreprise indépendante.
Boston Dynamics est connu pour développer des robots très avancés, flexibles et pratiques, et ses produits sont utilisés dans les domaines de l’industrie, de la recherche et de la consommation, principalement les robots représentatifs : BigDog, Atlas, Spot, Handle, etc.