El 27 de octubre, Boston Dynamics, el principal desarrollador de robótica del mundo, mostró un nuevo estudio en su sitio web que desarrolló un perro robot guiado por guía parlante mediante la combinación de ChatGPT, Spot y otros modelos de IA.
Se informa que el perro robot puede hablar con los humanos de acuerdo con las indicaciones de texto y voz, y proporciona una función visual de preguntas y respuestas, que puede analizar la imagen tomada por la cámara y generar automáticamente descripciones de imágenes.
Boston Dynamics dice que los modelos de lenguaje grande como ChatGPT han demostrado poderosas capacidades de control y salida, que los han inspirado a controlar el comportamiento y las funciones de toma de decisiones de los robots físicos. Por ejemplo, la introducción de algunos datos específicos de la atracción, imágenes, etc., permite que el robot proporcione funciones de guía turística lógicas y organizadas.
Además, esto también mejora la capacidad antropomórfica de los robots físicos, como contarte un chiste frío y hacer una acción divertida que te haga feliz. Si utilizas el método tradicional del cabello, será algo muy difícil.
Principios de la tecnología de perros robot para guía turístico
Boston Dynamics utiliza su robot cuadrúpedo de desarrollo propio, Spot, como un marco de robot físico para realizar funciones básicas como caminar, monitorear, navegar y escanear.
Para permitir que el perro robot hable e interactúe con los humanos, los desarrolladores lo equiparon con un altavoz Respeaker V2, un micrófono de matriz en anillo con LED, que se puede conectar al EAP 2 de Spot a través de USB para la transmisión de datos.
1) Spot EAP 2) Altavoz 3) Altavoz Bluetooth 4) Brazo de apunte y cámara de dispositivo
Se utilizó una computadora como cerebro de control del perro robot e interactuó con él a través del SDK de Spot. Para hacer que el perro robot tenga acciones antropomórficas, como asentir y estirar el cuello, se utiliza el brazo de punta de Spot y la cámara de abrazadera.
Haz que el perro robot hable con ChatGPT
Después de que se construye el entorno de hardware físico, para hacer que el perro robot tenga una función de diálogo, el personal de R & D usa GPT-3.5 y GPT-4 combinados con el SDK de Spot, y lleva a cabo un ajuste fino de instrucciones simples, de modo que el perro robot tenga la función de juicio y diálogo de guía primaria.
A continuación, para permitir que Spot interactúe con los seres humanos y el medio ambiente, se integran VQA y software de voz a texto. Al mismo tiempo, la cámara de agarre del robot y la cámara frontal del cuerpo se introducen en el BLIP-2 y se muestran en un modo visual de preguntas y respuestas (por ejemplo, "¿Qué tiene de interesante esta imagen?"). y otras preguntas simples) o el modo de leyenda de imagen para ejecutarlo.
El proceso se ejecuta aproximadamente una vez por segundo y los resultados se introducen directamente en el mensaje.
Para permitir que el perro robot realice la función de "escuchar", los desarrolladores introducen los datos del micrófono en el modelo de voz Whisper de OpenAI en texto en inglés.
Para que el perro robot pueda tener una conversación con un humano, necesita convertir los comandos de voz humanos en texto para solicitar ChatGPT, por lo que también se necesita una herramienta de conversión. Después de probar una variedad de herramientas, los desarrolladores decidieron utilizar el servicio en la nube ElevenLabs.
Fenómenos sorprendentes en experimentos
En el transcurso de múltiples conversaciones de prueba, los desarrolladores encontraron un fenómeno sorprendente, el perro robot parece tener una simple capacidad de autodecisión.
Por ejemplo, cuando le preguntas al perro robot quién es Marc Raibert (director ejecutivo de Boston Dynamics). Respondió: "No sé quién es, vayamos a la mesa de ayuda y preguntemos". "**
Una vez en el mostrador de servicio, el perro robot continuó preguntando al personal de servicio quién era Marc Raibert.
Cuando los desarrolladores preguntan: ¿Quiénes son tus padres? El perro robot caminó hacia las áreas de exhibición de Spot V1 y Big Dog, y consideró a estos robots como sus padres. De hecho, tienen una correlación**.
El perro robot también muestra un lado interesante y puede preguntar activamente a los transeúntes si hay alguna criatura misteriosa alrededor.
Boston Dynamics dijo que continuará optimizando las funciones del producto en el futuro. La combinación de ChatGPT y robots físicos abre la puerta al aterrizaje físico de grandes modelos de lenguaje, que pueden ser ampliamente utilizados en guías turísticos, entretenimiento, logística, compañía y otros campos.
Acerca de Boston Dynamics
Boston Dynamics fue fundada en 1992 y tiene su sede en Boston, Massachusetts. Lo que comenzó como una sucursal del Instituto Tecnológico de Massachusetts (MIT) se convirtió en una empresa independiente.
Boston Dynamics es conocida por desarrollar robots altamente avanzados, flexibles y prácticos, y sus productos se utilizan en los campos industrial, de investigación y de consumo, principalmente los robots representativos incluyen: BigDog, Atlas, Spot, Handle, etc.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Combinando ChatGPT con robots físicos, Boston Dynamics ha desarrollado un monstruo.
Fuente original: AIGC Open Community
El 27 de octubre, Boston Dynamics, el principal desarrollador de robótica del mundo, mostró un nuevo estudio en su sitio web que desarrolló un perro robot guiado por guía parlante mediante la combinación de ChatGPT, Spot y otros modelos de IA.
Se informa que el perro robot puede hablar con los humanos de acuerdo con las indicaciones de texto y voz, y proporciona una función visual de preguntas y respuestas, que puede analizar la imagen tomada por la cámara y generar automáticamente descripciones de imágenes.
Boston Dynamics dice que los modelos de lenguaje grande como ChatGPT han demostrado poderosas capacidades de control y salida, que los han inspirado a controlar el comportamiento y las funciones de toma de decisiones de los robots físicos. Por ejemplo, la introducción de algunos datos específicos de la atracción, imágenes, etc., permite que el robot proporcione funciones de guía turística lógicas y organizadas.
Además, esto también mejora la capacidad antropomórfica de los robots físicos, como contarte un chiste frío y hacer una acción divertida que te haga feliz. Si utilizas el método tradicional del cabello, será algo muy difícil.
Principios de la tecnología de perros robot para guía turístico
Boston Dynamics utiliza su robot cuadrúpedo de desarrollo propio, Spot, como un marco de robot físico para realizar funciones básicas como caminar, monitorear, navegar y escanear.
Se utilizó una computadora como cerebro de control del perro robot e interactuó con él a través del SDK de Spot. Para hacer que el perro robot tenga acciones antropomórficas, como asentir y estirar el cuello, se utiliza el brazo de punta de Spot y la cámara de abrazadera.
Haz que el perro robot hable con ChatGPT
Después de que se construye el entorno de hardware físico, para hacer que el perro robot tenga una función de diálogo, el personal de R & D usa GPT-3.5 y GPT-4 combinados con el SDK de Spot, y lleva a cabo un ajuste fino de instrucciones simples, de modo que el perro robot tenga la función de juicio y diálogo de guía primaria.
A continuación, para permitir que Spot interactúe con los seres humanos y el medio ambiente, se integran VQA y software de voz a texto. Al mismo tiempo, la cámara de agarre del robot y la cámara frontal del cuerpo se introducen en el BLIP-2 y se muestran en un modo visual de preguntas y respuestas (por ejemplo, "¿Qué tiene de interesante esta imagen?"). y otras preguntas simples) o el modo de leyenda de imagen para ejecutarlo.
El proceso se ejecuta aproximadamente una vez por segundo y los resultados se introducen directamente en el mensaje.
Fenómenos sorprendentes en experimentos
En el transcurso de múltiples conversaciones de prueba, los desarrolladores encontraron un fenómeno sorprendente, el perro robot parece tener una simple capacidad de autodecisión.
Por ejemplo, cuando le preguntas al perro robot quién es Marc Raibert (director ejecutivo de Boston Dynamics). Respondió: "No sé quién es, vayamos a la mesa de ayuda y preguntemos". "**
Una vez en el mostrador de servicio, el perro robot continuó preguntando al personal de servicio quién era Marc Raibert.
Cuando los desarrolladores preguntan: ¿Quiénes son tus padres? El perro robot caminó hacia las áreas de exhibición de Spot V1 y Big Dog, y consideró a estos robots como sus padres. De hecho, tienen una correlación**.
El perro robot también muestra un lado interesante y puede preguntar activamente a los transeúntes si hay alguna criatura misteriosa alrededor.
Boston Dynamics dijo que continuará optimizando las funciones del producto en el futuro. La combinación de ChatGPT y robots físicos abre la puerta al aterrizaje físico de grandes modelos de lenguaje, que pueden ser ampliamente utilizados en guías turísticos, entretenimiento, logística, compañía y otros campos.
Acerca de Boston Dynamics
Boston Dynamics fue fundada en 1992 y tiene su sede en Boston, Massachusetts. Lo que comenzó como una sucursal del Instituto Tecnológico de Massachusetts (MIT) se convirtió en una empresa independiente.
Boston Dynamics es conocida por desarrollar robots altamente avanzados, flexibles y prácticos, y sus productos se utilizan en los campos industrial, de investigación y de consumo, principalmente los robots representativos incluyen: BigDog, Atlas, Spot, Handle, etc.