Los orangutanes aprenden a jugar "Minecraft", ¿el método es en realidad el mismo que el cuerpo inteligente GPT-4?

Question

Fuente original: Xinzhiyuan![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-817f1b7fd1-dd1a6f-1c6801) Fuente de la imagen: Generada por Unbounded AI‌Tenga en cuenta que este jugador está jugando "Minecraft" hábilmente y puede recolectar bocadillos y romper bloques con facilidad.¡Tan pronto como la cámara giró, descubrimos que la verdadera identidad del jugador resultó ser un orangután!Sí, este es un experimento de red neuronal biológica no humana de la Iniciativa Ape.El protagonista del experimento, Kanzi, es un bonobo de 42 años.Después del entrenamiento, aprendió varias habilidades, desafió entornos como aldeas, templos del desierto y portales en el reino inferior, y limpió las costumbres hasta el final.Los expertos en IA descubrieron que el proceso de enseñar a los entrenadores de orangutanes a aprender habilidades es similar al de los humanos que enseñan a la IA para jugar Minecraft, como el aprendizaje de refuerzo contextual, RLHF, aprendizaje por imitación, aprendizaje de cursos, etc.## **Cuando los orangutanes aprenden a jugar Minecraft**Kanzi, un bonobo de Ape Initiative, es uno de los orangutanes más inteligentes del mundo, entiende inglés y usa una pantalla táctil.En Ape Initiative, Kanzi tiene acceso a varias pantallas táctiles electrónicas, lo que puede haber sentado las bases para que comenzara rápidamente con "Minecraft".![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3b1cd0d717-dd1a6f-1c6801) La primera vez que la gente mostró Kanzi Minecraft, encontró una flecha verde tan pronto como se sentó frente a la pantalla y luego deslizó el dedo hacia el objetivo.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b8adf23fc2-dd1a6f-1c6801) ### **Aprende tres habilidades**En cuestión de segundos, Kanzi descubrió cómo moverse en Minecraft.Posteriormente, también aprendió a recolectar recompensas.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-adf467c768-dd1a6f-1c6801) Cada vez que se recolecte una recompensa, se recompensará con refrigerios como maní, uvas y manzanas.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-174f8cc831-dd1a6f-1c6801) La operación de Kanzi se está volviendo cada vez más hábil.Reconoce los obstáculos que son el mismo cilindro verde que la flecha del objetivo y los evita al recolectar recompensas.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d15213ebd5-dd1a6f-1c6801) Por supuesto, Kanzi también enfrentará dificultades. Requirió romper grandes bloques con la herramienta de ruptura, que nunca antes había visto.Al ver que Kanzi se atascaba, los humanos comenzaron a ayudarlo señalando los botones de herramientas deseados. Sin embargo, Kanzi aún no podía comprender después de leerlo.Los humanos tenían que hacerlo ellos mismos, rompiendo los bloques de madera con herramientas. Kanzi estaba pensativo después de verlo. A los ojos de todos los que esperaban, también hizo lo mismo. Después de hacer clic en el botón, rompió el bloque de madera. La gente estalló en vítores al instante.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f6b5082eab-dd1a6f-1c6801) Ahora, el árbol de habilidades de Kanzi tiene dos cosas: recolectar bocadillos y romper bloques.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d060b9e587-dd1a6f-1c6801) Mientras aprendía habilidades de cueva, el personal descubrió que si Kanzi se resbalaba del bloque de madera que estaba tratando de romper, Kanzi simplemente se iría. Por lo tanto, las personas han personalizado especialmente una tarea para ello——Rompe bloques de madera en una cueva llena de paredes de diamantes para demostrar sus habilidades de recolección y destrucción.Todo estaba bien en la cueva, sin embargo, Kanzi tuvo un problema: se quedó atascado en la esquina. En este momento, se necesitan seres humanos para dar una mano amiga.Eventualmente, Kanzi llegó al fondo de la cueva, rompiendo la última pared.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-d1d3d35671-dd1a6f-1c6801) La multitud estalló en aplausos y Kanzi chocó los cinco con el personal.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-abdf6e6a54-dd1a6f-1c6801) ### **Humanos engañados**Luego, vino lo interesante: el personal invitó a un jugador humano a jugar el juego con Kanzi, por supuesto, no conocía la identidad de Kanzi.El personal tiene la intención de ver cuánto tiempo le toma al jugador darse cuenta de que la persona que juega con él no es un ser humano.Al principio, este hermano pequeño sintió que la velocidad del movimiento del oponente era increíblemente lenta,Cuando la imagen de Kanzi se mostró frente a sus ojos, el hermano pequeño se asustó y retrocedió.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f301cf8384-dd1a6f-1c6801)## **Sal del laberinto**Después de jugar "Minecraft", Kanzi se volvió cada vez más valiente.Cada vez que Kanzi recoge una recompensa, la gente afirmará su comportamiento en forma de vítores y, si falla, el entrenador también lo alentará a continuar el juego con aplausos y vítores.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cba51defa7-dd1a6f-1c6801) En este momento, ha aprendido a desbloquear el mapa del laberinto subterráneo:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-36bde9ea64-dd1a6f-1c6801) Rompe los obstáculos frente a ti:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5c85364070-dd1a6f-1c6801) Encuentra la amatista:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0cf19e0192-dd1a6f-1c6801) Cuando Kanzi se atasca, sale a caminar y trae un palo para ponerlo a su lado.Incluso si desafortunadamente falla, Kanzi hará clic en el botón para regenerarse.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-5fbb28924d-dd1a6f-1c6801) El último nivel es un enorme laberinto lleno de tenedores.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f612834435-dd1a6f-1c6801) Debido a la demora en salir del laberinto, Kanzi se puso ansioso y comenzó a gritar con la rama, o rompió la rama con ira.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1a083c00e0-dd1a6f-1c6801) Al final, se calmó y continuó atravesando el nivel y salió del laberinto.Inmediatamente, aplausos y vítores rodearon a Kanzi.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-1b46b0b748-dd1a6f-1c6801) Parece que "My World" fue interpretado por Kanzi, un bonobo.**Similitudes entre enseñar orangutanes y enseñar IA**Ver a un bonobo jugar un videojuego de manera experta puede parecer un poco grotesco y extraño.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6aafab8128-dd1a6f-1c6801) El científico sénior de Nvidia, Jim Fan, comentó sobre esto:Aunque Kanzi y sus antepasados nunca habían visto Minecraft en sus vidas, se adaptó rápidamente a las texturas y la física de Minecraft que se muestra en las pantallas electrónicas.Y esto es muy diferente del entorno natural al que han estado expuestos y en el que han vivido. Este nivel de generalización supera con creces los modelos de visión más poderosos hasta la fecha.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6ee39c6559-dd1a6f-1c6801) Las técnicas para entrenar animales para jugar Minecraft son esencialmente los mismos principios que para entrenar inteligencia artificial:**- Aprendizaje por Refuerzo Basado en el Contexto:**Cada vez que Kanzi alcanza un hito marcado en el juego, obtiene una fruta o un maní, lo que lo motiva a seguir las reglas del juego.**- RLHF：**Kanzi no entiende el lenguaje humano, pero puede ver a sus entrenadores animándolo y respondiendo ocasionalmente. Los aplausos del personal de entrenamiento le dieron a Kanzi una fuerte señal de que estaba en el camino correcto.**- Aprendizaje por imitación:**Después de que el entrenador le mostró a Kanzi cómo completar la tarea, inmediatamente captó el significado de la operación relevante. El efecto de la presentación va mucho más allá de la estrategia de usar solo recompensas.**- Aprendizaje curricular:**El entrenador y Kanzi comienzan con un entorno muy simple y gradualmente le enseñan a Kanzi las habilidades de control. Finalmente, Kanzi puede viajar a través de cuevas, laberintos y abismos complejos.No solo eso, incluso con técnicas de entrenamiento similares, el sistema visual del animal puede reconocer y adaptarse a un nuevo entorno en un período de tiempo muy corto, mientras que el modelo de visión de IA requerirá más tiempo y costos de entrenamiento, y a menudo es Difícil de conseguir Efecto ideal.Una vez más caemos en el abismo de la paradoja de Moravec:La inteligencia artificial se comporta de forma inversa a las capacidades humanas. En las actividades de inteligencia de bajo nivel que consideramos no pensantes o instintivas (como la percepción y el control motor), la inteligencia artificial es terrible. Pero en actividades inteligentes avanzadas que requieren razonamiento y abstracción (como el razonamiento lógico y la comprensión del lenguaje), la inteligencia artificial puede superar fácilmente a los humanos.Esto corresponde exactamente a los resultados presentados en este experimento:Nuestra mejor IA (GPT-4) está cerca del nivel humano en la comprensión del lenguaje, pero muy por detrás de los animales en la percepción y el reconocimiento.**Internauta: Resulta que los orangutanes se enojan cuando juegan**###Tanto Kanzi como los LLM pueden jugar Minecraft, pero hay una diferencia no despreciable entre la forma en que Kanzi aprende y los LLM, que debemos tener en cuenta.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3faa1a4b33-dd1a6f-1c6801) Frente a la excelente capacidad de aprendizaje de Kanzi, los internautas comenzaron a burlarse.Algunas personas predicen que el mundo en 6 años será una guerra por el planeta de los simios...![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3b013ba983-dd1a6f-1c6801) O un orangután bebe Coca-Cola y se integra a la sociedad humana...![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3202fced5e-dd1a6f-1c6801) Incluso Boss Ma recibió un disparo y se convirtió en una "versión mono" de Musk.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2480e7eb17-dd1a6f-1c6801) También se dice que Kanzi es el primer no humano en tener la ira de un jugador, y está satisfecho.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-715705d4a7-dd1a6f-1c6801) "Si Kanzi tuviera su propio canal de juegos, honestamente lo vería".![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e2175d6681-dd1a6f-1c6801) "No hay mucha diferencia entre los humanos y los bonobos cuando se trata de jugar. Todos estamos motivados por las recompensas para realizar ciertas tareas y completar objetivos, la única diferencia es el contenido real de las recompensas"."En Minecraft, las recompensas de Kanzi por extraer diamantes son más inmediatas y crudas (comida), mientras que nuestras recompensas por extraer diamantes están más retrasadas y relacionadas con el juego. De todos modos, es un poco loco".![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-869b21f3c0-dd1a6f-1c6801) Primero, GPT aprendió a jugar "Minecraft", y ahora los bonobos también pueden jugar, lo que hace que las personas esperen con ansias el futuro del uso de Neuralink.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-dfb0403770-dd1a6f-1c6801) **Jim Fan enseña a los agentes de IA a jugar Minecraft**Los humanos ya han acumulado mucha experiencia avanzada en la enseñanza de la IA para jugar Minecraft.Ya en mayo de este año, el equipo de Jim Fan conectó el agente de IA de Nvidia a GPT-4 y creó un nuevo agente de IA Voyager.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ef88be9204-dd1a6f-1c6801) ¡Voyager no solo supera a AutoGPT en rendimiento, sino que también puede llevar a cabo un aprendizaje permanente en el juego en toda la escena!Puede escribir código de forma independiente para dominar "Minecraft" sin intervención humana.Se puede decir que tras la aparición de la Voyager, estamos un paso más cerca de la inteligencia artificial general AGI.**Verdadera vida digital**Después de acceder a GPT-4, la Voyager no necesita preocuparse en absoluto por los humanos y es completamente autodidacta.No solo dominó las habilidades básicas de supervivencia de excavar, construir casas, recolectar y cazar, sino que también aprendió a realizar exploraciones abiertas por sí mismo.Impulsado por sí mismo, está constantemente expandiendo sus artículos y equipos, equipado con diferentes niveles de armadura, usando escudos para bloquear Shanghai y usando vallas para albergar animales.La aparición de grandes modelos lingüísticos ha traído nuevas posibilidades a la construcción de agentes encarnados. Porque el agente basado en LLM puede usar el conocimiento mundial contenido en el modelo previamente entrenado para generar un plan de acción consistente o una estrategia ejecutable.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-9cf172f309-dd1a6f-1c6801) Jim Fan: Tuvimos esta idea antes de BabyAGI/AutoGPT y dedicamos mucho tiempo a descubrir la mejor arquitectura sin gradiente.La introducción de GPT-4 en el agente abre un nuevo paradigma ("entrenamiento" por ejecución de código, en lugar de descenso de gradiente), permitiendo al agente librarse del defecto de no poder aprender de por vida.El científico de OpenAI, Karpathy, también elogió esto: esta es una "arquitectura sin gradiente" para habilidades avanzadas. Aquí, el LLM es equivalente a la corteza prefrontal, y la API mineflayer de nivel inferior se genera a través del código.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f16c34102d-dd1a6f-1c6801) **3 componentes clave**Para hacer de Voyager un agente eficaz de aprendizaje permanente, los equipos de Nvidia, Caltech y otras instituciones propusieron 3 componentes clave:**1. Un mecanismo de aviso iterativo que combina comentarios del juego, errores de ejecución y autovalidación para mejorar el programa****2. Una base de código de habilidades para almacenar y recuperar comportamientos complejos****3. Un tutorial automatizado que maximiza la exploración del agente**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-acd05c2cfc-dd1a6f-1c6801) Primero, Voyager intentará usar una popular API Java de Minecraft (Mineflayer) para escribir un programa para lograr un objetivo específico.Los comentarios sobre el entorno del juego y los errores de implementación de Java (si los hay) ayudarán a GPT-4 a mejorar el programa.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-680a7324c1-dd1a6f-1c6801)> Izquierda: Retroalimentación ambiental. GPT-4 se da cuenta de que necesita 2 tablones más antes de hacer el palo.> Derecha: Error de ejecución. GPT-4 se dio cuenta de que debería hacer un hacha de madera, no un hacha de "Acacia", porque no hay un hacha de "Acacia" en Minecraft.Al proporcionar el estado y la tarea actual del agente, GPT-4 le dice al programa si ha completado la tarea.Además, si la tarea falla, GPT-4 también brindará críticas y sugerirá cómo completar la tarea.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-ce8a34628a-dd1a6f-1c6801) auto verificaciónEn segundo lugar, Voyager construye gradualmente un banco de habilidades almacenando procedimientos exitosos en una base de datos de vectores. Cada programa se puede recuperar incrustando su cadena de documentación.Las habilidades complejas se sintetizan mediante la combinación de habilidades simples, lo que permite que las habilidades de la Voyager crezcan rápidamente con el tiempo y mitiguen la amnesia catastrófica.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e021d2bee3-dd1a6f-1c6801)> Arriba: Agregar habilidades. Cada habilidad está indexada por una incrustación de su descripción, que se puede recuperar en situaciones similares en el futuro.> Abajo: recuperar habilidades. Ante una nueva tarea propuesta por el currículo automatizado, se realiza una consulta y se identifican las 5 competencias más relevantes.En tercer lugar, un plan de estudios automático propone tareas de exploración adecuadas según el nivel de habilidad actual del agente y el estado del mundo.Por ejemplo, si se encuentra en un desierto en lugar de un bosque, aprende a recolectar arena y cactus en lugar de hierro. Las lecciones son generadas por GPT-4 basadas en el objetivo de "descubrir lo más diverso posible".![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-f55d31b096-dd1a6f-1c6801) curso automáticoComo la primera inteligencia incorporada impulsada por LLM que puede aprender de por vida, las similitudes entre el proceso de entrenamiento de la Voyager y el proceso de entrenamiento del orangután pueden brindarnos mucha inspiración.Referencias: