Les orangs-outans apprennent à jouer à "Minecraft", la méthode est en fait la même que celle du corps intelligent GPT-4 ?

Source originale : Xinzhiyuan

Source de l'image : générée par l'IA illimitée‌

Notez que ce joueur joue habilement à "Minecraft" et qu'il est capable de collecter des collations et de casser des blocs avec facilité.

Dès que la caméra a tourné, nous avons découvert que la véritable identité du joueur s'est avérée être un orang-outan !

Oui, il s'agit d'une expérience de réseau neuronal biologique non humain de l'Ape Initiative.

Le protagoniste de l'expérience, Kanzi, est un bonobo de 42 ans.

Après l'entraînement, il a appris diverses compétences, a défié des environnements tels que des villages, des temples du désert et des portails dans le royaume inférieur, et a franchi les douanes jusqu'à la fin.

Les experts en IA ont découvert que le processus d'enseignement aux formateurs d'orangs-outans pour acquérir des compétences est similaire à celui des humains enseignant à l'IA pour jouer à Minecraft, comme l'apprentissage par renforcement contextuel, RLHF, l'apprentissage par imitation, l'apprentissage de cours, etc.

Quand les orangs-outans apprennent à jouer à Minecraft

Kanzi, un bonobo de l'Ape Initiative, est l'un des orangs-outans les plus intelligents au monde, comprend l'anglais et utilise un écran tactile.

Dans Ape Initiative, Kanzi a accès à divers écrans tactiles électroniques, ce qui lui a peut-être permis de se lancer rapidement dans "Minecraft".

La première fois que les gens ont montré Kanzi Minecraft, il a trouvé une flèche verte dès qu'il s'est assis devant l'écran, puis a glissé son doigt vers la cible.

### Apprenez trois compétences

En quelques secondes, Kanzi a compris comment se déplacer dans Minecraft.

Par la suite, il a également appris à collecter des récompenses.

Chaque fois qu'une récompense est collectée, elle sera récompensée par des collations telles que des cacahuètes, des raisins et des pommes.

L'opération de Kanzi devient de plus en plus qualifiée.

Il reconnaît les obstacles qui sont le même cylindre vert que la flèche cible et les évite lors de la collecte des récompenses.

Bien sûr, Kanzi sera également confronté à des difficultés. Il fallait casser de gros blocs avec l'outil de rupture, ce qu'il n'avait jamais vu auparavant.

Voyant Kanzi coincé, les humains ont commencé à aider en pointant les boutons d'outils souhaités. Cependant, Kanzi ne pouvait toujours pas comprendre après l'avoir lu.

Les humains devaient le faire eux-mêmes, cassant les blocs de bois avec des outils. Kanzi était pensif après l'avoir regardé, et aux yeux des attentes de tout le monde, il a également emboîté le pas et a brisé le bloc de bois après avoir cliqué sur le bouton. Les gens ont immédiatement applaudi.

Maintenant, l'arbre de compétences de Kanzi a deux choses : collecter des collations et casser des blocs.

Tout en apprenant les techniques de la grotte, le personnel a découvert que si Kanzi glissait du bloc de bois qu'il essayait de casser, Kanzi s'éloignerait simplement. Par conséquent, les gens ont spécialement personnalisé une tâche pour cela——

Écrasez des blocs de bois dans une grotte pleine de murs de diamants pour prouver ses compétences en matière de collecte et d'écrasement.

Tout allait bien dans la grotte, cependant, Kanzi eut un problème : il resta coincé dans le coin. A cette époque, les êtres humains sont nécessaires pour donner un coup de main.

Finalement, Kanzi atteignit le fond de la grotte, brisant le dernier mur.

La foule a éclaté en acclamations et Kanzi a donné un high five au personnel.

### Humains trompés

Ensuite, la chose intéressante est venue : le staff a invité un joueur humain à jouer au jeu avec Kanzi, bien sûr, il ne connaissait pas l'identité de Kanzi.

Le staff compte bien voir combien de temps il faut au joueur pour se rendre compte que la personne qui joue le jeu avec lui n'est pas un être humain.

Au début, ce petit frère a juste senti que la vitesse de déplacement de l'adversaire était incroyablement lente,

Lorsque la photo de Kanzi a été montrée devant ses yeux, le petit frère a eu peur et a reculé.

Sortez du labyrinthe

Après avoir joué à "Minecraft", Kanzi est devenu de plus en plus courageux.

Chaque fois que Kanzi récupère une récompense, les gens affirment son comportement sous forme d'acclamations, et s'il échoue, l'entraîneur l'encourage également à continuer le jeu avec des applaudissements et des acclamations.

A cette époque, il a appris à débloquer la carte du labyrinthe souterrain :

Abattez les obstacles devant vous :

Trouvez l'améthyste :

Quand Kanzi se coince, il sort se promener et rapporte un bâton à mettre à côté de lui.

Même s'il échoue malheureusement, Kanzi cliquera sur le bouton pour se régénérer.

Le dernier niveau est un immense labyrinthe plein de fourchettes.

En raison du retard à sortir du labyrinthe, Kanzi est devenu anxieux et a commencé à crier avec la branche, ou a cassé la branche de colère.

À la fin, il s'est calmé et a continué à percer le niveau, et est sorti du labyrinthe.

Immédiatement, des applaudissements et des acclamations ont entouré Kanzi.

Il semble que "My World" ait été joué par Kanzi, un bonobo.

** Similitudes entre l'enseignement des orangs-outans et l'enseignement de l'IA **

Regarder un bonobo jouer habilement à un jeu vidéo peut sembler un peu grotesque et étrange.

Le scientifique principal de Nvidia, Jim Fan, a commenté cela -

Bien que Kanzi et ses ancêtres n'aient jamais vu Minecraft de leur vie, il s'est rapidement adapté aux textures et à la physique de Minecraft affichées sur un écran électronique.

Et cela est très différent de l'environnement naturel auquel ils ont été exposés et dans lequel ils ont vécu. Ce niveau de généralisation dépasse de loin les modèles de vision les plus performants à ce jour.

Les techniques d'entraînement des animaux à jouer à Minecraft sont essentiellement les mêmes principes que pour l'entraînement de l'intelligence artificielle :

- Apprentissage par renforcement basé sur le contexte :

Chaque fois que Kanzi atteint une étape importante dans le jeu, il reçoit un fruit ou une cacahuète, ce qui le motive à continuer à suivre les règles du jeu.

- RLHF:

Kanzi ne comprend pas le langage humain, mais il peut voir ses entraîneurs l'encourager et répondre de temps en temps. Les acclamations du personnel d'entraînement ont donné à Kanzi un signal fort qu'il était sur la bonne voie.

- Apprentissage par imitation :

Après que le formateur ait montré à Kanzi comment accomplir la tâche, il a immédiatement compris le sens de l'opération concernée. L'effet de présentation va bien au-delà de la stratégie consistant à utiliser uniquement les récompenses.

- Apprentissage du curriculum :

L'entraîneur et Kanzi commencent avec un environnement très simple et enseignent progressivement à Kanzi les compétences de contrôle. Enfin, Kanzi est capable de voyager à travers des grottes complexes, des labyrinthes et des bas.

De plus, même avec des techniques d'entraînement similaires, le système visuel de l'animal peut reconnaître et s'adapter à un nouvel environnement en très peu de temps, tandis que le modèle de vision de l'IA prendra plus de temps et de coûts d'entraînement, et est souvent difficile à réaliser.Effet idéal.

Une fois de plus nous tombons dans l'abîme du paradoxe de Moravec :

L'intelligence artificielle se comporte à l'inverse des capacités humaines. Dans les activités d'intelligence de bas niveau que nous considérons comme non pensantes ou instinctives (telles que la perception et le contrôle moteur), l'intelligence artificielle est terrible. Mais dans les activités intelligentes avancées qui nécessitent un raisonnement et une abstraction (comme le raisonnement logique et la compréhension du langage), l'intelligence artificielle peut facilement surpasser les humains.

Cela correspond exactement aux résultats présentés dans cette expérience :

Notre meilleure IA (GPT-4) est proche du niveau humain dans la compréhension du langage, mais loin derrière les animaux dans la perception et la reconnaissance.

Internaute : Il s'avère que les orangs-outans se mettent en colère lorsqu'ils jouent à des jeux

Kanzi et les LLM peuvent jouer à Minecraft, mais il existe une différence non négligeable entre la façon dont Kanzi apprend et les LLM, dont nous devons être conscients.

Face à l'excellente capacité d'apprentissage de Kanzi, les internautes ont commencé à usurper.

Certains prédisent que le monde dans 6 ans sera une guerre pour la planète des singes...

Ou un orang-outan boit du Coca et s'intègre dans la société humaine...

Même Boss Ma a été abattu et transformé en une "version singe" de Musk.

On dit aussi que Kanzi est le premier non-humain à avoir la rage d'un gamer, et il en est satisfait.

"Si Kanzi avait sa propre chaîne de jeux, je la regarderais honnêtement."

"Il n'y a pas beaucoup de différence entre les humains et les bonobos lorsqu'il s'agit de jouer à des jeux. Nous sommes tous motivés par des récompenses pour effectuer certaines tâches et atteindre des objectifs, la seule différence est le contenu réel des récompenses."

"Dans Minecraft, les récompenses de Kanzi pour l'extraction de diamants sont plus immédiates et brutes (nourriture), alors que nos récompenses pour l'extraction de diamants sont plus retardées et liées au jeu. Quoi qu'il en soit, un peu fou."

Tout d'abord, GPT a appris à jouer à "Minecraft", et maintenant les bonobos peuvent également jouer, ce qui incite les gens à envisager l'avenir de l'utilisation de Neuralink.

Jim Fan apprend aux agents IA à jouer à Minecraft

Les humains ont déjà accumulé beaucoup d'expérience avancée dans l'enseignement de l'IA à jouer à Minecraft.

Dès le mois de mai de cette année, l'équipe Jim Fan a connecté l'agent IA de Nvidia au GPT-4 et a créé un tout nouvel agent IA Voyager.

Non seulement Voyager surpasse AutoGPT en termes de performances, mais il peut également mener un apprentissage tout au long de la vie dans le jeu dans toute la scène !

Il peut écrire du code indépendamment pour dominer "Minecraft" sans intervention humaine.

On peut dire qu'après l'apparition de Voyager, nous nous sommes rapprochés de l'intelligence artificielle générale AGI.

Véritable vie numérique

Après avoir accédé à GPT-4, Voyager n'a pas du tout besoin de se soucier des humains et est complètement autodidacte.

Il a non seulement maîtrisé les compétences de survie de base consistant à creuser, construire des maisons, ramasser et chasser, mais a également appris à mener une exploration ouverte par lui-même.

Conduit par lui-même, il développe constamment ses articles et équipements, équipés de différents niveaux d'armure, utilisant des boucliers pour bloquer Shanghai et utilisant des clôtures pour abriter les animaux.

L'émergence de grands modèles de langage a apporté de nouvelles possibilités à la construction d'agents incarnés. Parce que l'agent basé sur LLM peut utiliser la connaissance du monde contenue dans le modèle pré-formé pour générer un plan d'action cohérent ou une stratégie exécutable.

Jim Fan : Nous avons eu cette idée avant BabyAGI/AutoGPT et avons passé beaucoup de temps à trouver la meilleure architecture sans gradient

L'introduction de GPT-4 dans l'agent ouvre un nouveau paradigme (« entraînement » par exécution de code, plutôt que descente de gradient), permettant à l'agent de s'affranchir du défaut de ne pouvoir apprendre à vie.

Le scientifique d'OpenAI, Karpathy, a également fait l'éloge de cela : il s'agit d'une "architecture sans gradient" pour les compétences avancées. Ici, le LLM équivaut au cortex préfrontal et l'API mineflayer de niveau inférieur est générée via le code.

3 composants clés

Afin de faire de Voyager un agent efficace d'apprentissage tout au long de la vie, les équipes de Nvidia, Caltech et d'autres institutions ont proposé 3 composants clés :

** 1. Un mécanisme d'invite itératif qui combine les commentaires du jeu, les erreurs d'exécution et l'auto-validation pour améliorer le programme **

** 2. Une base de code de compétence pour stocker et récupérer des comportements complexes **

3. Un tutoriel automatisé qui maximise l'exploration de l'agent

Tout d'abord, Voyager essaiera d'utiliser une API Java Minecraft populaire (Mineflayer) pour écrire un programme permettant d'atteindre un objectif spécifique.

Les commentaires sur l'environnement de jeu et les erreurs d'implémentation Java (le cas échéant) aideront GPT-4 à améliorer le programme.

A gauche : retour environnemental. GPT-4 se rend compte qu'il a besoin de 2 planches supplémentaires avant de fabriquer le bâton. Droite : Erreur d'exécution. GPT-4 s'est rendu compte qu'il devait fabriquer une hache en bois, et non une hache "Acacia", car il n'y a pas de hache "Acacia" dans Minecraft.

En fournissant l'état et la tâche actuels de l'agent, GPT-4 indique au programme s'il a terminé la tâche.

De plus, si la tâche échoue, GPT-4 fournira également des critiques et suggérera comment accomplir la tâche.

auto-vérification

Deuxièmement, Voyager constitue progressivement une banque de compétences en stockant les procédures réussies dans une base de données vectorielles. Chaque programme peut être récupéré en incorporant sa docstring.

Les compétences complexes sont synthétisées en combinant des compétences simples, ce qui permet aux capacités du Voyager de se développer rapidement au fil du temps et d'atténuer l'amnésie catastrophique.

Haut : ajouter des compétences. Chaque compétence est indexée par une intégration de sa description, qui peut être récupérée dans des situations similaires à l'avenir. En bas : Récupérer des compétences. Face à une nouvelle tâche proposée par le cursus automatisé, une interrogation est faite et les 5 premières compétences pertinentes sont identifiées.

Troisièmement, un programme automatique propose des tâches d'exploration adaptées en fonction du niveau de compétence actuel de l'agent et de l'état du monde.

Par exemple, s'il se trouve dans un désert au lieu d'une forêt, apprenez à ramasser du sable et des cactus au lieu du fer. Les leçons sont générées par GPT-4 sur la base de l'objectif de "découvrir le plus divers possible".

cours automatique

En tant que première intelligence incarnée axée sur le LLM qui peut apprendre pour la vie, les similitudes entre le processus de formation de Voyager et le processus de formation des orangs-outans peuvent nous inspirer beaucoup.

Les références:

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)