Observe que este jogador está jogando "Minecraft" com habilidade e é capaz de coletar lanches e quebrar blocos com facilidade.
Assim que a câmera virou, descobrimos que a verdadeira identidade do jogador era um orangotango!
Sim, este é um experimento de rede neural biológica não humana da Ape Initiative.
O protagonista do experimento, Kanzi, é um bonobo de 42 anos.
Após o treinamento, ele aprendeu várias habilidades, desafiou ambientes como vilas, templos do deserto e portais no reino inferior, e liberou os costumes até o fim.
Especialistas em IA descobriram que o processo de ensinar treinadores de orangotango a aprender habilidades é semelhante ao de humanos ensinando IA a jogar Minecraft, como aprendizado de reforço contextual, RLHF, aprendizado de imitação, aprendizado de curso etc.
Quando os orangotangos aprendem a jogar Minecraft
Kanzi, um bonobo da Ape Initiative, é um dos orangotangos mais inteligentes do mundo, entende inglês e usa uma tela sensível ao toque.
Em Ape Initiative, Kanzi tem acesso a várias telas de toque eletrônicas, que podem ter lançado as bases para ele começar rapidamente com "Minecraft".
A primeira vez que as pessoas mostraram Kanzi Minecraft, ele encontrou uma seta verde assim que se sentou na frente da tela e, em seguida, passou o dedo em direção ao alvo.
### Aprenda três habilidades
Em segundos, Kanzi descobriu como se movimentar no Minecraft.
Posteriormente, também aprendeu a coletar recompensas.
Toda vez que uma recompensa for coletada, ela será recompensada com lanches como amendoim, uvas e maçãs.
A operação de Kanzi está ficando cada vez mais habilidosa.
Ele reconhece os obstáculos que são do mesmo cilindro verde da seta de destino e os evita ao coletar recompensas.
Claro, Kanzi também enfrentará dificuldades. Exigia quebrar grandes blocos com a ferramenta de quebra, que nunca tinha visto antes.
Vendo Kanzi travar, os humanos começaram a ajudar apontando para os botões das ferramentas desejadas. No entanto, Kanzi ainda não conseguia compreender depois de lê-lo.
Os humanos tiveram que fazer isso sozinhos, quebrando os blocos de madeira com ferramentas. Kanzi ficou pensativo depois de assistir. Aos olhos de todos que esperavam, ele também seguiu o exemplo. Depois de clicar no botão, quebrou o bloco de madeira. As pessoas explodiram em aplausos instantaneamente.
Agora, a árvore de habilidades de Kanzi tem duas coisas: coletar lanches e quebrar blocos.
Enquanto aprendia as habilidades da caverna, a equipe descobriu que se Kanzi escorregasse do bloco de madeira que estava tentando quebrar, Kanzi simplesmente iria embora. Portanto, as pessoas personalizaram uma tarefa especialmente para isso——
Esmague blocos de madeira em uma caverna cheia de paredes de diamante para provar sua coleção e habilidades de esmagamento.
Tudo estava bem na caverna, porém, Kanzi teve um problema: ficou preso no canto. Neste momento, os seres humanos são necessários para dar uma mão amiga.
Eventualmente, Kanzi alcançou o fundo da caverna, quebrando a última parede.
A multidão explodiu em aplausos e Kanzi cumprimentou a equipe.
### Humanos Enganados
A seguir, veio o interessante: a equipe convidou um jogador humano para jogar o jogo com Kanzi, claro, ele não sabia a identidade de Kanzi.
A equipe pretende ver quanto tempo leva para o jogador perceber que a pessoa que está jogando com ele não é um ser humano.
A princípio, esse irmãozinho sentiu que a velocidade do movimento do oponente era incrivelmente lenta,
Quando a foto de Kanzi foi mostrada diante de seus olhos, o irmãozinho ficou assustado e recuou.
Saia do labirinto
Depois de jogar "Minecraft", Kanzi tornou-se cada vez mais corajoso.
Sempre que Kanzi coleta uma recompensa, as pessoas afirmam seu comportamento na forma de aplausos e, se falhar, o treinador também o incentiva a continuar o jogo com palmas e aplausos.
Neste momento, aprendeu a desvendar o mapa do labirinto subterrâneo:
Derrube os obstáculos à sua frente:
Encontre a ametista:
Quando Kanzi fica preso, ele sai para passear e traz de volta um pedaço de pau para colocar ao lado dele.
Mesmo que ele falhe, infelizmente, Kanzi clicará no botão para se regenerar.
O último nível é um enorme labirinto cheio de garfos.
Por causa da demora em sair do labirinto, Kanzi ficou ansioso e começou a gritar com o galho, ou quebrou o galho com raiva.
No final, ele se acalmou e continuou a romper o nível e saiu do labirinto.
Imediatamente, aplausos e vivas cercaram Kanzi.
Parece que "My World" foi interpretado por Kanzi, um bonobo.
Semelhanças entre ensinar orangotangos e ensinar IA
Assistir a um bonobo jogar habilmente um videogame pode parecer um pouco grotesco e estranho.
O cientista sênior da Nvidia, Jim Fan, comentou sobre isso -
Embora Kanzi e seus ancestrais nunca tivessem visto o Minecraft em suas vidas, ele rapidamente se adaptou às texturas e à física do Minecraft exibidas em telas eletrônicas.
E isso é muito diferente do ambiente natural ao qual eles foram expostos e viveram. Esse nível de generalização excede em muito os modelos de visão mais poderosos até hoje.
As técnicas para treinar animais para jogar Minecraft são essencialmente os mesmos princípios do treinamento de inteligência artificial:
- Aprendizagem por Reforço Baseada no Contexto:
Sempre que Kanzi atinge um marco marcado no jogo, ele ganha uma fruta ou amendoim, motivando-o a continuar seguindo as regras do jogo.
- RLHF:
Kanzi não entende a linguagem humana, mas ele pode ver seus treinadores torcendo por ele e responder ocasionalmente. Aplausos da equipe de treinamento deram a Kanzi um forte sinal de que ele estava no caminho certo.
- Aprender por imitação:
Depois que o treinador mostrou a Kanzi como completar a tarefa, ele imediatamente entendeu o significado da operação relevante. O efeito da apresentação vai muito além da estratégia de usar apenas recompensas.
- Aprendizagem curricular:
O treinador e Kanzi começam com um ambiente muito simples e gradualmente ensinam a Kanzi as habilidades de controle. Finalmente, Kanzi é capaz de viajar por cavernas, labirintos e subterrâneos complexos.
Além disso, mesmo com técnicas de treinamento semelhantes, o sistema visual do animal pode reconhecer e se adaptar a um novo ambiente em um período muito curto de tempo, enquanto o modelo de visão AI levará mais tempo e custos de treinamento, e muitas vezes é difícil de conseguir Efeito ideal.
Mais uma vez caímos no abismo do paradoxo de Moravec:
A inteligência artificial se comporta de forma inversa às capacidades humanas. Em atividades de inteligência de baixo nível que consideramos não pensantes ou instintivas (como percepção e controle motor), a inteligência artificial é terrível. Mas em atividades inteligentes avançadas que exigem raciocínio e abstração (como raciocínio lógico e compreensão da linguagem), a inteligência artificial pode facilmente superar os humanos.
Isso corresponde exatamente aos resultados apresentados neste experimento:
Nossa melhor IA (GPT-4) está próxima do nível humano em compreensão da linguagem, mas muito atrás dos animais em percepção e reconhecimento.
Netizen: Acontece que os orangotangos ficam com raiva quando jogam
Tanto o Kanzi quanto os LLMs podem jogar Minecraft, mas há uma diferença não desprezível entre a maneira como o Kanzi aprende e os LLMs, da qual precisamos estar cientes.
Diante da excelente capacidade de aprendizado de Kanzi, os internautas começaram a falsificar.
Algumas pessoas prevêem que o mundo em 6 anos será uma guerra para o planeta dos macacos...
Ou um orangotango bebe Coca-Cola e se integra à sociedade humana...
Até Boss Ma foi baleado e transformado em uma "versão macaco" de Musk.
Também é dito que Kanzi é o primeiro não humano a ter a raiva de um jogador, e ele está satisfeito.
"Se Kanzi tivesse seu próprio canal de jogos, eu assistiria honestamente."
"Não há muita diferença entre humanos e bonobos quando se trata de jogos. Todos somos motivados por recompensas para realizar certas tarefas e completar objetivos, a única diferença é o conteúdo real das recompensas."
"No Minecraft, as recompensas de Kanzi por minerar diamantes são mais imediatas e cruas (alimentos), enquanto nossas recompensas por minerar diamantes são mais atrasadas e relacionadas ao jogo. Enfim, meio louco."
Primeiro, o GPT aprendeu a jogar "Minecraft", e agora os bonobos também podem jogar, o que deixa as pessoas ansiosas pelo uso futuro do Neuralink.
Jim Fan ensina agentes de IA a jogar Minecraft
Os humanos já acumularam muita experiência avançada no ensino de IA para jogar Minecraft.
Já em maio deste ano, a equipe Jim Fan conectou o agente de IA da Nvidia ao GPT-4 e criou um novo agente de IA Voyager.
O Voyager não apenas supera o AutoGPT em desempenho, mas também pode conduzir o aprendizado ao longo da vida no jogo em toda a cena!
Ele pode escrever código de forma independente para dominar o "Minecraft" sem intervenção humana.
Pode-se dizer que, após o aparecimento da Voyager, estamos um passo mais perto da inteligência artificial geral AGI.
Verdadeira vida digital
Depois de acessar o GPT-4, a Voyager não precisa mais se preocupar com os humanos e é totalmente autodidata.
Ele não apenas dominou as habilidades básicas de sobrevivência de escavação, construção de casas, coleta e caça, mas também aprendeu a conduzir a exploração aberta por conta própria.
Impulsionada por si mesma, ela está constantemente expandindo seus itens e equipamentos, equipada com diferentes níveis de armadura, usando escudos para bloquear Xangai e usando cercas para abrigar animais.
A emergência de grandes modelos de linguagem trouxe novas possibilidades para a construção de agentes corporificados. Porque o agente baseado em LLM pode usar o conhecimento de mundo contido no modelo pré-treinado para gerar um plano de ação consistente ou estratégia executável.
Jim Fan: Tivemos essa ideia antes do BabyAGI/AutoGPT e passamos muito tempo descobrindo a melhor arquitetura sem gradiente
A introdução do GPT-4 no agente abre um novo paradigma ("treinamento" por execução de código, em vez de descida de gradiente), permitindo que o agente se livre do defeito de ser incapaz de aprender por toda a vida.
O cientista da OpenAI, Karpathy, também elogiou isso: esta é uma “arquitetura livre de gradientes” para habilidades avançadas. Aqui, o LLM é equivalente ao córtex pré-frontal e a API mineflayer de nível inferior é gerada por meio de código.
3 componentes principais
Para tornar a Voyager um agente eficaz de aprendizagem ao longo da vida, as equipes da Nvidia, Caltech e outras instituições propuseram 3 componentes principais:
1. Um mecanismo de prompt iterativo que combina feedback do jogo, erros de execução e autovalidação para melhorar o programa
2. Uma base de código de habilidade para armazenar e recuperar comportamentos complexos
3. Um tutorial automatizado que maximiza a exploração do agente
Primeiro, a Voyager tentará usar uma popular API Java do Minecraft (Mineflayer) para escrever um programa para atingir um objetivo específico.
O feedback do ambiente do jogo e os erros de implementação do Java (se houver) ajudarão o GPT-4 a melhorar o programa.
Esquerda: feedback ambiental. O GPT-4 percebe que precisa de mais 2 pranchas antes de fazer o bastão.
Certo: Erro de execução. O GPT-4 percebeu que deveria fazer um machado de madeira, não um machado "Acacia", porque não existe machado "Acacia" no Minecraft.
Ao fornecer o estado atual e a tarefa do agente, o GPT-4 informa ao programa se ele concluiu a tarefa.
Além disso, se a tarefa falhar, o GPT-4 também fará críticas e sugerirá como concluir a tarefa.
autoverificação
Em segundo lugar, a Voyager constrói gradualmente um banco de habilidades armazenando procedimentos bem-sucedidos em um banco de dados vetorial. Cada programa pode ser recuperado incorporando sua docstring.
Habilidades complexas são sintetizadas pela combinação de habilidades simples, o que permite que as habilidades da Voyager cresçam rapidamente com o tempo e mitiguem a amnésia catastrófica.
Para cima: Adicionar habilidades. Cada habilidade é indexada por uma incorporação de sua descrição, que pode ser recuperada em situações semelhantes no futuro.
Inferior: Recupere habilidades. Diante de uma nova tarefa proposta pelo currículo automatizado, é feita uma consulta e identificadas as 5 principais competências relevantes.
Em terceiro lugar, um currículo automático propõe tarefas de exploração adequadas com base no nível de habilidade atual do agente e no estado do mundo.
Por exemplo, se ele se encontrar em um deserto em vez de uma floresta, aprenda a coletar areia e cactos em vez de ferro. As lições são geradas pelo GPT-4 com base no objetivo de "descobrir o mais diverso possível".
curso automático
Como a primeira inteligência incorporada impulsionada pelo LLM que pode aprender por toda a vida, as semelhanças entre o processo de treinamento da Voyager e o processo de treinamento do orangotango podem nos dar muita inspiração.
Referências:
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Os orangotangos aprendem a jogar "Minecraft", o método é realmente o mesmo que o corpo inteligente GPT-4?
Fonte original: Xinzhiyuan
Observe que este jogador está jogando "Minecraft" com habilidade e é capaz de coletar lanches e quebrar blocos com facilidade.
Assim que a câmera virou, descobrimos que a verdadeira identidade do jogador era um orangotango!
Sim, este é um experimento de rede neural biológica não humana da Ape Initiative.
O protagonista do experimento, Kanzi, é um bonobo de 42 anos.
Após o treinamento, ele aprendeu várias habilidades, desafiou ambientes como vilas, templos do deserto e portais no reino inferior, e liberou os costumes até o fim.
Especialistas em IA descobriram que o processo de ensinar treinadores de orangotango a aprender habilidades é semelhante ao de humanos ensinando IA a jogar Minecraft, como aprendizado de reforço contextual, RLHF, aprendizado de imitação, aprendizado de curso etc.
Quando os orangotangos aprendem a jogar Minecraft
Kanzi, um bonobo da Ape Initiative, é um dos orangotangos mais inteligentes do mundo, entende inglês e usa uma tela sensível ao toque.
Em Ape Initiative, Kanzi tem acesso a várias telas de toque eletrônicas, que podem ter lançado as bases para ele começar rapidamente com "Minecraft".
Em segundos, Kanzi descobriu como se movimentar no Minecraft.
Posteriormente, também aprendeu a coletar recompensas.
Ele reconhece os obstáculos que são do mesmo cilindro verde da seta de destino e os evita ao coletar recompensas.
Vendo Kanzi travar, os humanos começaram a ajudar apontando para os botões das ferramentas desejadas. No entanto, Kanzi ainda não conseguia compreender depois de lê-lo.
Os humanos tiveram que fazer isso sozinhos, quebrando os blocos de madeira com ferramentas. Kanzi ficou pensativo depois de assistir. Aos olhos de todos que esperavam, ele também seguiu o exemplo. Depois de clicar no botão, quebrou o bloco de madeira. As pessoas explodiram em aplausos instantaneamente.
Esmague blocos de madeira em uma caverna cheia de paredes de diamante para provar sua coleção e habilidades de esmagamento.
Tudo estava bem na caverna, porém, Kanzi teve um problema: ficou preso no canto. Neste momento, os seres humanos são necessários para dar uma mão amiga.
Eventualmente, Kanzi alcançou o fundo da caverna, quebrando a última parede.
A seguir, veio o interessante: a equipe convidou um jogador humano para jogar o jogo com Kanzi, claro, ele não sabia a identidade de Kanzi.
A equipe pretende ver quanto tempo leva para o jogador perceber que a pessoa que está jogando com ele não é um ser humano.
A princípio, esse irmãozinho sentiu que a velocidade do movimento do oponente era incrivelmente lenta,
Quando a foto de Kanzi foi mostrada diante de seus olhos, o irmãozinho ficou assustado e recuou.
Saia do labirinto
Depois de jogar "Minecraft", Kanzi tornou-se cada vez mais corajoso.
Sempre que Kanzi coleta uma recompensa, as pessoas afirmam seu comportamento na forma de aplausos e, se falhar, o treinador também o incentiva a continuar o jogo com palmas e aplausos.
Mesmo que ele falhe, infelizmente, Kanzi clicará no botão para se regenerar.
Imediatamente, aplausos e vivas cercaram Kanzi.
Semelhanças entre ensinar orangotangos e ensinar IA
Assistir a um bonobo jogar habilmente um videogame pode parecer um pouco grotesco e estranho.
Embora Kanzi e seus ancestrais nunca tivessem visto o Minecraft em suas vidas, ele rapidamente se adaptou às texturas e à física do Minecraft exibidas em telas eletrônicas.
E isso é muito diferente do ambiente natural ao qual eles foram expostos e viveram. Esse nível de generalização excede em muito os modelos de visão mais poderosos até hoje.
- Aprendizagem por Reforço Baseada no Contexto:
Sempre que Kanzi atinge um marco marcado no jogo, ele ganha uma fruta ou amendoim, motivando-o a continuar seguindo as regras do jogo.
- RLHF:
Kanzi não entende a linguagem humana, mas ele pode ver seus treinadores torcendo por ele e responder ocasionalmente. Aplausos da equipe de treinamento deram a Kanzi um forte sinal de que ele estava no caminho certo.
- Aprender por imitação:
Depois que o treinador mostrou a Kanzi como completar a tarefa, ele imediatamente entendeu o significado da operação relevante. O efeito da apresentação vai muito além da estratégia de usar apenas recompensas.
- Aprendizagem curricular:
O treinador e Kanzi começam com um ambiente muito simples e gradualmente ensinam a Kanzi as habilidades de controle. Finalmente, Kanzi é capaz de viajar por cavernas, labirintos e subterrâneos complexos.
Além disso, mesmo com técnicas de treinamento semelhantes, o sistema visual do animal pode reconhecer e se adaptar a um novo ambiente em um período muito curto de tempo, enquanto o modelo de visão AI levará mais tempo e custos de treinamento, e muitas vezes é difícil de conseguir Efeito ideal.
Mais uma vez caímos no abismo do paradoxo de Moravec:
A inteligência artificial se comporta de forma inversa às capacidades humanas. Em atividades de inteligência de baixo nível que consideramos não pensantes ou instintivas (como percepção e controle motor), a inteligência artificial é terrível. Mas em atividades inteligentes avançadas que exigem raciocínio e abstração (como raciocínio lógico e compreensão da linguagem), a inteligência artificial pode facilmente superar os humanos.
Isso corresponde exatamente aos resultados apresentados neste experimento:
Nossa melhor IA (GPT-4) está próxima do nível humano em compreensão da linguagem, mas muito atrás dos animais em percepção e reconhecimento.
Netizen: Acontece que os orangotangos ficam com raiva quando jogam
Tanto o Kanzi quanto os LLMs podem jogar Minecraft, mas há uma diferença não desprezível entre a maneira como o Kanzi aprende e os LLMs, da qual precisamos estar cientes.
Algumas pessoas prevêem que o mundo em 6 anos será uma guerra para o planeta dos macacos...
"No Minecraft, as recompensas de Kanzi por minerar diamantes são mais imediatas e cruas (alimentos), enquanto nossas recompensas por minerar diamantes são mais atrasadas e relacionadas ao jogo. Enfim, meio louco."
Os humanos já acumularam muita experiência avançada no ensino de IA para jogar Minecraft.
Já em maio deste ano, a equipe Jim Fan conectou o agente de IA da Nvidia ao GPT-4 e criou um novo agente de IA Voyager.
Ele pode escrever código de forma independente para dominar o "Minecraft" sem intervenção humana.
Pode-se dizer que, após o aparecimento da Voyager, estamos um passo mais perto da inteligência artificial geral AGI.
Verdadeira vida digital
Depois de acessar o GPT-4, a Voyager não precisa mais se preocupar com os humanos e é totalmente autodidata.
Ele não apenas dominou as habilidades básicas de sobrevivência de escavação, construção de casas, coleta e caça, mas também aprendeu a conduzir a exploração aberta por conta própria.
Impulsionada por si mesma, ela está constantemente expandindo seus itens e equipamentos, equipada com diferentes níveis de armadura, usando escudos para bloquear Xangai e usando cercas para abrigar animais.
A emergência de grandes modelos de linguagem trouxe novas possibilidades para a construção de agentes corporificados. Porque o agente baseado em LLM pode usar o conhecimento de mundo contido no modelo pré-treinado para gerar um plano de ação consistente ou estratégia executável.
A introdução do GPT-4 no agente abre um novo paradigma ("treinamento" por execução de código, em vez de descida de gradiente), permitindo que o agente se livre do defeito de ser incapaz de aprender por toda a vida.
O cientista da OpenAI, Karpathy, também elogiou isso: esta é uma “arquitetura livre de gradientes” para habilidades avançadas. Aqui, o LLM é equivalente ao córtex pré-frontal e a API mineflayer de nível inferior é gerada por meio de código.
Para tornar a Voyager um agente eficaz de aprendizagem ao longo da vida, as equipes da Nvidia, Caltech e outras instituições propuseram 3 componentes principais:
1. Um mecanismo de prompt iterativo que combina feedback do jogo, erros de execução e autovalidação para melhorar o programa
2. Uma base de código de habilidade para armazenar e recuperar comportamentos complexos
3. Um tutorial automatizado que maximiza a exploração do agente
O feedback do ambiente do jogo e os erros de implementação do Java (se houver) ajudarão o GPT-4 a melhorar o programa.
Ao fornecer o estado atual e a tarefa do agente, o GPT-4 informa ao programa se ele concluiu a tarefa.
Além disso, se a tarefa falhar, o GPT-4 também fará críticas e sugerirá como concluir a tarefa.
Em segundo lugar, a Voyager constrói gradualmente um banco de habilidades armazenando procedimentos bem-sucedidos em um banco de dados vetorial. Cada programa pode ser recuperado incorporando sua docstring.
Habilidades complexas são sintetizadas pela combinação de habilidades simples, o que permite que as habilidades da Voyager cresçam rapidamente com o tempo e mitiguem a amnésia catastrófica.
Em terceiro lugar, um currículo automático propõe tarefas de exploração adequadas com base no nível de habilidade atual do agente e no estado do mundo.
Por exemplo, se ele se encontrar em um deserto em vez de uma floresta, aprenda a coletar areia e cactos em vez de ferro. As lições são geradas pelo GPT-4 com base no objetivo de "descobrir o mais diverso possível".
Como a primeira inteligência incorporada impulsionada pelo LLM que pode aprender por toda a vida, as semelhanças entre o processo de treinamento da Voyager e o processo de treinamento do orangotango podem nos dar muita inspiração.
Referências: