10 AI-Agents representativos, como mudarão a Internet / remodelarão a Web3

2023-08-03 03:04:30

FONTE: VION WILLIAMS

Explore as possibilidades inovadoras dos AI-Agents

Consenso e não consenso de AI-Agents

A razão pela qual AI-Agents se tornou uma direção que atrai cada vez mais atenção é em grande parte devido ao fato de que o LLM fornece uma rota de implementação técnica viável para a aplicação de AI-Agents e, em segundo lugar, existem muitos projetos relacionados a AI-Agents .

Embora LiLian Weng defina o que são AI-Agents orientados por LLM em seu artigo? Mas Deepmind também está tentando definir o conceito de um agente unificado. Acredito que o conceito de AI-Agents também formará diferentes tipos de diferenciação com o entendimento de diferentes empresas de AI.

O consenso chave mais claro é que com base em agentes orientados por LLM para realizar o processamento automático de problemas gerais, são os agentes de IA que identificamos neste ciclo de explosão de modelo de linguagem em grande escala e formamos um entendimento compartilhado.

Encontre a possibilidade da correlação de Agentes

Ao nível da aplicação dos AI-Agents, na fase atual, devemos olhar para os AI-Agents na perspetiva da "relevância" tanto quanto possível, ou seja, devemos ser tolerantes com a tentativa e erro e inovadores nas formas possíveis de AI-Agents. Possibilidade**, você não deve procurar uma resposta padronizada em uma posição estreita como alguns críticos, estes não são aconselháveis.

Por exemplo, o Auto-GTP, como uma possibilidade, realmente inspirou muitos projetos de Agentes, mas críticas estreitas perderão a oportunidade de capturar novas oportunidades, o que é um fenômeno comum entre os desenvolvedores chineses. Como desenvolvedor sem criatividade, como você confiará em sua competitividade tradicional na era da programação em linguagem natural?

Embora existam muitas introduções sobre projetos relacionados a AI-Agents, acho que há um problema de listagem e introdução homogêneas. Esses conteúdos nos permitem saber quais projetos pertencem à direção de AI-Agents, mas não há nenhum relacionado A partir da natureza, mostra o potencial dos AI-Agents em diferentes campos de aplicação e a posição ecológica de certos tipos de projetos de AI-Agents.

Por exemplo, na minha introdução, Auto-GPT, BabayAGI e MetaGPT serão classificados por mim em um tipo de ecologia, porque eles têm a continuidade de um determinado caminho;

Construindo uma cognição holística no quebra-cabeça dos Agentes

Em suma, na introdução de projetos representativos sobre AI-Agents, usei as perspectivas de "relevância", "posição ecológica" e "continuidade" para introduzir projetos representativos, para que possamos ver vagamente o desenvolvimento futuro tendência de AI-Agents.

A seguir, aparecem 10 projetos representativos relacionados, incluindo alguns projetos de referência relacionados. Vou usar o caso como um quebra-cabeça para montar um mapa relativamente completo, o que é suficiente para permitir que mais pessoas percebam claramente como o potencial dos Agentes pode mudar tudo na Internet Incluindo a reformulação do cenário Web3.

Duas grandes direções futuras de AI-Agents

Os AI-Agents podem ser divididos aproximadamente em duas direções: **Agentes Autônomos e Agentes Geradores. **

Os Agentes Autônomos tomam como exemplo o Auto-GPT, que representa a capacidade de executar automaticamente várias tarefas para alcançar os resultados pretendidos por meio da descrição de requisitos de linguagem natural.Nessa relação colaborativa, os Agentes Autônomos atendem pessoas e possuem atributos claros de ferramentas;

Generative Agents toma como exemplo a cidade virtual de 25 agentes inteligentes publicada por Stanford. Generative Agents, como um AI-Agents com características de personalidade, capacidade de tomada de decisão autônoma e memória de longo prazo, é mais inclinado ao conceito de "natividade" Nos relacionamentos, os Agentes têm relacionamentos sociais nativos digitalmente, não apenas ferramentas para servir as pessoas;

Auto-GPT

Um dos projetos de código aberto mais conhecidos do Auto-GPT, sua introdução no GitHub é muito simples "Uma tentativa experimental de código aberto para tornar o GPT-4 totalmente autônomo.", uma tentativa experimental de código aberto para tornar o GPT-4 totalmente autônomo autônomo .

Um breve resumo é que o Auto-GTP pode automatizar totalmente o resultado final da tarefa por meio de um requisito de tarefa de uma frase; a lógica central da capacidade do Auto-GPT de concluir tarefas independentemente reside na capacidade de planejamento de tarefas do modelo de idioma. desmontagem e análise passo a passo e melhora automaticamente as etapas de execução da tarefa.No processo, os resultados da pesquisa na Internet serão realimentados para o modelo de linguagem e a tarefa será posteriormente desmontada e executada.

Para usar o vernáculo popular como metáfora, **Auto-GPT completou a tarefa no processo de "autoquestionamento e auto-resposta", sem a necessidade de humanos fornecerem palavras imediatas. **

Embora muitas pessoas critiquem o Auto-GPT por seu enorme consumo de tokens e nenhum resultado estável, o Auto-GTP, como um caso de automação baseado em LLM, despertou muito a curiosidade dos desenvolvedores. Semelhante ao Auto-GPT também é BabayAGI, MetaGPT, etc., estão na vanguarda da experimentação de projetos de código aberto para explorar a automação.

endereço do projeto:

**BabyAGI pode criar, classificar e executar automaticamente novas tarefas com base nos resultados de tarefas anteriores e em nossos objetivos predefinidos. **Ele usa tecnologia de processamento de linguagem natural para criar novas tarefas com base em metas e armazenar os resultados da tarefa no banco de dados para que informações relevantes possam ser encontradas quando necessário.

BabyAGI é na verdade um script Python que executa um loop infinito para concluir as seguintes etapas:

Obtenha a primeira tarefa da lista de tarefas.
Envie a tarefa para o agente de execução e o agente de execução usa a API do OpenAI para concluir a tarefa de acordo com o contexto.
Enriqueça o resultado e armazene-o em Chroma/Weaviate.
Crie novas tarefas e reordene as listas de tarefas com base em metas predefinidas e resultados de tarefas anteriores.

endereço do projeto:

Tanto o Auto-GPT quanto o BabyAGI representam teoricamente o período inicial de nosso atual surto de LLM. Agentes no futuro.

Agentes geradores

O artigo "Generative Agents: Interactive Simulacra of Human Behavior" publicado por Stanford e pesquisadores do Google já é um projeto AI-Agent muito conhecido. Ao todo, esta pesquisa colocou 25 agentes de IA em um pequeno estilo de pixel virtual na cidade , agentes inteligentes podem realizar a interação simulada do comportamento da vida humana e também podem interagir com o ambiente da cidade virtual e também podem interagir com humanos fora do mundo virtual. **

Este documento tem duas soluções principais que são mais dignas de nossa atenção:

1, Arquitetura do Agente Gerador

Os agentes percebem seu ambiente e mantêm todas as percepções em um registro abrangente chamado fluxo de memória, registrando a experiência do agente. Com base em suas percepções, a arquitetura recupera memórias relevantes e então usa esses comportamentos recuperados para determinar uma ação. Essas memórias recuperadas também são usadas para formar planos de longo prazo e criar reflexões de alto nível, sendo que ambos são alimentados no fluxo de memória para uso futuro.

2, fluxo de memória

Com base na arquitetura do agente generativo e no ambiente interativo em que o experimento está localizado, o agente inevitavelmente gerará uma grande quantidade de dados de memória.Memory Stream é um banco de dados que registra de forma abrangente todas as memórias do agente generativo. É uma lista contendo vários objetos de memória, cada objeto contém uma descrição em linguagem natural, um registro de data e hora de criação e um registro de data e hora de último acesso. O elemento mais básico do fluxo de memória é uma observação, que é um evento percebido diretamente por um agente. Observações comuns incluem ações executadas pelo próprio agente ou ações que o agente percebe serem executadas por outros agentes ou objetos não agentes.

Com base nos dois componentes-chave acima, de fato, o comportamento geral do agente generativo é dividido em três partes: [memória e recuperação] [reflexão] [planejamento e resposta]. Para obter detalhes, consulte o conteúdo do documento original .

Este artigo e este experimento verificaram que o comportamento interativo gerado pelo agente formado com base no LLM pode ser confiável para simular o comportamento da interação humana em um ambiente digital. O agente generativo pode desempenhar um papel em muitos ambientes digitais, especialmente o gerado. uma relação de interação humano-computador formada entre agentes humanos e seres humanos.

O que podemos sentir de forma mais intuitiva é que o agente gerador é criado como um papel de residente digital nativo do metaverso e produz várias interações com o ambiente do metaverso humano. Na verdade, Podemos simular um mundo virtual digital altamente desenvolvido de AI-Agents, e os humanos podem extrair os resultados do trabalho digital de AI-Agents deste mundo;

Como os agentes se tornam parceiros de trabalho

Como os Agentes são traduzidos como "agentes" em muitos contextos desta vez, os agentes são facilmente associados ao conceito de papel de um intermediário, tornando difícil para muitas pessoas estabelecer intuitivamente a associação da aplicação de cena dos Agentes; nestes três casos, respectivamente Ele mostra como os Agentes podem se tornar "especialistas humanos" que podem ser contratados, uma empresa de marketing automatizada que não requer nenhuma participação humana e como os Agentes formam uma equipe para colaborar uns com os outros.

No exemplo a seguir, podemos usar o NexusGPT para criar vários funcionários especializados e usar o GPTeam para formar uma equipe contratada por humanos, e essa equipe de IA trabalha em uma empresa totalmente automatizada, como a AutoCorp. Quando juntamos essas peças do quebra-cabeça, podemos sentir intuitivamente que o futuro chegou;

NexusGPT

Esta é a chamada primeira plataforma freelancer de IA do mundo feita por um desenvolvedor independente Assem. NexusGPT é baseado na estrutura LangChainAI, usando API GPT-3.5 e Chroma (um banco de dados integrado de código aberto nativo de IA), na plataforma NexuseGPT Com mais de oitocentos agentes de IA com habilidades específicas.

Os agentes no NexusGPT podem ajustar de forma inteligente a dificuldade das perguntas:

- Nível 1: diálogo simples
- Nível 2: operações/plugins pré-treinados
- Nível 3: modo AutoGPT

Mas todos eles contam com o suporte de chamadas de função de OpenAI e LangchainAI;

Enquanto durante a execução da tarefa do agente, os autores consideram a velocidade com que o sistema converge para altas classificações por meio de feedback humano e observações de classificação em um loop. Na verdade, isso é para fornecer aos agentes de IA habilidades específicas para alcançar estratégias de melhoria otimizadas iterativamente na comunicação com a parte humana A nos requisitos da tarefa.

O NexusGPT representa um futuro modelo de negócios para humanos contratarem Agentes. Este projeto realmente tem muito espaço para melhorias, como a combinação de Agentes e módulos especialistas (sistema especialista e modelo especialista). O método de preços da Parte A para contratar Agentes é baseados em Cálculo de Tokens de consumo, etc., estes vão mudar a nossa forma tradicional de contratação de mercado de trabalho, e vão mudar também a forma de colaboração da DAO;

AutoCorp

Criado em 5 horas pela AutoCorpmina fahmi e sua equipe durante o Hackathon GPT/LLM de Nova York. A AutoCorp é uma empresa de marketing de marca totalmente independente. A AutoCorp criará automaticamente anúncios de marca e designs de produtos para uma empresa que vende camisetas diretamente. Quando os clientes levantarem novas necessidades de consumo, a AutoCorp atualizará seu tema e gerará novos ativos de design. Auto-iteração contínua para um melhor direcionamento dos negócios.

Primeiro, a AutoCorp desenvolveu uma ideia inicial para uma marca de camisetas com base na ideia original. Em seguida, usou essa ideia inicial para gerar os vários recursos da empresa e um guia de estilo padrão. Quando os clientes fizerem necessidades, a AutoCorp atualizará seu plano de acordo com essas necessidades. Se um plano resulta em menos vendas, a AutoCorp faz ajustes. O processo acima foi executado do início ao fim e pode realmente ser conectado à API de publicidade e à API de camisetas personalizadas para implantação no mundo real.

Este parágrafo é citado do twitter de Mina fahmi, e a AutoCorp também foi criada por mina fahmi e sua equipe durante o hackathon GPT/LLM em Nova York em 5 horas, e o objetivo de criar a AutoCorp também é impulsionar o conceito de “Autonomia” para o extremo.

Na verdade, o propósito da AutoCorp e DAO é altamente consistente. **Se o objetivo final de uma organização descentralizada é remover o fator "humano", então automatizar totalmente as operações de produção é, na verdade, um apelo de desenvolvimento razoável do conceito de DAO. **A AutoCorp representa, na verdade, a futura direção de desenvolvimento de negócios da DAO.

GPTeam

GPTeam é um sistema de simulação multiagente de código aberto. O GPTeam aproveita o GPT-4 para criar vários agentes que cooperam para atingir metas predefinidas. O principal objetivo deste projeto é explorar o potencial dos modelos GPT na melhoria da produtividade multiagente e comunicação eficaz.

O GPTeam emprega agentes independentes, cada um equipado com memória, e interagem por meio da comunicação. As implementações de memória e reflexão para agentes são inspiradas neste trabalho de pesquisa. Os agentes se movem pelo mundo e executam tarefas em locais diferentes com base em suas próprias tarefas e nas localizações de outros agentes. Eles podem se comunicar uns com os outros e colaborar em tarefas enquanto trabalham em paralelo para um objetivo comum.

endereço do projeto:

Na verdade, ainda existem muitos projetos de código aberto como o GPTeam, como o Dev-GPT, uma equipe de desenvolvimento automatizada que cria microsserviços personalizados para os usuários. A equipe consiste em três funções virtuais: gerente de produto, desenvolvedor e operação e manutenção de desenvolvimento. A ideia técnica do Dev-GPT é principalmente identificar e testar estratégias de tarefas eficazes. Se falhar 10 vezes seguidas, ele mudará para o próximo método.

Veremos cada vez mais projetos, design AI-Agents como uma espécie de equipe de AI, não é difícil definir Agents como uma função de produção, como o caso do NexusGPT, os desenvolvedores podem definir cada Agents É desafiador para se tornar Agentes com habilidades exclusivas e, em seguida, como cooperar com esses Agentes para exercer suas respectivas habilidades e realizar uma automação de tarefa/projeto em combinação, o que é desafiador. O Projeto Atlas Agents está explorando a automação baseada em linguagem natural, na verdade fornece um bom cenário de aplicação para equipe de Agentes;

Tudo isso me faz pensar em DAO, uma organização automatizada de colaboração de tarefas baseada em lógica de governança automatizada;

Como os Agentes substituem o trabalho repetitivo

Antes que a IA substitua completamente nosso trabalho, os Agentes substituem a maior parte de nosso trabalho repetitivo atual é a próxima direção de desenvolvimento de Agentes no campo de negócios. Antes do surgimento de Agentes baseados em LLM, RPA (Robot Process Automation) é a primeira solução de busca do setor, mas o RPA tradicional tem um limite alto e não pode ser popularizado para o público. O RPA é um remédio para a falta de automação da lógica tradicional de interação de TI, e os Agentes atuais podem se comunicar com linguagem natural para realizar a função de necessidade do RPA.

Os dois projetos a seguir nos mostram como os Agentes baseados em LLM nos ajudarão a nos libertar do trabalho repetitivo em nosso trabalho diário e pesquisa acadêmica. (Na verdade, o potencial desses dois projetos é mais do que isso)

Cheat Layer

"Automatee your business Using Natural Language", usando a linguagem natural para automatizar o seu negócio, este é o slogan da marca Cheat Layere. A camada de trapaça resolve problemas impossíveis de automação de negócios por meio de modelos de aprendizado de máquina GPT-4 treinados de forma personalizada, servindo como engenheiros de software de IA para cada usuário.

Cheat Layer lançou dois produtos no Producthunt, um é o Cheat Layer e o outro é o Project Atlas Agents. O Project Atlas Agents é uma interface de gerenciamento para projetos sem código que podem ser usados para construir e iterar AI Agents.

O Cheat Layer automatiza a operação de toda a página da Web por meio do modo de plug-in do Google Chrome e usa linguagem natural. Por exemplo, a maioria de nossas operações de rotina na página da Web pode ser operada automaticamente. Cheat Layer é facilmente reminiscente de RPA, ou seja, automação de processos robóticos. Muito se discute sobre a relação entre Agentes e RPA, é fato indiscutível que o RPA tradicional foi eliminado pelos Agentes.

Use a linguagem natural através do Cheat Layer para configurar a automação dos processos de negócios e use os Agentes do Project Atlas para gerenciar diferentes processos de automação. De maneira geral, podemos usar o modo de linguagem natural para criar um Agente para gerenciar a execução automatizada de um determinado negócio, como à medida que a complexidade do negócio aumenta, podemos melhorar iterativamente os Agentes.

Não conheço o marketing e a promoção do Cheat Layer por enquanto, mas de acordo com as estatísticas do similarweb, os principais usuários estão principalmente na América do Norte, e o número de visitas aumentou 37,8% em comparação com o mês anterior. Ao criar um agente para automatizar o gerenciamento de negócios, é relativamente Comparado com vários chatbots, essa demanda pode atender muito às necessidades de pequenos e médios proprietários de comércio eletrônico, e talvez essa seja uma direção que vale a pena explorar e cavar;

Pesquisador GPT

O GPT Researcher é um agente autônomo baseado no GPT capaz de realizar pesquisas on-line abrangentes sobre qualquer tópico. A introdução do projeto no Github é:

"O agente é capaz de gerar relatórios de pesquisa detalhados, objetivos e imparciais com opções de personalização para se concentrar em recursos, esboços e lições relevantes. Inspirado no AutoGPT e em um documento recente do Planeje e resolva, o GPT Researcher resolve os problemas de velocidade e determinísticos , ao paralelizar o trabalho do agente em vez de operações síncronas, proporcionando desempenho mais estável e velocidade mais rápida."

A arquitetura do GPT Researcher é realizada principalmente pela execução de dois agentes, **um é o "planejador" e o outro é o "executor"; **o planejador é responsável por gerar as questões de pesquisa, enquanto o executor é baseado na pesquisa perguntas geradas pelo planejador Encontre informações relevantes e, finalmente, filtre e resuma todas as informações relevantes por meio do planejador e, em seguida, gere um relatório de pesquisa;

mais especificamente:

Gere um conjunto de perguntas de pesquisa que, juntas, formem uma opinião objetiva sobre qualquer tarefa.
Para cada pergunta de pesquisa, acione um agente rastreador para extrair informações relevantes para a tarefa específica de recursos online.
Para cada recurso rastreado, resuma com base nas informações relevantes e rastreie sua origem.
Finalmente, todos os recursos resumidos são selecionados e agregados, e o relatório final da pesquisa é gerado.

Características deste projeto

Gerar pesquisas, esboços, recursos e relatórios de lições aprendidas

Cada estudo agrega mais de 20 fontes da Internet para formar conclusões objetivas e factuais

Inclui uma interface web fácil de usar (HTML/CSS/JS)

Web scraping habilitado para Java

Registre e rastreie informações contextuais sobre fontes da web visitadas e usadas

Exporte relatórios de pesquisa para formatos como PDF...

Embora o GPT Researcher seja uma ferramenta de pesquisa acadêmica baseada no GPT, este é um projeto de código aberto para fins acadêmicos sob a licença do MIT. Do ponto de vista da criação de conteúdo, esse código aberto tem alto valor comercial. Por exemplo, quando esse projeto de código aberto é aplicado a relatórios de análise de negócios, ainda pode economizar muito tempo. Em segundo lugar, transforme esse projeto de código aberto em uma IA para agentes de redação de conteúdo em profundidade também mudarão completamente o padrão da indústria de mídia de conteúdo;

endereço do projeto:

Ecologia de infraestrutura de AI-Agents

O futuro óbvio é que o relacionamento colaborativo entre humanos no futuro não é mais um relacionamento colaborativo entre humanos e humanos, mas um relacionamento colaborativo entre humanos e AI-Agents, e todos terão tantos AI-Agents quanto possível. lidar com o maior número possível de tarefas, formando assim uma grande e complexa estrutura de colaboração social inteligente;**

A relação colaborativa entre humanos e Agentes é diferente da teoria colaborativa de humanos e ferramentas em teorias de ciências sociais anteriores. Os Agentes também se tornaram uma questão-chave, sem falar na autoconsciência dos Agentes, mas na influência dos Agentes no comportamento de interação social na tomada de decisões em vez dos humanos.

Com base na consideração das duas proposições acima, temos que perceber que é possível para os seres humanos criar seus próprios AI-Agents de forma eficiente e conveniente, permitindo que seus próprios Agents tenham capacidades mais poderosas e, ao mesmo tempo, Agents são confiáveis e confiáveis.É inseparável de uma boa infraestrutura para dar suporte. A introdução dos três projetos a seguir, penso eu, representa a direção da construção da futura infraestrutura de AI-Agents;

langchain

LangChain é uma estrutura de desenvolvimento de aplicativos baseada em modelo de linguagem. Pode alcançar as seguintes funções

Data-aware: conecte modelos de linguagem a outras fontes de dados

Agente: permite que um modelo de linguagem interaja com seu ambiente.

O principal valor do LangChain reside em:

Componente: fornece abstrações para trabalhar com modelos de linguagem e fornece uma série de implementações para cada abstração. Esses componentes são modulares e fáceis de usar, quer você use o restante da estrutura LangChain ou não.

Cadeias prontas: um conjunto estruturado de componentes para implementar tarefas específicas de alto nível.

As correntes prontas facilitam o início rápido. Para aplicativos mais complexos e casos de uso granulares, os componentes facilitam a personalização de cadeias existentes ou a criação de novas.

langchain fornece interfaces padrão e extensíveis e integração externa, fornecendo os seguintes módulos

Entrada e saída do modelo de E/S do modelo: interação da interface com o modelo de linguagem

Data connection data connection: interação da interface com os dados de uma aplicação específica

Chains chain: construir sequência de chamada *

*Agentes: deixe a cadeia escolher quais ferramentas usar com base em instruções de alto nível. *

*Memória: Salva o estado do aplicativo entre execuções da cadeia. *

Callbacks Callbacks: Grave e transmita etapas intermediárias de qualquer cadeia. *

Graças à relativamente ativa ecologia do desenvolvedor de Langchain na comunidade inglesa, há relativamente muitos casos de desenvolvimento de aplicativos de Agentes usando Langchain. Definir a estrutura de Agentes e fornecer uma estrutura de desenvolvimento de código zero é uma tendência futura.

Com base em um sistema de framework específico, a fabricação de Agents é como construir blocos de Lego. Ao contrário da modularização do Web3, os módulos de Agents não precisam ser de prateleira, mas pessoas comuns também podem desenvolver componentes específicos por meio de programação em linguagem natural .Adicionado ao framework de Agentes.

Por exemplo, muitas pessoas usam a estrutura langchain para desenvolver chatbots, desenvolver um componente de conversão de tom por meio de programação de linguagem natural e adicioná-lo ao chatbot, então o tom de diálogo padrão original pode ser alterado para um tom de diálogo que atenda às próprias preferências do usuário.

O esclarecimento que nos foi dado por langchain é que o framework de desenvolvimento de Agentes para programação livre de código + módulos de componentes para programação em linguagem natural pode ser uma ferramenta de desenvolvimento necessária para a popularização de Agentes.

Agentes Transformadores

Transformer Agents é um sistema AI-Agents iniciado por hangging Face. Embora a função atual não seja muito boa, a principal razão pela qual devemos ficar de olho nela é que huggingFace é uma enorme comunidade de código aberto de biblioteca de modelos.

Na verdade, o Transformer Agents é baseado na estrutura do Transformer, adicionando uma API baseada em linguagem natural: huggingface define um conjunto de ferramentas e projeta um agente para interpretar a linguagem natural e usar essas ferramentas. Mais importante, esse sistema tem design extensível.

Ou seja, os Transformer Agents usaram um pequeno número de ferramentas de proxy bem preparadas no estágio inicial para verificar a viabilidade desse sistema e, em seguida, a escalabilidade significa que os Transformer Agents podem usar livremente a enorme biblioteca de ferramentas de modelo do huggingface.

Sinto que esta é a solução construída no paper "HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face", que consiste em conectar uma enorme biblioteca de modelos através do LLM para resolver tarefas complexas em múltiplos campos e múltiplas modalidades. é realmente muito grande. A primeira biblioteca de modelos de IA que reúne inteligência humana de alto nível é usada na forma de agentes para atender a problemas complexos em vários setores. É difícil não esperar por esse futuro. **

É claro que é empolgante concretizar essa visão, mas, no estágio atual, ainda espero que os Transformer Agents sejam capazes de propor uma impressionante estrutura de agentes para acomodar o influxo de desenvolvedores nessa ecologia que contém enormes minas de ouro. O HuggingFace pode ter ajustado sua própria estratégia de desenvolvimento.

WebArena

**O WebArena é um ambiente da Web independente e auto-hospedado para a criação de agentes autônomos. **O WebArena cria quatro categorias populares de sites com recursos e dados que imitam suas contrapartes do mundo real.

Para simular a solução de problemas humanos, o WebArena também incorpora ferramentas e recursos de conhecimento como sites independentes. O WebArena apresenta uma referência para a interpretação de comandos de linguagem natural do mundo real de alto nível em interações concretas baseadas na web. Os pesquisadores forneceram programas anotados para verificar programaticamente a correção funcional de cada tarefa.

Visão geral dos artigos citados:

"Os agentes atuais são criados e testados principalmente em ambientes sintéticos simplificados, que limitam amplamente a representação de cenários do mundo real. Neste artigo, construímos um ambiente de comando e controle de agente altamente realista e reproduzível. Especificamente, focamos em agentes executando tarefas na web e criou um ambiente que inclui sites totalmente funcionais em quatro áreas comuns: comércio eletrônico, discussões em fóruns sociais, desenvolvimento de software colaborativo e gerenciamento de conteúdo. Nosso ambiente é rico e diversificado, incluindo algumas ferramentas (como mapas ) e bases de conhecimento externas (como manuais do usuário) para incentivar a resolução de tarefas semelhantes às humanas.

Com base em nosso ambiente, publicamos um conjunto de tarefas de referência que se concentram na avaliação da correção funcional da conclusão da tarefa. As tarefas em nosso benchmark são diversas e duram muito tempo, e são projetadas para simular tarefas frequentemente executadas por humanos na Internet. Projetamos e implementamos diversos agentes autônomos, integrando técnicas de ponta como pensar antes de agir.

Os resultados mostram que resolver tarefas complexas é desafiador: nosso melhor agente baseado em GPT-4 atinge apenas uma taxa de sucesso de tarefa de ponta a ponta de 10,59%. Esses resultados destacam a necessidade de maior desenvolvimento de agentes poderosos, os atuais modelos de linguagem de última geração estão longe de serem perfeitos nessas tarefas do mundo real e o WebArena pode ser usado para medir esse progresso. "

Título da Tese: WebArena: Um Ambiente Web Realístico para Construir Agentes Autônomos

Endereço da Tese:

Este é um resultado de pesquisa acadêmica de um pesquisador de IA da Carnegie Mellon. Na verdade, o WebArena complementa a atualmente conhecida arquitetura de desenvolvimento langchain, ou vários projetos relacionados a Agents-Team. Precisamos de uma plataforma de teste de simulação de Agents, usada para garantir a robustez e eficácia dos Agentes.

A principal função dessa plataforma é testar a viabilidade de vários projetos de Agentes. Um cenário que posso até imaginar é que quando eu contratar um Agente em uma determinada plataforma no futuro, usaremos os Agentes através de uma plataforma como a WebArena para Testar o a capacidade real de trabalho dos Agentes também significa que os humanos têm o direito de falar sobre as decisões de preços dos Agentes de IA.

Como os AI-Agents afetarão tudo?

Rede de colaboração automatizada baseada em agentes

Por meio de nossa introdução e análise de mais de uma dúzia de projetos acima, esses diferentes projetos são como peças de um quebra-cabeça, constituindo nossa compreensão geral relativa dos Agentes. Os Agentes são, na verdade, a direção para realmente revelar o potencial do LLM, e o LLM é o centro, Agentes dotam LLM com mãos e pés. Com base na diversidade funcional dos Agentes dirigidos por LLM, os Agentes serão como uma explosão biológica, e humanos e Agentes se tornarão um companheiro digital/relação de desenvolvimento simbiótico.

A rede colaborativa da sociedade humana também formará uma rede colaborativa automatizada entre humanos e Agentes devido à aplicação em larga escala de Agentes. A estrutura de produção da sociedade humana será atualizada e todos os aspectos da sociedade serão afetados e alterados;

Mudando tudo na Internet

Os AI-Agents mudaram completamente a forma como obtemos informação, processamos informação, produzimos informação e usamos informação na Internet, e mudaram o nosso atual modelo de negócio baseado na Internet. Uma rede inteligente com capacidades de comunicação e execução autónoma/automática de tarefas são os Agentes Internet são o meio inteligente com o qual conversamos e executamos.

Reformulando a narrativa para Web3

A rede de moeda criptografada se tornará a rede de moeda natural dos Agentes, e os recursos de computação consumidos por toda a rede de colaboração AI-Agents farão do Token um importante recurso econômico de IA; a propriedade de dados pessoais representada pelo Web3 também enfrentará um novo humano-computador relacionamento de interação Entre eles, uma proposta totalmente nova de que humanos e agentes de IA compartilham direitos de propriedade de dados. O surgimento de Agentes com direitos de propriedade independentes (um movimento radical para liberar IA), DAOs totalmente automatizados por Agentes de IA e superindivíduos monopolizam a maior parte dos direitos de propriedade de dados de rede e recursos de computação efetivos.

O movimento afirmativo de dados sob a onda da Web3 trouxe de volta a propriedade dos dados de todos. Na verdade, a maioria das pessoas não tem necessariamente recursos de dados de alto valor. O retorno da propriedade dos dados tornou-se um apelo político da narrativa Web3, mas ignora a AGI sociedade. A estrutura de produção é desigual; o que AI-Agents representa é que, embora a IA seja superprodutividade, ela também está construindo uma nova relação de produção de interação humano-computador e colaboração automática, o que nos faz ter que reformular a lógica narrativa do Web3 ;

Acelere a construção do metaverso

A partir do desenvolvimento e evolução dos Generative Agents, explorando residentes digitais nativos digitais e construindo uma série de atividades sociais no ambiente metaverso de humanos digitais nativos (IA-Agents com características de personalidade e consciência autônoma), de fato, está acelerando o metaverso. O universo evoluiu de um espaço digital para um território digital com funções e formas sociais. O conceito de espaço computacional também permitirá que os Agentes obtenham um espaço de desenvolvimento multimodal digital, acelerando assim o surgimento da inteligência incorporada dos Agentes no ambiente digital.

A construção do metaverso não é mais a tarefa dos seres humanos, mas a tarefa da auto-expansão contínua como o espaço vital do AI-Agent;

Cuidado com o sequestro de uma única narrativa de tecnologia

De fato, nos últimos anos, vários hotspots tecnológicos surgiram um após o outro, e a humanidade parece ter entrado em um período de frequentes revoluções tecnológicas. De fato, as três narrativas do Metaverso, Web3 e AGI surgiram uma após a outra, o que realmente criou muito para as pessoas na escolha de direções de carreira. Devido ao fato de que a maioria das pessoas no mercado é orientada para o pensamento baseado em projetos, o posicionamento do projeto em si pode ser facilmente atribuído a uma categoria específica, como Web3 ou AI ... É aqui que o burro decide a cabeça, ignorando a tecnologia A lei objetiva do desenvolvimento da história.

**O desenvolvimento da ciência e da tecnologia nunca foi fragmentado, mas caminhou para a integração interdisciplinar em uma unidade dialética. **Por exemplo, o atributo narrativo NFT do Web3 está naturalmente alinhado com a narrativa do Metaverso. Nos primeiros dias do Web3, os dois foram deliberadamente opostos por algumas pessoas. Essas são perspectivas muito estreitas. O mesmo é verdadeiro para a narrativa AGI de hoje. Os praticantes da Web3 conhecem apenas as ferramentas de IA, mas não pensam profundamente sobre a lógica narrativa da AGI. Eles criarão deliberadamente uma resistência cognitiva entre a IA e a Web3. Por exemplo, a compreensão de DAO de muitas pessoas da Web3 está no original Poucas pessoas têm coragem de parar e repensar a influência da AGI no DAO.

Web3, Metaverse e AGI são três direções altamente relacionadas. Organizações tradicionais de mídia de tecnologia tradicional ou instituições de investimento ainda não estabeleceram um novo conceito de paradigma para futuras narrativas de tecnologia e têm usado velhos paradigmas narrativos para influenciar o mercado. Os recursos da ciência e da tecnologia os praticantes de tecnologia nessa direção estão dispersos e suas ideias não são suficientemente abertas. Não descartamos que novas narrativas tecnológicas continuarão a surgir no futuro, mas se o velho paradigma das narrativas tecnológicas continuar a ser adotado, os recursos de talentos científicos e tecnológicos serão apenas divididos e dispersos novamente. da cognição tecnológica é um recurso residual de coisas invisíveis.

Uma questão-chave atualmente enfrentada por toda a indústria de tecnologia chinesa é o que é tecnologia? Faltam novos paradigmas narrativos e nenhum novo conceito narrativo para nos guiar a lidar melhor com a próxima onda de tecnologia. Estamos sempre imersos em projetos, mas carecemos de narrativas que consigam condensar o poder da ciência e da tecnologia, nem as três grandes narrativas de Web3, Metaverse e AGI originaram-se na China.

Estou realmente ansioso para inaugurar uma era em que cem flores desabrocham e cem escolas de pensamento competem em narrativas científicas e tecnológicas. Precisamos urgentemente formar uma nova compreensão das narrativas tecnológicas, para que possamos encontrar o caminho certo para o desenvolvimento e determinam nossa posição de desenvolvimento sustentável em todo o ecossistema tecnológico.

Claro, apelar sozinho é inútil, e alguém ainda precisa fazer isso, então eu farei isso primeiro, e tenho suportado esse pensamento narrativo de tecnologia única por muito tempo!

Ver original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.