Os agentes de IA de que os figurões do Vale do Silício estão falando são realmente atraentes ou não?

Question

Autor｜Li Han Zhu YueEditar｜CastanhasFonte: Jiazi Guangnian![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6871add7c5-dd1a6f-7649e1) *Fonte da imagem: Gerada pela ferramenta Unbounded AI*Após o grande sucesso do ChatGPT, a OpenAI já avançou para o próximo objetivo - AI Agents (órgão inteligente)."Se um artigo propõe um método de treinamento diferente, a OpenAI zombará internamente, pensando que tudo isso foi deixado por nós. Mas quando o novo artigo sobre AI Agents for lançado, discutiremos com muita seriedade e entusiasmo.** Pessoas comuns, empreendedores e os geeks têm uma vantagem sobre empresas como a OpenAI em termos de criação de agentes de IA.**”, disse Andrej Karpathy, cofundador da OpenAI e ex-diretor da TeslaAI.O discurso público de Karpathy adicionou muito calor aos agentes de IA. Mas seu julgamento não é exclusivo.Já em março, o AutoGPT recebeu 74.000 estrelas no GitHub e rapidamente se tornou o projeto de código aberto de crescimento mais rápido da história; BabyAGI e AgentGPT, que foram lançados posteriormente, surgiram como cogumelos: pedir pizza, organizar caixas de correio, criar blogs e até mesmo Faça uma festa de dia dos namorados...Mais e mais agentes de IA estão aparecendo em várias cenas da vida das pessoas, e a mania está se espalhando rapidamente do Vale do Silício.Autoexecutáveis e operando de forma independente, os AI Agents recebem altas expectativas dos tecnólogos, que os consideram uma "ferramenta de produtividade que muda a sociedade". Algumas pessoas até consideram isso como "o início da era da inteligência artificial geral (AGI)".Mas as vozes não podem esconder os problemas existentes."Um modelo grande é o pré-requisito para os Agentes de IA. Somente com uma base de hardware boa o suficiente podemos desenvolver Agentes de IA", disse Dai Yusen, sócio-gerente da ZhenFund, a "Jiazi Guangnian".A rigor, apenas o ChatGPT possui uma grande base de modelos "qualificada" no mercado. Restrito pelo poder computacional do modelo, ainda falta solo para o desenvolvimento de Agentes de IA na China.O futuro é brilhante, mas a realidade é cruel. Pesquisa e desenvolvimento de tecnologia e capital de risco estão em alta. Ninguém sabe quando o período de dividendos dos AI Agents realmente virá com a onda de grandes modelos. Mas o que é certo é que a mudança começou discretamente.## **1.AI Agents: "assistentes digitais" que ajudam você a fazer as coisas**Em vez de tratar os AI Agents como uma versão atualizada do ChatGPT, é mais apropriado considerá-lo um "assistente digital" para humanos.Ele não apenas diz "como fazer", mas também "ajuda você a fazer". Como um meio, os Agentes de IA substituem os humanos e interagem repetidamente com modelos de linguagem grande (LLM), como o GPT. Desde que um objetivo seja fornecido, ele pode simular um comportamento inteligente, criar tarefas de forma autônoma, redeterminar a prioridade da lista de tarefas, e conclua as tarefas. A primeira tarefa e faça um loop até que o objetivo seja alcançado.**Ao contrário da inteligência artificial tradicional, os agentes de IA** podem operar de forma independente sem controle humano. **Ao acessar a API, os AI Agents podem até navegar na web, usar aplicativos, ler e gravar arquivos, pagar com cartões de crédito e muito mais.**Simplificando, você só precisa definir uma meta e a IA** **Os agentes podem fazer todo o resto. Por exemplo, o agente de IA desenvolvido pela HyperWrite pode pedir pizza automaticamente para você por meio do programa de controle do navegador Chrome. **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0dde3def20-dd1a6f-7649e1) Fonte: Conta do Twitter do CEO da HyperWrite, Matt ShumerEsse tipo de imaginação não é difícil de colocar em filmes de ficção científica, mas no processo de exploração da inteligência artificial, dura quase meio século.Já na década de 1980, os cientistas da computação começaram a explorar como desenvolver um software inteligente que pudesse interagir como um ser humano. No entanto, devido às limitações de dados e poder de computação, os AI Agents carecem das condições realistas necessárias.Joon Park, um Ph.D. em ciência da computação na Universidade de Stanford, disse uma vez em uma entrevista: "Temos trabalhado nessa direção, mas todos os métodos nas últimas décadas não chegaram nem perto do que estamos alcançando agora. com o LLM... É por isso que esquecemos essa visão. Mas quando o LLM apareceu, percebemos que havia uma oportunidade.”O grande modelo de linguagem é o cérebro central dos Agentes de IA. Ao desmontar tarefas complexas, os requisitos complexos do usuário podem ser desmontados em métodos de tarefas realizáveis.Por um lado, o treinamento de grandes modelos é construído com base na Internet e contém uma grande quantidade de dados de comportamento humano, que constituem os elementos-chave para a construção de Agentes de IA confiáveis.Por outro lado, com uma capacidade de conhecimento considerável, o modelo grande surge com excelente capacidade de aprendizagem de contexto e capacidade de raciocínio. Ao estabelecer uma cadeia de pensamento para realizar o pensamento contínuo e a tomada de decisão do modelo, os AI Agents podem analisar problemas complexos e desmontá-los em subtarefas simples e detalhadas.Ao mesmo tempo, o uso da linguagem pelo LLM como meio também mudou a forma de interação inicial. Wen Yongteng, chefe da área de aplicação de IA da BV Baidu Ventures e vice-presidente de investimentos, disse a "Jiazi Guangnian": "A BV Baidu Ventures começou a prestar atenção ao desenvolvimento de agentes de IA muito cedo. Por meio de pesquisa e julgamento, nós acredito que a interface gráfica do usuário (GUI) original é possível transformar em uma interface de usuário de idioma (LanguageUI), e o aplicativo front-end dos Agentes de IA existirá em todas as formas front-end que podem interagir com humanos."É apenas uma tarefa de desmantelamento e está longe de ser inteligente. **IA conduzida por LLM** **Os agentes não podem prescindir de três componentes principais:*** **Planejamento: **Decompor tarefas de grande escala em subobjetivos menores e gerenciáveis; conduzir reflexão e refinamento, analisar, resumir e refinar comportamentos passados para melhorar sua inteligência e adaptabilidade, Melhorar a qualidade do resultado final.* **Memória (Memory): **Memória de curto prazo, aprendizagem contextual; memória de longo prazo, a capacidade de armazenar e recuperar informações ilimitadas por um longo período de tempo, geralmente alcançada por meio de armazenamento em operadora externa e recuperação rápida.* **Uso da ferramenta:** pode aprender a chamar APIs externas para obter informações adicionais que faltam nos pesos do modelo.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c089219548-dd1a6f-7649e1) Visão geral do AI Agent impulsionado pelo LLM, fonte da imagem: blog pessoal de Lilian WengCom a cooperação dos três componentes, os AI Agents podem não apenas pensar como humanos, mas também agir como humanos.Assim como os humanos, ao se envolver em tarefas complexas, muitas vezes há um processo de raciocínio entre cada etapa. Os AI Agents também usarão componentes ReAct (uma biblioteca Java para construir interfaces de usuário) para combinar de perto os recursos de raciocínio de grandes modelos com decisões comportamentais, para que os modelos de linguagem possam ser logicamente planejados e organizados com base no conhecimento.A estrutura Reflexition fornece aos Agentes de IA memória dinâmica e recursos de autorreflexão. Fortalecer os agentes linguísticos por meio do feedback linguístico, em vez de atualizar os pesos, permite melhorar as decisões de ação anteriores e corrigir os erros do passado para melhorar continuamente seu desempenho.No processo de aquisição, armazenamento, retenção e recuperação de informações, os AI Agents também tentam imitar a composição da memória humana e construir um sistema de memória eficiente.Simulando o caminho da memória humana, os AI Agents expressarão memória sensorial, memória de curto prazo e memória de longo prazo como a incorporação de aprendizado da entrada original (como texto, imagem etc.), aprendizado de contexto e armazenamento de vetor externo . Tarefas e resultados são armazenados no módulo de memória e, quando as informações são recuperadas, as informações armazenadas na memória retornam ao diálogo com o usuário, criando assim um contexto mais restrito.Uma das características humanas mais distintivas é o uso e a criação de ferramentas. Equipados com ferramentas externas e usando APIs para chamar várias interfaces, os AI Agents podem simular o uso humano de ferramentas para concluir tarefas mais complexas.Embora o nível técnico não esteja totalmente maduro, questões como gerenciamento de dados e memória de longo prazo ainda estão sendo resolvidas. No entanto, a capacidade dos agentes de IA de executar de forma autônoma, otimizar de forma iterativa e "mãos livres" também torna inevitável a popularidade.## **2. Substituindo o LLM, os agentes de IA se tornam o próximo ponto de acesso de IA**O nascimento do ChatGPT realizou a função da IA tendo várias rodadas de conversas com humanos e fornecendo informações e sugestões. A introdução do Copilot permitiu que a IA realizasse a capacidade de concluir o primeiro rascunho do trabalho para humanos, como Github Copilot, Microsoft 365 Copilot e Midjourney, que se tornaram o "co-piloto inteligente" das pessoas nas áreas de programação, trabalho de escritório, e geração de imagem.Diga a uma IA para fazer uma tarefa, e ela fará uma tarefa – escreva uma cópia, responda a uma pergunta ou gere uma foto que é difícil para o olho humano dizer se é real ou falsa. Ao mesmo tempo, as pessoas geralmente precisam fornecer instruções específicas e claras para cada etapa da IA.Nesse momento, a IA é como um estagiário que acabou de chegar, não tem experiência e precisa ser ensinado na mão. No entanto, e se você quiser um bom funcionário que obedeça às ordens, resolva sozinho as dificuldades de execução e tente não causar problemas aos outros?Em março e abril, Camel, AutoGPT, BabyAGI, Westworld Township e outros agentes de IA explodiram juntos, o que parecia fazer as pessoas verem essa possibilidade.Desde o AutoGPT de código aberto da Significant Gravitas em março, dois meses após seu lançamento, o AutoGPT recebeu 130.000 estrelas no GitHub, tornando-o o projeto de código aberto de crescimento mais rápido da história.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3abb85fe26-dd1a6f-7649e1) Westworld cidade criada pela Universidade de StanfordFonte da imagem: Paper "Generative Agents: Interactive Simulacra of Human Behavior"Andrej Karpathy disse uma vez no Twitter: "A próxima fronteira da engenharia imediata (engenharia) são os AutoGPTs". Até agora, o AutoGPT obteve mais de 140.000 estrelas na plataforma de hospedagem de código Github, ocupando o 25º lugar na história.O cofundador e CEO da OpenAI, Sam Altman, afirmou em várias ocasiões que a era da construção de enormes modelos de IA acabou e que corpos inteligentes são o desafio.Em um artigo apresentando agentes autônomos, o autor, Matt Schlicht, cofundador e CEO da Octane AI (uma fornecedora de plataformas de marketing de dados), coletou as opiniões de mais de cem pessoas da indústria, da academia e dos círculos de investimento. Especialistas de grandes empresas como Meta, Nvidia, Stability AI ou startups de IA, bem como membros do corpo docente de Stanford CS e investidores de IA, incluindo Hugging Face, a maioria deles expressou suas expectativas e perspectivas para o potencial de Agentes de IA. "AGI bruto".Substituindo os grandes modelos, os Agentes de IA parecem estar se tornando a próxima grande novidade em IA.Mas, ao mesmo tempo, as vozes de oposição são infinitas.O vencedor do Turing Award, Yoshua Bengio, mencionou em seu blog "How AI that Harms Humans Appears", publicado em maio deste ano, que os humanos podem controlar as tarefas e objetivos gerais dos AI Agents, mas isso não significa que os humanos possam controlar os AI Agents em virtude de Para as subtarefas e subobjetivos decompostos pela própria inteligência, a menos que a pesquisa sobre o alinhamento da IA faça um avanço, os seres humanos não terão uma forte garantia de segurança.O surgimento coletivo de agentes inteligentes, a busca e as dúvidas de chefões, a onda de agentes de IA é rápida e quente.No entanto, AI Agents não é um termo novo no círculo da inteligência artificial.Em 2014, o Go AI AlphaGo lançado pela DeepMind é na verdade uma espécie de AI Agents. Semelhante a este é o OpenAI Five lançado pela OpenAI em 2017 para jogar "Dota2", e em 2019 a DeepMind anunciou o AlphaStar para jogar "StarCraft 2".A tendência da indústria naquela época era treinar e melhorar os Agentes de IA por meio de aprendizado por reforço, que era usado principalmente em cenários de jogos, especialmente em alguns jogos de confronto com vencedores e perdedores óbvios. Mas é uma questão em aberto se alguém deseja alcançar a generalidade no mundo real.Nos anos seguintes, a OpenAI voltou-se para modelos de linguagem em grande escala, e as séries GPT foram lançadas uma após a outra. Modelos em grande escala se tornaram o caminho para vários fabricantes de tecnologia se apressarem. É também o desenvolvimento de modelos em grande escala que permitem aos Agentes de IA romper o gargalo e redesenvolver a oportunidade.Comparado com a limitação a cenários de jogos há alguns anos, o que os agentes de IA podem alcançar com base em modelos grandes? Wen Yongteng, chefe da área de aplicação de IA da BV Baidu Ventures e vice-presidente de investimentos, disse a "Jiazi Guangnian": "O que vimos não é apenas que o progresso tecnológico melhorou muito a capacidade da IA de entender as intenções do usuário, coletar informações e executar tarefas. Mais importante ainda, os Agentes de IA são totalmente capazes de reconstruir o futuro ecossistema de aplicativos."Logo após o lançamento do AutoGPT, muitos internautas usaram o AutoGPT para criar assistentes pessoais automatizados. Por exemplo, Udit Goenka, fundador e CEO da FirstSales.io, postou que usou o AutoGPT para construir um mecanismo de prospecção que pode pesquisar empresas que receberam investimento inicial no ano passado e descrever os detalhes da criação de uma lista.Yew Jin Lim, engenheiro de software do Google, disse que usou o AutoGPT para criar um assistente de e-mail que envia detalhes de tarefas para agentes de IA por e-mail.Dai Yusen, sócio-gerente da ZhenFund, disse a "Jiazi Guangnian": "O agente é uma direção que pode realmente melhorar muito a produtividade, porque se as pessoas ainda fazem coisas, as pessoas sempre são limitadas.""Agentes de IA se tornarão uma ferramenta de produtividade na vida diária e no trabalho." Matt Schlicht escreveu: "Desde o gerenciamento de contas de mídia social, investindo no mercado, até a publicação dos melhores livros infantis, os Agentes de IA existirão em todos os setores e em todos os setores. tarefas. isso pode ser imaginado." Por exemplo, aomni é um agente de IA que pode pesquisar informações sobre qualquer tópico na Internet e completará os objetivos do usuário, um por um, criando uma lista.Além das necessidades de produtividade, o AI Agent Pi pessoal do Inflection AI fornece outra direção de aplicação possível.Diferente do posicionamento do ChatGPT e da inteligência artificial geral de Claude, Pi se concentra em alto EQ, companheirismo emocional e fornecimento de valor emocional. O Pi também lembrará as conversas históricas com os usuários, além de participar e auxiliar no trabalho e na vida das pessoas, também aprenderá como contatar amigos e familiares para estabelecer conexões com os usuários. Atualmente, o Inflection AI recebeu mais de 1,5 bilhão de dólares em investimentos, superando o Anthropic e perdendo apenas para o OpenAI.## **3. Os Agentes de IA serão a próxima tendência? **"Building a kind of JARVIS (edifício semelhante ao JARVIS)", esta é a última atualização do perfil de Andrej Karpathy no Twitter, JARVIS é um assistente de inteligência artificial do super-herói Homem de Ferro da Marvel, que tem a capacidade de pensar de forma independente e pode ajudar o proprietário Controle vários negócios e calcule várias informações.A introdução de Karpathy também significa que a arma de partida da pista AI Agents foi disparada.A mídia estrangeira "The Information" apontou que Sam Altman havia dito em particular a alguns desenvolvedores em maio que o OpenAI esperava tornar o ChatGPT um assistente de trabalho pessoal, e uma pessoa familiarizada com o assunto apontou que **OpenAI tem prestado atenção em como usar chatbots para criar IA autônoma** **Agentes, funções relacionadas provavelmente serão implantadas no assistente ChatGPT. **Coincidentemente, a Meta também vê uma oportunidade para os Agentes de IA.Em abril, Zuckerberg disse aos investidores que a Meta via uma “oportunidade de apresentar agentes de IA a bilhões de pessoas de maneira útil e significativa”, mas não especificou aplicativos específicos no momento.E em uma reunião geral com funcionários em junho, Zuckerberg anunciou uma série de tecnologias em vários estágios de desenvolvimento, uma das quais traria agentes de IA com diferentes personalidades e habilidades para ajudar ou entreter, inicialmente principalmente para Messenger e WhatsApp.**Na China, IA** **Produtos relacionados a agentes também nasceram um após o outro. **No site WAIC no início de julho, o Alibaba Cloud lançou seu primeiro corpo inteligente, ModelScopeGPT, para a comunidade de desenvolvedores e lançará uma série de corpos inteligentes no futuro para lidar com vários cenários de aplicação. ****A Huawei também está envolvida neste campo, mas foca mais em Embody AI (IA Corporificada), ou seja, a combinação de grandes modelos e robôs. **Além de grandes fabricantes, AI Agents também é uma oportunidade para empreendedores. O cofundador da OpenAI, Karpathy, mencionou especificamente em seu discurso anterior: "Pessoas comuns, empreendedores e geeks têm mais vantagens na construção de agentes de IA do que empresas como a OpenAI".Wen Yongteng, chefe da área de aplicação de IA da BV Baidu Venture Capital e vice-presidente de investimentos, disse que a equipe da BV também está otimista com as oportunidades para start-ups no campo de agentes de IA."A ecologia de aplicativos do futuro será diversificada, em vez de dominada por um único gigante. O surgimento de AI Agents trouxe uma oportunidade para uma mudança de paradigma, e muitos aplicativos tradicionais estão enfrentando a possibilidade de serem interrompidos. Nesse processo, as startups Há muitas oportunidades para abrir novos campos. Para cada tarefa específica, AI Agents tem muito espaço para otimização, incluindo a construção de algoritmos e serviços específicos, dados do usuário e design de produto. As startups podem estabelecer uma vantagem de diferenciação.""Além disso, a ecologia atual dos AI Agents não é clara o suficiente, o que oferece oportunidades de desenvolvimento favoráveis para start-ups, porque eles não precisam competir sob uma regra estabelecida. Nessa perspectiva, start-ups e grandes empresas estão se posicionando em Com a mesma linha de partida, as start-ups são mais flexíveis e podem ajustar rapidamente seus produtos.”Baseando-se no conhecimento acumulado ao longo dos anos no campo da inteligência artificial, a BV Baidu Ventures não acredita que as empresas modelo irão monopolizar as oportunidades na camada de aplicação. Porque para as empresas modelo subjacentes, a importância de construir uma ecologia é muito maior do que monopolizar um aplicativo.Se as empresas modelo subjacentes adotarem uma estratégia exclusiva para obter uma vantagem competitiva na camada de aplicativos, isso pode prejudicar sua própria ecologia. As empresas modelo subjacentes podem construir Agentes de IA fortes em uma ou duas áreas em que se concentram, mas não precisam necessariamente competir com startups em todas as áreas.**A ecologia que ainda não foi determinada, a arena que ainda não foi formulada e todos estão de volta à mesma linha de partida. **Mas é inegável que até agora, além de muitas demonstrações, AI Agents não apareceu como um produto real.Dai Yusen, sócio-gerente da ZhenFund, comparou o grau de cooperação entre IA e humanos com diferentes estágios de direção autônoma, e AI Agents é como o estágio L4 da direção autônoma. Mas, assim como L4, AI Agents são fáceis de imaginar e demonstrar, mas difíceis de realizar.A aplicação real de AI Agents ainda está em um futuro incerto.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cf43693e76-dd1a6f-7649e1) O grau de cooperação entre a IA e os humanos é comparado aos diferentes estágios da direção autônoma. Fonte da imagem: conta instantânea Dai Yusen @yusenDai Yusen enfatizou que, para realizar agentes de IA utilizáveis, a capacidade de modelos grandes precisa ser bastante aprimorada. Mesmo para o OpenAI de nível superior, ainda há muito espaço para melhorias em termos de atraso e desempenho."Se você usar uma máquina a vapor como analogia, o vapor só pode ser produzido quando a água é aquecida a 100 graus. Se a inteligência dos agentes de IA não atingir um certo nível, a água só é aquecida a 50 graus. Mesmo que muito de energia foi gasta, o vapor ainda não pode ser produzido. É 0."A arma de partida para a pista de AI Agents foi disparada, mas definitivamente não é uma corrida em apenas alguns meses, mas uma maratona de longa distância que está destinada a durar vários anos, ou mesmo dez anos.