Liderado pela equipe Tsinghua, o primeiro teste de benchmark sistemático de agente de IA foi lançado

2023-08-09 02:18:36

Os agentes de IA, ou agentes inteligentes autônomos, não são apenas superassistentes humanos em filmes de ficção científica como Jarvis, mas também têm sido um ponto de pesquisa no campo da IA no mundo real. Em particular, o surgimento de grandes modelos de IA representados pelo GPT-4 levou o conceito de agentes de IA para a vanguarda da tecnologia.

Na anteriormente popular "cidade virtual" de Stanford, 25 agentes de IA cresceram livremente na cidade virtual e realizaram uma festa do Dia dos Namorados; o modelo de agente incorporado Voyager proposto pela Nvidia e outros também aprendeu em "My World" Várias habilidades de sobrevivência criaram suas próprias mundo; além disso, AutoGPT, BabyAGI e AgentGPT, que podem realizar tarefas de forma independente, também despertaram interesse generalizado e discussões acaloradas entre o público.

Até mesmo Andrej Karpathy, o ex-diretor de IA da Tesla e retornando à OpenAI, revelou em um evento para desenvolvedores que sempre que houver um novo papel de agente de IA, a OpenAI ficará muito interessada e terá uma discussão séria**.

Embora a pesquisa atual de agentes de IA seja extremamente quente, Atualmente, a indústria de IA carece de uma referência sistemática e padronizada para avaliar o nível de inteligência dos LLMs como agentes.

Para tanto, uma equipe de pesquisa da Tsinghua University, Ohio State University e University of California, Berkeley propôs o primeiro teste de benchmark sistemático - AgentBench, para avaliar LLMs como agentes em vários desafios e desempenho do mundo real (como habilidades de raciocínio e tomada de decisão) em 8 ambientes diferentes.

Os resultados mostram que Os principais modelos de linguagem comercial, como o GPT-4, funcionam bem em ambientes complexos, com uma vantagem significativa entre os modelos de código aberto. Para esse fim, a equipe de pesquisa sugere que são necessários mais esforços para melhorar as capacidades de aprendizado dos LLMs de código aberto.

Um artigo de pesquisa relacionado intitulado "AgentBench: uating LLMs as Agents" foi publicado no site de pré-impressão arXiv. Além disso, Conjuntos de dados, ambientes e pacotes de avaliação integrados relacionados também foram publicados no GitHub.

Primeiro benchmark sistemático

Em pesquisas e práticas anteriores, ambientes de jogos baseados em texto foram usados para a avaliação da agência de linguagem. No entanto, eles são frequentemente limitados por espaços de ação discretos fechados e seu foco está principalmente nas capacidades baseadas no senso comum dos modelos.

Algumas tentativas recentes de agentes incorporados empregam simuladores multimodais complexos baseados em jogos, interfaces gráficas de usuário (GUIs) e cenas internas. No entanto, apesar da complexidade desses simuladores, eles não podem refletir com precisão o uso de LLMs em casos de uso do mundo real, e sua natureza multimodal também apresenta obstáculos para a avaliação rápida de LLMs de texto simples.

Além disso, a maioria dos benchmarks de agentes concentra-se em um único ambiente, o que limita sua capacidade de fornecer uma visão abrangente dos LLMs em diferentes cenários de aplicação.

Neste trabalho, a equipe de pesquisa trabalhou em sistema operacional (SO), banco de dados (DB), gráfico de conhecimento (KG), jogo de cartas (DCG), adivinhação de cenários (LTP), mobiliário doméstico (Alfworld), compras online (WebShop). e navegação na web (Mind2Web) ** 25 modelos de linguagem diferentes (ambos baseados em API e modelos de código aberto) foram avaliados de forma abrangente usando o AgentBench em 8 tarefas de ambiente diferentes.

Os resultados dos testes mostram que os modelos de última geração, como o GPT-4, são capazes de lidar com uma ampla variedade de tarefas do mundo real, enquanto a maioria dos LLMs de código aberto tem um desempenho muito pior do que os LLMs baseados em API no AgentBench; mesmo, o mais capaz Há também uma lacuna de desempenho significativa entre o modelo de código aberto openchat-13b-v3.2 e gpt-3.5-turbo.

Embora por meio de treinamento extensivo de alinhamento, os LLMs possam não apenas dominar as tarefas tradicionais de PNL, como responder a perguntas, raciocínio em linguagem natural e resumo de texto, mas também demonstrar a capacidade de entender as intenções humanas e executar instruções, eles têm um desempenho ruim em tarefas do AgentBench, como eficácia da ação , contexto longo, consistência multi-round e treinamento de código) o desempenho está relativamente atrasado.

De acordo com a equipe de pesquisa, mais trabalho é necessário no futuro para realizar avaliações mais rigorosas e sistemáticas e fornecer ferramentas poderosas de código aberto para facilitar essas avaliações, como melhorar continuamente o AgentBench para torná-lo mais abrangente e inclusivo, e estabelecer um sistema de avaliação mais sistemático para LLMs, etc.

A corrida para agentes de IA "autônomos" está varrendo o Vale do Silício

A evolução contínua dos grandes modelos de IA levou ao nascimento de novos assistentes. A corrida por agentes de IA "autônomos" está alimentando um frenesi no Vale do Silício. Não só atraiu desenvolvedores individuais, mas empresas gigantes como a Microsoft e a Alphabet, a empresa-mãe do Google, assim como muitas start-ups também participaram ativamente.

Veja a startup Inflection AI, cujos cofundadores Reid Hoffman e Mustafa Suleyman disseram em um podcast que estão desenvolvendo um assistente pessoal que pode atuar como mentor e lidar com tarefas como arranjar créditos de voos e hotéis.

O desenvolvedor da empresa MultiOn, Div Garg, disse que o objetivo é transformá-lo em um amigo pessoal de IA, semelhante ao assistente virtual "Jarvis". Eles querem que esse proxy possa se conectar a serviços individuais.

O CEO geralmente inteligente Kanjun Qiu disse: "Coisas que são fáceis para humanos ainda são muito difíceis para computadores, como agendar uma reunião para o chefe com um grupo de clientes importantes. Isso requer capacidades de raciocínio muito complexas, envolvendo acesso às preferências de todos, resolvendo conflitos, ao mesmo tempo em que são matizados ao trabalhar com clientes.”

Qiu e quatro outros desenvolvedores de agências preveem que os primeiros sistemas que podem executar tarefas de várias etapas de forma confiável com alguma autonomia estarão disponíveis dentro de um ano, com foco em verticais como codificação e marketing.

O CEO da Microsoft, Satya Nadella, disse certa vez em uma entrevista ao Financial Times: "Seja a própria Cortana da Microsoft, Alexa da Amazon, Google Assistant ou Siri da Apple, eles não são inteligentes o suficiente para atender às expectativas iniciais."

** Deixando de lado as preocupações existentes, os agentes de IA têm mostrado grande potencial e mercado. **Embora possamos encontrar alguns desafios no processo de exploração e aplicação, assim como muitas inovações na história, com o passar do tempo, esperamos testemunhar esses agentes de IA trazendo benefícios positivos e positivos para a sociedade humana por meio de otimização e melhoria contínuas. Influência Profunda.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Partilhar

Comentar

0/400

Nenhum comentário

Tópico
Gate 2025 Q2 Report Released
9k Popularidade
Gate Derivatives Volume Hits New High
12k Popularidade
CPI Data Incoming
41k Popularidade
4Join Gate VIP to Win MacBook
30k Popularidade
5MicroStrategy Buys More Bitcoin
676 Popularidade
6BTC Hits New High
115k Popularidade
7My Gate Moments
27k Popularidade
8VIP Exclusive Airdrop Carnival
26k Popularidade
9Fed June Meeting Minutes
7k Popularidade
10Gate Alpha Trading Share
15k Popularidade

Pino