Dirigé par l'équipe Tsinghua, le premier test de référence systématique d'agent d'IA est sorti

2023-08-09 02:18:36

Les agents IA, ou agents intelligents autonomes, ne sont pas seulement des super assistants humains dans des films de science-fiction tels que Jarvis, mais ont également été un point névralgique de la recherche dans le domaine de l'IA dans le monde réel. En particulier, l'émergence de grands modèles d'IA représentés par GPT-4 a propulsé le concept d'agents d'IA à l'avant-garde de la technologie.

Dans la "ville virtuelle" de Stanford, autrefois populaire, 25 agents de l'IA ont grandi librement dans la ville virtuelle et ont organisé une fête de la Saint-Valentin ; le modèle d'agent incarné Voyager proposé par Nvidia et d'autres également appris dans "My World" Diverses compétences de survie ont créé leur propre monde ; en outre, AutoGPT, BabyAGI et AgentGPT, qui peuvent effectuer des tâches de manière indépendante, ont également suscité un large intérêt et des discussions animées parmi le public.

Même Andrej Karpathy, l'ancien directeur de Tesla AI et de retour à OpenAI, a révélé lors d'un événement pour développeurs que chaque fois qu'il y aurait un nouvel article sur un agent d'IA, OpenAI serait très intéressé et aurait sérieusement une discussion**.

Bien que la recherche actuelle sur les agents d'IA soit extrêmement chaude, Actuellement, l'industrie de l'IA manque d'une référence systématique et standardisée pour évaluer le niveau d'intelligence des LLM en tant qu'agents.

À cette fin, une équipe de recherche de Tsinghua University, Ohio State University et University of California, Berkeley a proposé le premier test de référence systématique - AgentBench, pour évaluer les LLM en tant qu'agents dans divers défis et performances du monde réel (tels que capacités de raisonnement et de prise de décision) dans 8 environnements différents.

Les résultats montrent que les meilleurs modèles de langage commerciaux tels que GPT-4 fonctionnent bien dans des environnements complexes, avec un avantage significatif entre les modèles open source. À cette fin, l'équipe de recherche suggère que des efforts supplémentaires pour améliorer les capacités d'apprentissage des LLM open source sont nécessaires.

Un document de recherche connexe intitulé "AgentBench : uating LLMs as Agents" a été publié sur le site Web de prépublication arXiv. De plus, des ensembles de données, des environnements et des packages d'évaluation intégrés associés ont également été publiés sur GitHub.

Premier benchmark systématique

Dans des recherches et des pratiques antérieures, des environnements de jeu textuels ont été utilisés pour l'évaluation de l'agence linguistique. Cependant, ils sont souvent limités par des espaces d'action discrets fermés, et ils se concentrent principalement sur les capacités basées sur le bon sens des modèles.

Certaines tentatives récentes sur les agents incarnés utilisent des simulateurs multimodaux complexes basés sur des jeux, des interfaces utilisateur graphiques (GUI) et des scènes d'intérieur. Cependant, malgré la complexité de ces simulateurs, ils ne peuvent pas refléter avec précision l'utilisation des LLM dans des cas d'utilisation réels, et leur nature multimodale pose également des obstacles à l'évaluation rapide des LLM en texte brut.

De plus, la plupart des benchmarks d'agents se concentrent sur un seul environnement, ce qui limite leur capacité à fournir un aperçu complet des LLM dans différents scénarios d'application.

Dans ce travail, l'équipe de recherche a travaillé sur le système d'exploitation (OS), la base de données (DB), le graphe de connaissances (KG), le jeu de cartes (DCG), la supposition de scénarios (LTP), l'ameublement (Alfworld), les achats en ligne (WebShop) ) et la navigation Web (Mind2Web) ** 25 modèles de langage différents (modèles basés sur API et open source) ont été évalués de manière exhaustive à l'aide d'AgentBench dans 8 tâches d'environnement différentes.

Les résultats des tests montrent que les modèles de pointe comme GPT-4 sont capables de gérer une grande variété de tâches du monde réel, tandis que la plupart des LLM open source fonctionnent bien moins bien que les LLM basés sur API dans AgentBench ; même, le plus capable Il existe également un écart de performances important entre le modèle open source openchat-13b-v3.2 et gpt-3.5-turbo.

Bien que grâce à une formation approfondie en alignement, les LLM puissent non seulement maîtriser les tâches traditionnelles de la PNL telles que la réponse aux questions, le raisonnement en langage naturel et la synthèse de texte, mais également démontrer leur capacité à comprendre les intentions humaines et à exécuter les instructions, ils exécutent mal les tâches AgentBench telles que l'efficacité de l'action. , contexte long, cohérence multi-tours et formation au code) les performances sont relativement à la traîne.

Selon l'équipe de recherche, ** des travaux supplémentaires sont nécessaires à l'avenir pour mener des évaluations plus rigoureuses et systématiques, et pour fournir de puissants outils open source pour faciliter ces évaluations **, comme l'amélioration continue d'AgentBench pour le rendre plus complet et inclusif, et établir un système d'évaluation plus systématique pour les LLM, etc.

La course aux agents IA "autonomes" déferle sur la Silicon Valley

L'évolution continue des grands modèles d'IA a conduit à la naissance de nouveaux assistants. La course aux agents IA "autonomes" alimente actuellement une frénésie dans la Silicon Valley. Non seulement il a attiré des développeurs individuels, mais des entreprises géantes telles que Microsoft et Alphabet, la société mère de Google, ainsi que de nombreuses start-up y ont également activement participé.

Prenez la startup Inflection AI, dont les co-fondateurs Reid Hoffman et Mustafa Suleyman ont déclaré dans un podcast qu'ils développaient un assistant personnel qui peut agir en tant que mentor et gérer des tâches telles que l'organisation des crédits de vol et des affaires des hôtels.

Le développeur de la société MultiOn, Div Garg, a déclaré que l'objectif était de le développer en un ami personnel de l'IA, similaire à l'assistant virtuel "Jarvis". Ils veulent que ce proxy puisse se connecter à des services individuels.

Le PDG de General Intelligent, Kanjun Qiu, a déclaré : "Les choses qui sont faciles pour les humains sont toujours très difficiles pour les ordinateurs, comme planifier une réunion pour le patron avec un groupe de clients importants. Cela nécessite des capacités de raisonnement très complexes, impliquant l'accès aux préférences de chacun, la résolution conflits, tout en étant nuancé dans le travail avec les clients.

Qiu et quatre autres développeurs d'agences prévoient que les premiers systèmes capables d'effectuer de manière fiable des tâches en plusieurs étapes avec une certaine autonomie seront disponibles d'ici un an, en mettant l'accent sur des secteurs verticaux tels que le codage et le marketing.

Le PDG de Microsoft, Satya Nadella, a déclaré un jour dans une interview au Financial Times : "Qu'il s'agisse de Cortana de Microsoft, d'Alexa d'Amazon, de Google Assistant ou de Siri d'Apple, ils ne sont pas assez intelligents pour répondre aux attentes initiales."

** Mis à part les inquiétudes existantes, les agents d'IA ont montré un grand potentiel et un grand marché. ** Bien que nous puissions rencontrer des défis dans le processus d'exploration et d'application, tout comme de nombreuses innovations dans l'histoire, au fil du temps, nous devrions voir ces agents d'IA apporter des avantages positifs et positifs à la société humaine grâce à une optimisation et une amélioration continues. profonde influence.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Partager

Commentaire

0/400

Aucun commentaire

Rubrique
Gate 2025 Q2 Report Released
9k Popularité
Gate Derivatives Volume Hits New High
12k Popularité
CPI Data Incoming
11k Popularité
4Join Gate VIP to Win MacBook
30k Popularité
5MicroStrategy Buys More Bitcoin
672 Popularité
6BTC Hits New High
98k Popularité
7My Gate Moments
28k Popularité
8VIP Exclusive Airdrop Carnival
26k Popularité
9Fed June Meeting Minutes
7k Popularité
10Gate Alpha Trading Share
15k Popularité

Épingler