10 agents IA représentatifs, comment va changer Internet / remodeler Web3

SOURCE: VION WILLIAMS

Explorez les possibilités innovantes des AI-Agents

Consensus et non-consensus des agents IA

La raison pour laquelle AI-Agents est devenu une direction qui attire de plus en plus l'attention est en grande partie due au fait que LLM fournit une voie de mise en œuvre technique réalisable pour l'application des AI-Agents, et deuxièmement, il existe de nombreux projets liés aux AI-Agents. . enfermer.

Bien que LiLian Weng définisse ce que sont les AI-Agents pilotés par LLM dans son article ? Mais Deepmind essaie également de définir le concept d'un agent unifié.Je crois que le concept d'AI-Agents formera également différents types de différenciation avec la compréhension des différentes sociétés d'IA.

Le consensus clé le plus clair est que ** basé sur des agents pilotés par LLM pour réaliser le traitement automatique des problèmes généraux **, ce sont les agents IA que nous avons identifiés dans ce cycle d'explosion de modèle de langage à grande échelle et avons formé une compréhension partagée.

** Trouvez la possibilité à partir de la corrélation des agents **

Au niveau de l'application des AI-Agents, au stade actuel, nous devrions examiner les AI-Agents du point de vue de la "pertinence" autant que possible, c'est-à-dire que nous devons être tolérants aux essais et erreurs et innovants dans les formes possibles des AI-Agents.Possibilité**, il ne faut pas chercher une réponse standardisée dans une position étroite comme certains critiques, ceux-ci ne sont pas conseillés.

Par exemple, Auto-GTP, en tant que possibilité, a en fait inspiré de nombreux projets Agents, mais une critique étroite perdra l'opportunité de saisir de nouvelles opportunités, ce qui est un phénomène courant chez les développeurs chinois. En tant que développeur sans créativité, comment comptez-vous sur votre compétitivité traditionnelle à l'ère de la programmation en langage naturel ?

Bien qu'il y ait beaucoup d'introductions sur les projets liés à AI-Agents, je pense qu'il y a un problème d'homogénéité de listage et d'introduction.Ces contenus nous permettent de savoir quels projets appartiennent à la direction d'AI-Agents, mais il n'y a pas de lien Partant de la nature, il montre le potentiel des AI-Agents dans différents domaines d'application, et la position écologique de certains types de projets AI-Agents.

Par exemple, dans mon introduction, Auto-GPT, BabayAGI et MetaGPT seront classés dans un type d'écologie par moi, car ils ont la continuité d'un certain chemin ;

Construire une cognition holistique dans le puzzle des Agents

Au total, dans l'introduction des projets représentatifs sur les AI-Agents, J'ai utilisé les perspectives de "pertinence", "position écologique" et "continuité" pour introduire des projets représentatifs, afin que nous puissions vaguement voir le développement futur tendance des agents IA.

Les 10 projets connexes représentatifs suivants apparaissent, y compris certains projets de référence connexes. J'utiliserai le cas comme un puzzle pour reconstituer une carte relativement complète, ce qui est suffisant pour permettre à plus de gens de réaliser clairement comment le potentiel des Agents peut tout changer sur Internet Y compris la refonte du paysage Web3.

Deux grandes orientations futures des AI-Agents

Les agents IA peuvent être grossièrement divisés en deux directions : **Agents autonomes et agents génératifs. **

Les agents autonomes prennent Auto-GPT comme exemple, qui représente la capacité d'effectuer automatiquement diverses tâches pour atteindre les résultats cibles grâce à des descriptions d'exigences en langage naturel. Dans cette relation de collaboration, les agents autonomes servent les gens et disposent d'attributs d'outil clairs ;

Generative Agents prend comme exemple la ville virtuelle de 25 agents intelligents publiée par Stanford Generative Agents, en tant qu'agents IA avec des caractéristiques de personnalité, une capacité de prise de décision autonome et une mémoire à long terme, est plus enclin au concept de Dans ces relations collaboratives, les agents ont des relations sociales natives numériques, pas seulement des outils pour servir les gens ;

GPT automatique

L'un des projets open source les plus connus d'Auto-GPT, son introduction sur GitHub est très simple "Une tentative open source expérimentale pour rendre GPT-4 entièrement autonome.", une tentative open source expérimentale pour rendre GPT-4 entièrement autonome.

Un bref résumé est qu'Auto-GTP peut entièrement automatiser le résultat final de la tâche grâce à une exigence de tâche d'une phrase ; la logique de base de la capacité d'Auto-GPT à effectuer des tâches de manière indépendante réside dans la capacité de planification des tâches du modèle de langage, via la tâche Carry désassemblez et analysez étape par étape et améliorez automatiquement les étapes d'exécution de la tâche. Au cours du processus, les résultats de la recherche sur Internet seront renvoyés au modèle de langage et la tâche sera ensuite désassemblée et exécutée.

Pour utiliser la langue vernaculaire populaire comme métaphore, ** Auto-GPT a accompli la tâche dans le processus "d'auto-questionnement et d'auto-réponse", sans que les humains aient besoin de fournir des mots rapides. **

Bien que de nombreuses personnes critiquent Auto-GPT pour son énorme consommation de jetons et l'absence de résultats stables, Auto-GTP, en tant que cas d'automatisation basé sur LLM, a fortement éveillé la curiosité des développeurs. Auto-GPT similaire est également BabayAGI, MetaGPT, etc., sont à la pointe de l'expérimentation de projets open source pour explorer l'automatisation.

adresse du projet :

**BabyAGI peut créer, trier et exécuter automatiquement de nouvelles tâches en fonction des résultats des tâches précédentes et de nos objectifs prédéfinis. ** Il utilise la technologie de traitement du langage naturel pour créer de nouvelles tâches basées sur des objectifs et stocker les résultats des tâches dans la base de données afin que les informations pertinentes puissent être trouvées en cas de besoin.

BabyAGI est en fait un script Python qui exécute une boucle infinie pour effectuer les étapes suivantes :

  • Obtenez la première tâche de la liste des tâches.
  • Envoyez la tâche à l'agent d'exécution, et l'agent d'exécution utilise l'API d'OpenAI pour terminer la tâche en fonction du contexte.
  • Enrichissez le résultat et stockez-le dans Chroma/Weaviate.
  • Créez de nouvelles tâches et réorganisez les listes de tâches en fonction des objectifs prédéfinis et des résultats des tâches précédentes.

adresse du projet :

Auto-GPT et BabyAGI représentent théoriquement la période initiale de notre épidémie actuelle de LLM. Notre exploration d'AGI basée sur LLM et le processeur de résolution de tâches à usage général piloté par LLM sont, je pense, le Saint Graal dans le domaine de l'IA. Agents à l'avenir.

Agents Génératifs

L'article "Generative Agents : Interactive Simulacra of Human Behavior" publié par des chercheurs de Stanford et Google est déjà un projet d'agent d'IA très connu. Au total, cette recherche a mis 25 agents d'IA dans un petit virtuel de style pixel. , des agents intelligents peuvent réaliser l'interaction simulée du comportement de la vie humaine, et peuvent également interagir avec l'environnement de la ville virtuelle, et peuvent également interagir avec des humains en dehors du monde virtuel. **

Il y a deux solutions clés dans cet article qui méritent le plus notre attention :

1, Architecture de l'agent génératif

Les agents perçoivent leur environnement et conservent toutes les perceptions dans un enregistrement complet appelé flux de mémoire, enregistrant l'expérience de l'agent. Sur la base de leurs perceptions, l'architecture récupère les souvenirs pertinents, puis utilise ces comportements récupérés pour déterminer une action. Ces mémoires récupérées sont également utilisées pour former des plans à plus long terme et créer des réflexions de niveau supérieur, qui sont toutes deux introduites dans le flux de mémoire pour une utilisation future.

2, flux de mémoire

Basé sur l'architecture de l'agent génératif et l'environnement interactif dans lequel se trouve l'expérience, l'agent générera inévitablement une grande quantité de données mémoire.Memory Stream est une base de données qui enregistre de manière exhaustive toutes les mémoires de l'agent génératif. Il s'agit d'une liste contenant plusieurs objets mémoire, chaque objet contient une description en langage naturel, un horodatage de création et un horodatage de dernier accès. L'élément le plus fondamental du flux de mémoire est une observation, qui est un événement directement perçu par un agent. Les observations courantes incluent des actions effectuées par l'agent lui-même ou des actions que l'agent perçoit comme étant effectuées par d'autres agents ou des objets non-agents.

Sur la base des deux composants clés ci-dessus, en fait, le comportement global de l'agent générateur est divisé en trois parties : [mémoire et récupération] [réflexion] [planification et réponse]. Pour plus de détails, veuillez vous référer au contenu de l'article original. .

Cet article et cette expérience ont vérifié que le comportement interactif généré par l'agent formé sur la base de LLM peut être fiable pour simuler le comportement de l'interaction humaine dans un environnement numérique. L'agent génératif peut jouer un rôle dans de nombreux environnements numériques, en particulier le généré Il est une relation d'interaction homme-ordinateur formée entre des agents humains et des êtres humains.

Ce que nous pouvons ressentir le plus intuitivement, c'est que l'agent générateur est créé comme un rôle de résident numérique natif du métaverse, et produit diverses interactions avec l'environnement du métaverse humain. En fait, Nous pouvons simuler un monde virtuel numérique hautement développé d'agents IA, et les humains peuvent extraire les résultats du travail numérique des agents IA de ce monde ;

Comment les agents deviennent des partenaires de travail

Étant donné que les agents sont traduits par "agents" dans de nombreux contextes cette fois-ci, les agents sont facilement associés au concept de rôle d'un intermédiaire, ce qui rend difficile pour de nombreuses personnes d'établir intuitivement l'association de l'application de scène des agents ; dans ces trois cas, respectivement Il montre comment les agents peuvent devenir des "experts humains" qui peuvent être embauchés, une société de marketing automatisée qui ne nécessite aucune participation humaine, et comment les agents forment une équipe pour collaborer les uns avec les autres.

Dans l'exemple suivant, nous pouvons utiliser NexusGPT pour créer plusieurs équipes d'experts et utiliser GPTeam pour former une équipe embauchée par des humains, et cette équipe d'IA travaille dans une entreprise entièrement automatisée telle qu'AutoCorp. Lorsque nous assemblons ces pièces de puzzle, nous pouvons sentir intuitivement que le futur est arrivé ;

NexusGPT

Il s'agit de la soi-disant première plate-forme indépendante d'IA au monde créée par un développeur indépendant Assem. NexusGPT est basé sur le framework LangChainAI, utilisant l'API GPT-3.5 et Chroma (une base de données intégrée open source native de l'IA), sur la plate-forme NexuseGPT Avec plus de huit cents agents IA avec des compétences spécifiques.

Les agents sur NexusGPT peuvent ajuster intelligemment la difficulté des questions :

    • Niveau 1 : Dialogues simples
    • Niveau 2 : ops/plugins pré-entraînés
    • Niveau 3 : mode AutoGPT

Mais tout cela repose sur la prise en charge des appels de fonction d'OpenAI et de LangchainAI ;

Pendant l'exécution de la tâche de l'agent, les auteurs considèrent la vitesse à laquelle le système converge vers des notes élevées grâce à la rétroaction humaine et aux observations de notation en boucle. En fait, il s'agit de fournir aux agents d'IA des compétences spécifiques pour réaliser des stratégies d'amélioration optimisées de manière itérative dans la communication avec la partie humaine A sur les exigences de la tâche.

NexusGPT représente un futur modèle commercial permettant aux humains d'embaucher des agents. Ce projet a en fait beaucoup de place pour l'amélioration, comme la combinaison d'agents et de modules experts (système expert et modèle expert). La méthode de tarification de la partie A pour l'embauche d'agents est basés sur le calcul de jetons de consommation, etc., ceux-ci changeront notre façon traditionnelle d'embaucher le marché du travail, et changeront également le mode de collaboration de DAO ;

AutoCorp

Créé en 5 heures par AutoCorpmina fahmi et leur équipe lors du New York GPT/LLM Hackathon. AutoCorp est une société de marketing de marque entièrement indépendante. AutoCorp créera automatiquement des publicités de marque et des conceptions de produits pour une entreprise qui vend directement des t-shirts. Lorsque les clients soulèvent de nouveaux besoins des consommateurs, AutoCorp mettra à jour son thème et générera de nouveaux éléments de conception. Auto-itération continue vers une meilleure direction commerciale.

Tout d'abord, AutoCorp a développé une idée initiale pour une marque de t-shirts basée sur l'idée originale. Il a ensuite utilisé cette idée initiale pour générer les différents atouts de l'entreprise et un guide de style par défaut. Lorsque les clients font des besoins, AutoCorp mettra à jour son plan en fonction de ces besoins. Si un plan entraîne une baisse des ventes, AutoCorp procède à des ajustements. Le processus ci-dessus a été exécuté du début à la fin et peut en fait être connecté à l'API publicitaire et à l'API de t-shirt personnalisé pour un déploiement dans le monde réel.

Ce paragraphe est cité du twitter de Mina fahmi, et AutoCorp a également été créé par mina fahmi et leur équipe lors du hackathon GPT/LLM à New York en 5 heures, et leur but en créant AutoCorp est aussi de pousser le concept d'"Autonomie" à l'extrême.

En fait, l'objectif d'AutoCorp et de DAO est très cohérent. ** Si l'objectif ultime d'une organisation décentralisée est de supprimer le facteur "humain", alors l'automatisation complète des opérations de production est en fait un attrait raisonnable pour le développement du concept de DAO. ** AutoCorp représente en fait la direction future du développement commercial de DAO.

Équipe GP

GPTeam est un système de simulation multi-agent open source. GPTeam exploite GPT-4 pour créer plusieurs agents qui coopèrent pour atteindre des objectifs prédéfinis. L'objectif principal de ce projet est d'explorer le potentiel des modèles GPT pour améliorer la productivité multi-agents et une communication efficace.

GPTeam emploie des agents indépendants, chacun équipé de mémoire, et interagissent par la communication. Les implémentations de mémoire et de réflexion pour les agents sont inspirées de ce document de recherche. Les agents se déplacent dans le monde entier et exécutent des tâches à différents endroits en fonction de leurs propres tâches et des emplacements des autres agents. Ils peuvent communiquer entre eux et collaborer sur des tâches tout en travaillant en parallèle vers un objectif commun.

adresse du projet :

En fait, il existe encore de nombreux projets open source comme GPTeam, comme Dev-GPT, une équipe de développement automatisée qui crée des microservices personnalisés pour les utilisateurs. L'équipe se compose de trois rôles virtuels : chef de produit, développeur et développement exploitation et maintenance. L'idée technique de Dev-GPT est principalement d'identifier et de tester des stratégies de tâches efficaces. S'il échoue 10 fois de suite, il basculera à la méthode suivante.

Nous verrons de plus en plus de projets, ** concevoir des AI-Agents comme une sorte d'équipe d'IA **, il n'est pas difficile de définir les Agents comme un rôle de production, comme dans le cas de NexusGPT, les développeurs peuvent définir chaque Agent C'est difficile devenir des Agents avec des compétences exclusives, puis comment coopérer avec ces Agents pour exercer leurs compétences respectives et réaliser une automatisation de tâche/projet en combinaison. Cependant, Project Atlas Agents explore l'automatisation basée sur le langage naturel, fournit en fait une bonne application scénario pour l'équipe Agents ;

Tout cela me fait penser à DAO, une organisation automatisée de collaboration de tâches basée sur une logique de gouvernance automatisée ;

Comment les agents remplacent le travail répétitif

Avant que l'IA ne remplace complètement notre travail, les agents remplacent la plupart de notre travail répétitif actuel est la prochaine direction de développement des agents dans le domaine des affaires.Avant l'émergence des agents basés sur LLM, RPA (Robot Process Automation) est la première recherche de solutions de l'industrie, mais la RPA traditionnelle a un seuil élevé et ne peut pas être vulgarisée auprès du public. La RPA est un remède au manque d'automatisation de la logique d'interaction informatique traditionnelle, et les agents actuels peuvent communiquer avec le langage naturel pour réaliser la fonction dont la RPA a besoin.

Les deux projets suivants nous montrent comment les agents basés sur LLM nous aideront à nous libérer du travail répétitif dans notre travail quotidien et nos recherches universitaires. (En fait, le potentiel de ces deux projets est plus que cela)

** Couche de triche **

"Automatisez votre entreprise en utilisant le langage naturel", utiliser le langage naturel pour automatiser votre entreprise, tel est le slogan de la marque de Cheat Layere. La couche de triche résout des problèmes d'automatisation commerciale impossibles grâce à des modèles d'apprentissage automatique GPT-4 formés sur mesure, servant d'ingénieurs logiciels d'IA pour chaque utilisateur.

Cheat Layer a publié deux produits sur Producthunt, l'un est Cheat Layer et l'autre est Project Atlas Agents.Project Atlas Agents est une interface de gestion pour les projets sans code qui peut être utilisée pour créer et itérer des agents AI.

Cheat Layer automatise le fonctionnement de l'ensemble de la page Web via le mode plug-in de Google Chrome et utilise un langage naturel. Par exemple, la plupart de nos opérations de routine sur la page Web peuvent en fait être exécutées automatiquement. Cheat Layer rappelle facilement le RPA, c'est-à-dire l'automatisation des processus robotiques. Il y a eu de nombreuses discussions sur la relation entre les Agents et la RPA. Il est indéniable que la RPA traditionnelle a été éliminée par les Agents.

Utilisez le langage naturel via Cheat Layer pour configurer l'automatisation des processus métier et utilisez les agents Project Atlas pour gérer différents processus d'automatisation. De manière générale, nous pouvons utiliser le mode langage naturel pour créer un agent afin de gérer l'exécution automatisée d'une certaine entreprise, comme la complexité de l'entreprise augmente, nous pouvons améliorer itérativement les Agents.

Je ne connais pas pour l'instant le marketing et la promotion de Cheat Layer, mais selon les statistiques de similarweb, les principaux utilisateurs se trouvent principalement en Amérique du Nord, et le nombre de visites a augmenté de 37,8% par rapport au mois précédent. En créant un agent pour automatiser la gestion d'entreprise, il est relativement Comparé à divers chatbots, cette demande peut être en mesure de répondre grandement aux besoins des propriétaires de commerce électronique de petite et moyenne taille, et c'est peut-être une direction à explorer et à creuser ;

Chercheur GPT

GPT Researcher est un agent autonome basé sur GPT capable de mener des recherches complètes en ligne sur n'importe quel sujet donné. L'introduction du projet sur Github est :

"L'agent est capable de générer des rapports de recherche détaillés, objectifs et impartiaux avec des options de personnalisation pour se concentrer sur les ressources, les plans et les leçons pertinents. Inspiré par AutoGPT et un récent article Plan-and-Solve, GPT Researcher résout les problèmes de vitesse et de déterminisme , en parallélisant le travail des agents plutôt que les opérations synchrones, offrant des performances plus stables et une vitesse plus rapide."

L'architecture de GPT Researcher est principalement réalisée en exécutant deux agents, **l'un est un "planificateur" et l'autre est un "exécuteur" ; **Le planificateur est responsable de la génération des questions de recherche, tandis que l'exécuteur est basé sur la recherche questions générées par le planificateur Trouver les informations pertinentes, et enfin filtrer et résumer toutes les informations pertinentes via le planificateur, puis générer un rapport de recherche ;

plus précisement:

  1. Générer un ensemble de questions de recherche qui, ensemble, forment une opinion objective sur une tâche donnée.

  2. Pour chaque question de recherche, déclenchez un agent d'exploration pour récupérer les informations pertinentes pour la tâche donnée à partir des ressources en ligne.

  3. Pour chaque ressource analysée, récapitulez en fonction des informations pertinentes et tracez sa source.

  4. Enfin, toutes les ressources résumées sont examinées et agrégées, et le rapport de recherche final est généré.

Caractéristiques de ce projet

Générer des recherches, des aperçus, des ressources et des rapports sur les leçons apprises

Chaque étude regroupe plus de 20 sources Internet pour former des conclusions objectives et factuelles

Comprend une interface Web facile à utiliser (HTML/CSS/JS)

Récupération Web compatible Java

Enregistrer et suivre les informations contextuelles sur les sources Web visitées et utilisées

Exporter des rapports de recherche vers des formats tels que PDF...

Bien que GPT Researcher soit un outil de recherche académique basé sur GPT, il s'agit d'un projet open source à des fins académiques sous licence MIT. Du point de vue de la création de contenu, cet open source a une forte valeur commerciale. Par exemple, lorsque ce projet open source est appliqué à des rapports d'analyse d'entreprise, il peut encore gagner beaucoup de temps. Deuxièmement, transformer ce projet open source en une IA pour les agents de rédaction de contenu en profondeur modifieront également complètement le modèle de l'industrie des médias de contenu ;

adresse du projet :

Écologie de l'infrastructure des agents IA

L'avenir évident est que la relation de collaboration entre les humains à l'avenir n'est plus une relation de collaboration entre les humains, mais une relation de collaboration entre les humains et les agents IA, et tout le monde aura autant d'agents IA que possible. pour gérer autant de tâches que possible, formant ainsi une structure de collaboration sociale intelligente vaste et complexe ;**

La relation de collaboration entre les humains et les agents est différente de la théorie collaborative des humains et des outils dans les théories précédentes des sciences sociales. La clé est que les agents, en tant que sorte d'intelligence de type humain, ont certaines capacités de prise de décision indépendantes et la confiance humaine dans Les agents sont également devenus une question clé, sans parler de la conscience de soi des agents, mais de l'influence des agents sur le comportement d'interaction sociale dans la prise de décisions à la place des humains.

Sur la base de l'examen des deux propositions ci-dessus, nous devons réaliser qu'il est possible pour les êtres humains de créer leurs propres agents IA de manière efficace et pratique, tout en permettant à leurs propres agents d'avoir des capacités plus puissantes, et en même temps, des agents sont fiables et dignes de confiance, ce qui est indissociable d'une bonne infrastructure d'assistance. L'introduction des trois projets suivants, je pense, représente l'orientation de la construction de la future infrastructure AI-Agents ;

chaîne de langue

LangChain est un cadre de développement d'applications basé sur un modèle de langage. Il peut réaliser les fonctions suivantes

Conscient des données : connecte les modèles de langage à d'autres sources de données

Agent : permet à un modèle de langage d'interagir avec son environnement.

La principale valeur de LangChain réside dans :

Composant : Fournit des abstractions pour travailler avec des modèles de langage et fournit une série d'implémentations pour chaque abstraction. Ces composants sont modulaires et faciles à utiliser, que vous utilisiez ou non le reste du framework LangChain.

Chaînes prêtes à l'emploi : un ensemble structuré de composants pour la mise en œuvre de tâches spécifiques de haut niveau.

Les chaînes prêtes à l'emploi facilitent la mise en route rapide. Pour les applications plus complexes et les cas d'utilisation granulaires, les composants permettent de personnaliser facilement les chaînes existantes ou d'en créer de nouvelles.

langchain fournit des interfaces standard extensibles et une intégration externe en fournissant les modules suivants

Entrée et sortie du modèle d'E/S du modèle : interaction de l'interface avec le modèle de langage

Connexion de données connexion de données : interaction de l'interface avec les données d'une application spécifique

Chaîne de chaînes : construire la séquence d'appels

*Agents : laissez la chaîne choisir les outils à utiliser en fonction d'instructions de haut niveau. *

*Mémoire : enregistre l'état de l'application entre les exécutions de la chaîne. *

  • Rappels Rappels : Enregistrez et diffusez les étapes intermédiaires de n'importe quelle chaîne. *

Grâce à l'écologie de développement relativement active de Langchain dans la communauté anglophone, il existe relativement de nombreux cas de développement d'applications Agents utilisant Langchain.Définir le framework des Agents et fournir un framework de développement sans code est une tendance future.

Basé sur un système de cadre spécifique, la fabrication d'agents s'apparente à la construction de blocs Lego. Contrairement à la modularisation de Web3, les modules d'agents n'ont pas besoin d'être prêts à l'emploi, mais les gens ordinaires peuvent également développer des composants spécifiques grâce à la programmation en langage naturel. Ajouté au framework des Agents.

Par exemple, de nombreuses personnes utilisent le framework langchain pour développer des chatbots, développer un composant de conversion de tonalité via la programmation en langage naturel et l'ajouter au chatbot, puis la tonalité de dialogue par défaut d'origine peut être changée en une tonalité de dialogue qui répond aux propres préférences de l'utilisateur.

L'éclairage que nous a donné langchain est que le cadre de développement d'agents pour la programmation sans code + modules de composants pour la programmation en langage naturel peut être un outil de développement nécessaire pour la vulgarisation des agents.

Agents transformateurs

Transformer Agents est un système AI-Agents lancé par hungging Face Bien que la fonction actuelle ne soit pas très bonne, la principale raison pour laquelle nous devons garder un œil dessus est que huggingFace est une énorme communauté open source de bibliothèque de modèles.

Transformer Agents est en fait basé sur le framework Transformer, ajoutant une API basée sur le langage naturel : huggingface définit un ensemble d'outils et conçoit un agent pour interpréter le langage naturel et utiliser ces outils. Plus important encore, ce système a une conception extensible.

C'est-à-dire que les agents transformateurs ont utilisé un petit nombre d'outils proxy bien préparés au début pour vérifier la faisabilité de ce système, puis l'évolutivité signifie que les agents transformateurs peuvent utiliser librement l'énorme bibliothèque d'outils modèles de huggingface.

Je pense que c'est la solution construite dans l'article "HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face", qui consiste à connecter une énorme bibliothèque de modèles via LLM pour résoudre des tâches complexes dans plusieurs domaines et plusieurs modalités. Cette imagination est en fait très énorme. La première bibliothèque de modèles d'IA qui rassemble une intelligence humaine de premier ordre est utilisée sous la forme d'agents pour résoudre des problèmes complexes dans diverses industries. Il est difficile de ne pas envisager un tel avenir. **

Bien sûr, c'est excitant de concrétiser cette vision, mais au stade actuel, j'attends toujours avec impatience que Transformer Agents puisse proposer un cadre d'agents impressionnant pour accueillir l'afflux de développeurs dans cette écologie qui contient d'énormes mines d'or au milieu. HuggingFace a peut-être ajusté sa propre stratégie de développement.

WebArena

**WebArena est un environnement Web autonome et auto-hébergé pour la création d'agents autonomes. **WebArena crée quatre catégories populaires de sites Web avec des fonctionnalités et des données qui imitent leurs homologues du monde réel.

Pour simuler la résolution de problèmes humains, WebArena intègre également des outils et des ressources de connaissances en tant que sites Web autonomes. WebArena introduit une référence pour l'interprétation de commandes en langage naturel de haut niveau dans le monde réel en interactions concrètes basées sur le Web. Les chercheurs ont fourni des programmes annotés pour vérifier par programmation l'exactitude fonctionnelle de chaque tâche.

Aperçu des articles cités :

"Les agents actuels sont principalement créés et testés dans des environnements synthétiques simplifiés, ce qui limite largement la représentation des scénarios du monde réel. Dans cet article, nous construisons un environnement de commande et de contrôle d'agent hautement réaliste et reproductible. Plus précisément, nous nous sommes concentrés sur agents effectuant des tâches sur le Web et ont créé un environnement qui comprend des sites Web entièrement fonctionnels dans quatre domaines communs : le commerce électronique, les discussions sur les forums sociaux, le développement de logiciels collaboratifs et la gestion de contenu. Notre environnement est riche et diversifié, y compris certains outils (tels que des cartes ) et des bases de connaissances externes (telles que des manuels d'utilisation) pour encourager la résolution de tâches de type humain.

Sur la base de notre environnement, nous publions un ensemble de tâches de référence qui se concentrent sur l'évaluation de l'exactitude fonctionnelle de l'exécution des tâches. Les tâches de notre benchmark sont diverses et s'étendent sur une longue période, et sont conçues pour simuler des tâches fréquemment effectuées par des humains sur Internet. Nous concevons et mettons en œuvre plusieurs agents autonomes, intégrant des techniques de pointe telles que réfléchir avant d'agir.

Les résultats montrent que la résolution de tâches complexes est un défi : notre meilleur agent basé sur GPT-4 n'atteint qu'un taux de réussite des tâches de bout en bout de 10,59 %. Ces résultats mettent en évidence la nécessité de développer davantage d'agents puissants, les modèles de langage de pointe actuels sont loin d'être parfaits pour ces tâches du monde réel, et WebArena peut être utilisé pour mesurer ces progrès. "

Titre de la thèse : WebArena : un environnement Web réaliste pour la construction d'agents autonomes

Adresse de la thèse :

Il s'agit d'un résultat de recherche académique d'un chercheur en IA de Carnegie Mellon. En fait, WebArena complète l'architecture de développement langchain actuellement bien connue, ou divers projets liés à Agents-Team. Nous avons besoin d'une plate-forme de test de simulation d'agents , utilisée pour assurer la robustesse et l'efficacité des Agents.

La fonction principale de cette plate-forme est de tester la faisabilité de divers projets d'agents. Un scénario que je peux même imaginer est que lorsque j'embaucherai un agent sur une certaine plate-forme à l'avenir, nous utiliserons les agents via une plate-forme comme WebArena pour tester le la capacité de travail réelle des agents signifie également que les humains ont le droit de s'exprimer sur les décisions de tarification des agents IA.

** Comment les agents IA affecteront-ils tout ? **

Réseau de collaboration automatisé basé sur des agents

Grâce à notre introduction et à notre analyse de plus d'une douzaine de projets ci-dessus, ces différents projets sont comme les pièces d'un puzzle, constituant notre compréhension globale relative des agents. Les agents sont en fait la direction pour vraiment faire ressortir le potentiel de LLM, et LLM est Au centre, les agents dotent le LLM de mains et de pieds. Basés sur la diversité fonctionnelle des agents pilotés par le LLM, les agents seront comme une explosion biologique, et les humains et les agents deviendront un compagnon numérique/une relation de développement symbiotique.

Le réseau collaboratif de la société humaine formera également un réseau collaboratif automatisé entre les humains et les agents en raison de l'application à grande échelle des agents.La structure de production de la société humaine sera améliorée et tous les aspects de la société seront affectés et modifiés ;

Tout changer sur Internet

Les agents IA ont complètement changé la façon dont nous obtenons des informations, traitons des informations, produisons des informations et utilisons des informations sur Internet, et ont changé notre modèle commercial actuel qui repose sur Internet. Un réseau intelligent avec des capacités de communication et une exécution autonome/automatique de tâches est l'Internet Les agents sont le moyen intelligent avec lequel nous parlons et exécutons.

Remodeler le récit pour le Web3

Le réseau monétaire crypté deviendra le réseau monétaire naturel des Agents, et les ressources informatiques consommées par l'ensemble du réseau de collaboration IA-Agents feront de Token une importante ressource économique de l'IA ; la propriété des données personnelles représentée par Web3 sera également confrontée à un nouvel homme-ordinateur relation d'interaction Parmi eux, une toute nouvelle proposition selon laquelle les humains et les agents IA partagent les droits de propriété des données. L'émergence d'agents avec des droits de propriété indépendants (un mouvement radical pour libérer l'IA), des DAO entièrement automatisés par des agents d'IA et des super-individus monopolisent la plupart des droits de propriété des données du réseau et des ressources informatiques efficaces.

Le mouvement affirmatif de données sous la vague du Web3 a ramené la propriété des données de chacun. En fait, la plupart des gens ne disposent pas nécessairement de ressources de données de grande valeur. Le retour de la propriété des données est devenu un attrait politique du narratisme Web3, mais il ignore l'AGI La structure de production est inégale ; ce que AI-Agents représente, c'est que si l'IA est une super-productivité, elle construit également une nouvelle relation de production d'interaction homme-machine et de collaboration automatique, ce qui nous oblige à remodeler la logique narrative du Web3 ;

Accélérer la construction du métaverse

Depuis le développement et l'évolution des agents génératifs, l'exploration des résidents numériques natifs numériques et la construction d'une série d'activités sociales dans l'environnement métavers des humains numériques natifs (agents IA avec des caractéristiques de personnalité et une conscience autonome), accélère en fait le métavers. L'univers a évolué d'un espace numérique à un territoire numérique avec des fonctions et des formes sociales. Le concept d'espace informatique permettra également aux Agents de disposer d'un espace numérique de développement multimodal, accélérant ainsi l'émergence de l'intelligence incarnée des Agents dans l'environnement numérique.

La construction du métaverse n'est plus la tâche des êtres humains, mais la tâche de l'auto-expansion continue en tant qu'espace de vie de l'AI-Agent ;

Méfiez-vous de l'enlèvement d'un seul récit technologique

En fait, ces dernières années, divers points chauds technologiques ont émergé les uns après les autres, et l'humanité semble être entrée dans une période de fréquentes révolutions technologiques. En fait, les trois récits de Metaverse, Web3 et AGI ont émergé l'un après l'autre, ce qui a en effet créé beaucoup pour les gens dans le choix des orientations de carrière. En raison du fait que la plupart des gens sur le marché sont orientés vers la réflexion par projet, le positionnement du projet lui-même peut facilement être attribué à une catégorie spécifique, comme Web3 ou AI C'est là que l'âne décide de la tête, ignorant la technologie La loi objective du développement de l'histoire.

**Le développement de la science et de la technologie n'a jamais été fragmenté, mais s'est déplacé vers une intégration interdisciplinaire dans une unité dialectique. ** Par exemple, l'attribut narratif NFT du Web3 s'inscrit naturellement dans la lignée du narratif du Métavers. Aux débuts du Web3, les deux étaient délibérément opposés par certains. Ce sont des perspectives très étroites. Il en va de même pour le récit AGI d'aujourd'hui. Les praticiens du Web3 ne connaissent que les outils d'IA, mais ne réfléchissent pas profondément à la logique narrative de l'AGI. Ils créeront délibérément une résistance cognitive entre l'IA et le Web3. Par exemple, la compréhension de la DAO par de nombreuses personnes du Web3 est dans le original Peu de gens ont le courage de s'arrêter et de repenser l'influence d'AGI sur DAO.

Web3, Metaverse et AGI sont trois directions étroitement liées. Les organisations médiatiques technologiques grand public traditionnelles ou les institutions d'investissement n'ont pas encore établi de nouveau concept de paradigme pour les récits technologiques futurs et ont utilisé d'anciens paradigmes narratifs pour influencer le marché. Les ressources de la science et les praticiens de la technologie dans ce sens sont dispersés et leurs idées ne sont pas assez ouvertes. Nous n'excluons pas que de nouveaux récits technologiques continuent d'émerger à l'avenir, mais si l'ancien paradigme des récits technologiques continue d'être adopté, les ressources des talents scientifiques et technologiques ne feront que se diviser et se disperser encore et encore. de la cognition technologique est une ressource de déchets de choses invisibles.

Une question clé à laquelle est actuellement confrontée l'ensemble de l'industrie technologique chinoise est qu'est-ce que la technologie ? Il y a un manque de nouveaux paradigmes narratifs, et aucun nouveau concept narratif pour nous guider pour mieux faire face à la prochaine vague de technologie. Nous sommes toujours plongés dans des projets, mais nous manquons de récits capables de condenser le pouvoir de la science et de la technologie.Aucun des trois principaux récits de Web3, Metaverse et AGI n'est originaire de Chine.

J'ai vraiment hâte d'inaugurer une ère où cent fleurs s'épanouiront et cent écoles de pensée s'affronteront dans les récits scientifiques et technologiques. Nous avons un besoin urgent de former une nouvelle compréhension des récits technologiques, afin que nous puissions trouver la bonne voie pour le développement et déterminer notre position en matière de développement durable dans l'ensemble de l'écosystème technologique.

Bien sûr, faire appel seul est inutile, et quelqu'un doit encore le faire, donc je vais le faire en premier, et j'ai enduré ces pensées narratives à une seule technologie pendant longtemps !

Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)