Source de l'image : générée par l'outil d'IA illimitée
Après le grand succès de ChatGPT, OpenAI est déjà passé au prochain objectif - AI Agents (corps intelligent).
"Si un article propose une méthode de formation différente, OpenAI se moquera en interne, pensant que tout est laissé de côté par nous. Mais lorsque le nouvel article AI Agents sortira, nous en discuterons très sérieusement et avec enthousiasme. ** Gens ordinaires, entrepreneurs et les geeks ont un avantage sur les entreprises comme OpenAI en termes de création d'agents d'IA. ** », a déclaré Andrej Karpathy, co-fondateur d'OpenAI et ancien directeur de TeslaAI.
Le discours public de Karpathy a ajouté beaucoup de chaleur aux agents de l'IA. Mais son jugement n'est pas exclusif.
Dès le mois de mars, AutoGPT a remporté 74 000 étoiles sur GitHub et est rapidement devenu le projet open source avec le nombre d'étoiles qui a le plus augmenté de l'histoire ; BabyAGI et AgentGPT, qui sont sortis plus tard, ont poussé comme des champignons : commander des pizzas, organiser des boîtes aux lettres, créer blogs, et même organiser une fête de la Saint-Valentin...
De plus en plus d'agents IA apparaissent dans diverses scènes de la vie des gens, et l'engouement se propage rapidement depuis la Silicon Valley.
Auto-exécutables et fonctionnant de manière indépendante, les agents d'IA suscitent des attentes élevées de la part des technologues, qui les considèrent comme un "outil de productivité qui change la société". Certains y voient même "le début de l'ère de l'intelligence artificielle générale (IAG)".
Mais les voix ne peuvent cacher les problèmes existants.
"Un grand modèle est la condition préalable pour les agents IA. Ce n'est qu'avec une base matérielle suffisante que nous pouvons développer des agents IA", a déclaré Dai Yusen, associé directeur de ZhenFund, à "Jiazi Guangnian".
A proprement parler, seul ChatGPT dispose d'une large base de modèles "qualifiés" sur le marché. Limité par la puissance de calcul du modèle, il manque encore un terreau pour le développement des Agents IA en Chine.
L'avenir est radieux, mais la réalité est cruelle. La recherche et le développement technologiques et le capital-risque sont tous en plein essor. Personne ne sait quand la période de dividende des agents IA viendra vraiment avec la vague de grands modèles. Mais ce qui est certain, c'est que le changement s'est tranquillement amorcé.
1.Agents IA : des "assistants numériques" qui vous aident à faire les choses
Plutôt que de traiter AI Agents comme une version améliorée de ChatGPT, il est plus approprié de le considérer comme un "assistant numérique" pour les humains.
Il vous dit non seulement "comment le faire", mais aussi "vous aide à le faire". En tant que médium, les agents IA remplacent les humains et interagissent de manière répétée avec des modèles de langage large (LLM) tels que GPT. Tant qu'un objectif est donné, il peut simuler un comportement intelligent, créer des tâches de manière autonome, redéterminer la priorité de la liste des tâches, et terminer les tâches. La première tâche, et boucle jusqu'à ce que l'objectif soit atteint.
Contrairement à l'intelligence artificielle traditionnelle, les agents IA peuvent fonctionner indépendamment sans contrôle humain. **En accédant à l'API, les agents IA peuvent même naviguer sur le Web, utiliser des applications, lire et écrire des fichiers, payer avec des cartes de crédit, etc.
En termes simples, il vous suffit de lui donner un objectif, et l'IA **Les agents peuvent faire tout le reste. Par exemple, l'agent AI développé par HyperWrite peut commander automatiquement une pizza pour vous via le programme de contrôle du navigateur Chrome. **
Source: Compte Twitter du PDG d'HyperWrite, Matt Shumer
Ce type d'imagination n'est pas difficile à mettre dans les films de science-fiction, mais dans le processus d'exploration de l'intelligence artificielle, il a duré près d'un demi-siècle.
Dès les années 1980, les informaticiens ont commencé à explorer comment développer un logiciel intelligent qui pourrait interagir comme un humain. Cependant, en raison des limites des données et de la puissance de calcul, les agents IA ne disposent pas des conditions réalistes nécessaires.
Joon Park, titulaire d'un doctorat en informatique à l'Université de Stanford, a déclaré un jour dans une interview : "Nous avons travaillé dans cette direction, mais toutes les méthodes des dernières décennies ne se sont même pas approchées de ce que nous réalisons actuellement. avec LLM... C'est pourquoi nous avons oublié cette vision. Mais quand LLM est arrivé, nous avons réalisé qu'il y avait une opportunité.
Le grand modèle de langage est le cerveau central des agents IA. En démantelant des tâches complexes, les exigences complexes des utilisateurs peuvent être désassemblées en méthodes de tâches réalisables.
D'une part, la formation de grands modèles est construite sur la base d'Internet et contient une grande quantité de données sur le comportement humain, qui constituent les éléments clés pour construire des agents IA crédibles.
D'autre part, avec une capacité de connaissance considérable, le grand modèle émerge avec une excellente capacité d'apprentissage du contexte et une capacité de raisonnement. En établissant une chaîne de réflexion pour réaliser la réflexion et la prise de décision continues du modèle, les agents IA peuvent analyser des problèmes complexes et les décomposer en sous-tâches simples et détaillées.
Dans le même temps, l'utilisation de la langue par LLM en tant que médium a également modifié la forme d'interaction frontale. Wen Yongteng, responsable de la piste d'application de l'IA de BV Baidu Ventures et vice-président de l'investissement, a déclaré à "Jiazi Guangnian": "BV Baidu Ventures a commencé très tôt à prêter attention au développement des agents d'IA. Grâce à la recherche et au jugement, nous Je pense que l'interface utilisateur graphique originale (GUI) Il est possible de se transformer en une interface utilisateur de langage (LanguageUI), et l'application frontale des agents AI existera sous toutes les formes frontales susceptibles d'interagir avec les humains.
C'est juste une tâche de démantèlement, et c'est loin d'être intelligent. IA pilotée par LLMLes agents ne peuvent pas se passer de trois composants clés :
**Planification : **Décomposer les tâches à grande échelle en sous-objectifs plus petits et gérables ; conduire la réflexion et l'affinement, analyser, résumer et affiner les comportements passés pour améliorer leur intelligence et leur adaptabilité, Améliorer la qualité du résultat final.
**Mémoire (Mémoire) : **Mémoire à court terme, apprentissage contextuel ; mémoire à long terme, la capacité de stocker et de rappeler des informations illimitées pendant une longue période, généralement obtenue grâce au stockage sur support externe et à la récupération rapide.
Utilisation de l'outil : peut apprendre à appeler des API externes pour obtenir des informations supplémentaires manquantes dans les pondérations du modèle.
Vue d'ensemble de l'agent AI piloté par LLM, source de l'image : blog personnel de Lilian Weng
Avec la coopération des trois composants, les agents IA peuvent non seulement penser comme un humain, mais aussi agir comme un humain.
Tout comme les humains, lorsqu'ils s'engagent dans des tâches complexes, il y a souvent un processus de raisonnement entre chaque étape. Les agents IA utiliseront également des composants ReAct (une bibliothèque Java pour la création d'interfaces utilisateur) pour combiner étroitement les capacités de raisonnement de grands modèles avec des décisions comportementales, afin que les modèles de langage puissent être planifiés et organisés de manière logique en fonction des connaissances.
Le framework Reflexition fournit aux agents IA des capacités de mémoire dynamique et d'auto-réflexion. Renforcer les agents linguistiques grâce à la rétroaction linguistique plutôt qu'à la mise à jour des pondérations lui permet d'améliorer les décisions d'action passées et de corriger les erreurs passées pour améliorer continuellement ses performances.
Dans le processus d'acquisition, de stockage, de rétention et de récupération des informations, les agents IA tentent également d'imiter la composition de la mémoire humaine et de construire un système de mémoire efficace.
Simulant le chemin de la mémoire humaine, les agents d'IA exprimeront la mémoire sensorielle, la mémoire à court terme et la mémoire à long terme en tant qu'intégration d'apprentissage de l'entrée d'origine (telle que texte, image, etc.), apprentissage du contexte et stockage vectoriel externe. . Les tâches et les résultats sont stockés dans le module de mémoire, et lorsque les informations sont rappelées, les informations stockées dans la mémoire sont renvoyées au dialogue avec l'utilisateur, créant ainsi un contexte plus serré.
L'utilisation et la création d'outils sont l'un des traits humains les plus distinctifs. En étant équipés d'outils externes et en utilisant des API pour appeler diverses interfaces, les agents IA peuvent simuler l'utilisation humaine d'outils pour effectuer des tâches plus complexes.
Bien que le niveau technique ne soit pas totalement mature, des problèmes tels que la gestion des données et la mémoire à long terme sont toujours en cours de résolution. Cependant, la capacité des agents d'intelligence artificielle à s'exécuter de manière autonome, à optimiser de manière itérative et à "mains libres" rend également inévitable leur popularité.
2. Remplaçant LLM, les agents IA deviennent le prochain hotspot IA
La naissance de ChatGPT a réalisé la fonction de l'IA ayant plusieurs séries de conversations avec les humains et fournissant des informations et des suggestions. L'introduction de Copilot a permis à l'IA d'entreprendre la capacité de terminer la première ébauche de travail pour les humains, tels que Github Copilot, Microsoft 365 Copilot et Midjourney, qui sont devenus le "copilote intelligent" des gens dans les domaines de la programmation, du travail de bureau, et la génération d'images.
Dites à une IA d'effectuer une tâche, et elle accomplira une tâche : écrivez une copie, répondez à une question ou générez une photo dont l'œil humain a du mal à dire qu'elle est réelle ou fausse. Dans le même temps, les utilisateurs doivent souvent fournir des invites spécifiques et claires pour chaque étape de l'IA.
À l'heure actuelle, l'IA est comme un stagiaire qui vient d'arriver, n'a aucune expérience et doit être enseigné à la main. Cependant, que se passe-t-il si vous voulez un bon employé qui obéit aux ordres, résout les difficultés d'exécution par lui-même et essaie de ne pas causer de problèmes aux autres ?
En mars et avril, Camel, AutoGPT, BabyAGI, Westworld Township et d'autres agents IA ont explosé ensemble, ce qui a semblé faire voir aux gens une telle possibilité.
Depuis l'AutoGPT open source de Important Gravitas en mars, dans les deux mois suivant sa sortie, AutoGPT a reçu 130 000 étoiles sur GitHub, ce qui en fait le projet open source à la croissance la plus rapide de l'histoire.
Ville de Westworld créée par l'université de Stanford
Source de l'image : Article "Agents génératifs : simulacres interactifs du comportement humain"
Andrej Karpathy a dit un jour sur Twitter : "La prochaine frontière de l'ingénierie rapide (ingénierie) est AutoGPT". Jusqu'à présent, AutoGPT a obtenu plus de 140 000 étoiles sur la plate-forme d'hébergement de code Github, se classant au 25e rang de l'histoire.
Le co-fondateur et PDG d'OpenAI, Sam Altman, a déclaré à plusieurs reprises que l'ère de la construction d'énormes modèles d'IA était révolue et que les corps intelligents étaient le défi.
Dans un article présentant les agents autonomes, l'auteur, Matt Schlicht, co-fondateur et PDG d'Octane AI (un fournisseur de plateforme de marketing de données), a recueilli les points de vue et opinions de plus d'une centaine de personnes de l'industrie, du milieu universitaire et des cercles d'investissement. Des experts de grandes entreprises telles que Meta, Nvidia, Stability AI ou des start-ups d'IA, ainsi que des membres du corps professoral de Stanford CS et des investisseurs en IA, dont Hugging Face, ont pour la plupart exprimé leurs attentes et leurs perspectives quant au potentiel des agents d'IA, c'est même appelé "AGI brut".
Prenant le relais des grands modèles, les agents IA semblent devenir la prochaine grande nouveauté de l'IA.
Mais en même temps, les voix de l'opposition sont sans fin.
Yoshua Bengio, lauréat du prix Turing, a mentionné dans son article de blog "Comment l'IA qui nuit aux humains apparaît" publié en mai de cette année que les humains peuvent contrôler les tâches et les objectifs généraux des agents d'IA, mais cela ne signifie pas que les humains peuvent contrôler les agents d'IA en vertu de Pour les sous-tâches et les sous-objectifs décomposés par sa propre intelligence, à moins que la recherche sur l'alignement de l'IA ne fasse une percée, les êtres humains n'auront pas de garantie de sécurité solide.
L'émergence collective d'agents intelligents, la poursuite et les doutes des grands patrons, la vague d'agents IA est rapide et chaude.
Cependant, AI Agents n'est pas un terme nouveau dans le cercle de l'intelligence artificielle.
En 2014, le Go AI AlphaGo lancé par DeepMind est en fait une sorte d'agents IA. Semblable à cela est l'OpenAI Five lancé par OpenAI en 2017 pour jouer à "Dota2", et en 2019, DeepMind a annoncé AlphaStar pour jouer à "StarCraft 2".
La tendance de l'industrie à cette époque était de former et d'améliorer les agents IA grâce à l'apprentissage par renforcement, qui était principalement utilisé dans les scénarios de jeu, en particulier dans certains jeux de confrontation avec des gagnants et des perdants évidents. Mais c'est une question ouverte si l'on veut atteindre la généralité dans le monde réel.
Au cours des années suivantes, OpenAI s'est tourné vers les modèles de langage à grande échelle et les séries GPT ont été lancées les unes après les autres. Les modèles à grande échelle sont devenus la voie dans laquelle divers fabricants de technologies se sont précipités. C'est aussi le développement de modèles à grande échelle. qui permettent aux agents IA de briser le goulot d'étranglement et de redévelopper l'opportunité.
Par rapport à la limitation aux scénarios de jeu il y a quelques années, que peuvent réaliser les agents IA sur la base de grands modèles ? Wen Yongteng, responsable de la piste d'application AI de BV Baidu Ventures et vice-président des investissements, a déclaré à « Jiazi Guangnian » : « Ce que nous avons vu, ce n'est pas seulement que le progrès technologique a considérablement amélioré la capacité de l'IA à comprendre les intentions des utilisateurs, à collecter des informations et à effectuer des tâches. Plus important encore, les agents IA sont parfaitement capables de reconstruire le futur écosystème d'applications. »
Peu de temps après le lancement d'AutoGPT, de nombreux internautes ont utilisé AutoGPT pour créer des assistants personnels automatisés. Par exemple, Udit Goenka, fondateur et PDG de FirstSales.io, a déclaré qu'il avait utilisé AutoGPT pour créer un moteur de prospection capable de rechercher des entreprises ayant reçu un investissement de démarrage l'année dernière et de décrire les détails de la création d'une liste.
Yew Jin Lim, ingénieur logiciel chez Google, a déclaré avoir utilisé AutoGPT pour créer un assistant de messagerie qui envoie les détails des tâches aux agents IA par e-mail.
Dai Yusen, associé directeur de ZhenFund, a déclaré à "Jiazi Guangnian": "Agent est une direction qui peut vraiment améliorer considérablement la productivité, car si les gens font encore des choses, les gens sont toujours limités."
"Les agents IA deviendront un outil de productivité dans la vie quotidienne et au travail." Matt Schlicht a écrit : "De la gestion des comptes de médias sociaux à l'investissement sur le marché, en passant par la publication des meilleurs livres pour enfants, les agents IA existeront dans tous les secteurs et toutes les tâches. qui peut être imaginé." Par exemple, aomni est un agent d'IA qui peut rechercher des informations sur n'importe quel sujet sur Internet, et complétera les objectifs de l'utilisateur un par un en créant une liste.
En plus des besoins de productivité, l'agent AI personnel Pi d'Inflection AI fournit une autre direction d'application possible.
Différent du positionnement de ChatGPT et de l'intelligence artificielle générale de Claude, Pi se concentre sur un QE élevé, la compagnie émotionnelle et la valeur émotionnelle. Pi se souviendra également des conversations historiques avec les utilisateurs. En plus de participer et d'aider le travail et la vie des gens, il apprendra également à contacter les amis et la famille pour établir des liens avec les utilisateurs. À l'heure actuelle, Inflection AI a reçu plus de 1,5 milliard de dollars d'investissements, dépassant Anthropic et juste derrière OpenAI.
**3. Les agents IA seront-ils la prochaine tendance ? **
"Construire une sorte de JARVIS (bâtiment similaire à JARVIS)", c'est le dernier profil mis à jour d'Andrej Karpathy sur Twitter, JARVIS est un assistant d'intelligence artificielle du super-héros Marvel Iron Man, qui a la capacité de penser de manière indépendante et peut aider le propriétaire à gérer diverses affaires et calculer diverses informations.
L'introduction de Karpathy signifie également que le pistolet de départ de la piste AI Agents a été tiré.
Le média étranger "The Information" a souligné que Sam Altman avait dit en privé à certains développeurs en mai qu'OpenAI espère faire de ChatGPT un assistant de travail personnel, et une personne familière avec le sujet a souligné que OpenAI a prêté attention à la façon d'utiliser des chatbots pour créer une IA autonome **Agents, les fonctions associées sont susceptibles d'être déployées dans l'assistant ChatGPT. **
Par coïncidence, Meta voit également une opportunité pour les agents IA.
En avril, Zuckerberg a déclaré aux investisseurs que Meta voyait une "opportunité de présenter des agents d'IA à des milliards de personnes de manière utile et significative", mais il n'a pas spécifié d'applications spécifiques pour le moment.
Et lors d'une réunion générale avec les employés en juin, Zuckerberg a annoncé une série de technologies à divers stades de développement, dont l'une apporterait des agents IA avec différentes personnalités et capacités pour aider ou divertir, initialement principalement pour Messenger et WhatsApp.
En Chine, AI **Les produits liés aux agents sont également nés les uns après les autres. **
Début juillet, sur le site WAIC, Alibaba Cloud a publié son premier corps intelligent, ModelScopeGPT, pour la communauté des développeurs, et lancera une série de corps intelligents à l'avenir pour faire face à divers scénarios d'application. **
**Huawei est également impliqué dans ce domaine, mais il se concentre davantage sur l'IA Embodied (IA Embodiée), c'est-à-dire la combinaison de grands modèles et de robots. **
En plus des grands fabricants, AI Agents est également une opportunité pour les entrepreneurs. Le co-fondateur d'OpenAI, Karpathy, a spécifiquement mentionné dans son discours précédent : "Les gens ordinaires, les entrepreneurs et les geeks ont plus d'avantages que des entreprises comme OpenAI dans la construction d'agents d'IA."
Wen Yongteng, responsable de la piste d'application IA de BV Baidu Venture Capital et vice-président des investissements, a déclaré que l'équipe BV est également actuellement optimiste quant aux opportunités pour les start-ups dans le domaine des agents IA.
"Le futur écosystème d'applications sera diversifié, plutôt que dominé par un seul géant. L'émergence des agents d'IA a apporté une opportunité de changement de paradigme, et de nombreuses applications traditionnelles sont confrontées à la possibilité d'être perturbées. Dans ce processus, les startups Il y a beaucoup d'opportunités pour ouvrir de nouveaux domaines. Pour chaque tâche spécifique, les agents IA ont beaucoup de place pour l'optimisation, y compris la construction d'algorithmes et de services spécifiques, les données utilisateur et la conception de produits. Les startups peuvent établir un avantage de différenciation.
"En outre, l'écologie actuelle des agents IA n'est pas assez claire, ce qui offre des opportunités de développement favorables aux start-up, car elles n'ont pas besoin de se concurrencer selon une règle établie. De ce point de vue, les start-up et les grandes entreprises sont debout sur sur la même ligne de départ, les start-up sont plus flexibles et peuvent ajuster rapidement leurs produits.
S'appuyant sur les connaissances accumulées au fil des années dans le domaine de l'intelligence artificielle, BV Baidu Ventures ne croit pas que les entreprises modèles monopoliseront les opportunités au niveau de la couche applicative. Parce que pour les entreprises modèles sous-jacentes, il est bien plus important de construire une écologie que de monopoliser une application. Si les entreprises modèles sous-jacentes adoptent une stratégie exclusive pour obtenir un avantage concurrentiel dans la couche applicative, cela peut nuire à leur propre écologie. Les entreprises modèles sous-jacentes peuvent créer de solides agents d'IA dans un ou deux domaines sur lesquels elles se concentrent, mais elles ne doivent pas nécessairement rivaliser avec les startups dans tous les domaines.
**L'écologie qui n'est pas encore déterminée, l'arène qui n'est pas encore formulée, et tout le monde est de retour sur la même ligne de départ. **
Mais il est indéniable que jusqu'à présent, en dehors de nombreuses démonstrations, AI Agents n'est pas apparu comme un véritable produit.
Dai Yusen, associé directeur de ZhenFund, a comparé le degré de coopération entre l'IA et les humains à différentes étapes de la conduite autonome, et AI Agents est comme l'étape L4 de la conduite autonome. Mais tout comme L4, les agents IA sont faciles à imaginer et à démontrer, mais difficiles à réaliser.L'application réelle des agents IA est encore dans un avenir incertain.
Le degré de coopération entre l'IA et les humains est comparé aux différentes étapes de la conduite autonome Source de l'image : compte instantané de Dai Yusen @yusen
Dai Yusen a souligné que pour réaliser des agents IA utilisables, la capacité des grands modèles doit être considérablement améliorée.Même pour l'OpenAI de haut niveau, il reste encore beaucoup à faire en termes de retard et de performances.
"Si vous utilisez une machine à vapeur comme analogie, la vapeur ne peut être produite que lorsque l'eau est chauffée à 100 degrés. Si l'intelligence des agents IA n'a pas atteint un certain niveau, l'eau n'est chauffée qu'à 50 degrés. Même si beaucoup d'énergie a été dépensée, la vapeur ne peut toujours pas être produite. C'est 0."
Le coup d'envoi de la piste AI Agents a été donné, mais il ne s'agit certes pas d'un sprint de quelques mois, mais d'un marathon longue distance qui est voué à durer plusieurs années, voire dix ans.
Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Les agents IA dont parlent les gros bonnets de la Silicon Valley sont-ils vraiment chauds ou pas ?
Auteur|Li Han Zhu Yue
Modifier|Châtaignes
Source : Jiazi Guangnian
Après le grand succès de ChatGPT, OpenAI est déjà passé au prochain objectif - AI Agents (corps intelligent).
"Si un article propose une méthode de formation différente, OpenAI se moquera en interne, pensant que tout est laissé de côté par nous. Mais lorsque le nouvel article AI Agents sortira, nous en discuterons très sérieusement et avec enthousiasme. ** Gens ordinaires, entrepreneurs et les geeks ont un avantage sur les entreprises comme OpenAI en termes de création d'agents d'IA. ** », a déclaré Andrej Karpathy, co-fondateur d'OpenAI et ancien directeur de TeslaAI.
Le discours public de Karpathy a ajouté beaucoup de chaleur aux agents de l'IA. Mais son jugement n'est pas exclusif.
Dès le mois de mars, AutoGPT a remporté 74 000 étoiles sur GitHub et est rapidement devenu le projet open source avec le nombre d'étoiles qui a le plus augmenté de l'histoire ; BabyAGI et AgentGPT, qui sont sortis plus tard, ont poussé comme des champignons : commander des pizzas, organiser des boîtes aux lettres, créer blogs, et même organiser une fête de la Saint-Valentin...
De plus en plus d'agents IA apparaissent dans diverses scènes de la vie des gens, et l'engouement se propage rapidement depuis la Silicon Valley.
Auto-exécutables et fonctionnant de manière indépendante, les agents d'IA suscitent des attentes élevées de la part des technologues, qui les considèrent comme un "outil de productivité qui change la société". Certains y voient même "le début de l'ère de l'intelligence artificielle générale (IAG)".
Mais les voix ne peuvent cacher les problèmes existants.
"Un grand modèle est la condition préalable pour les agents IA. Ce n'est qu'avec une base matérielle suffisante que nous pouvons développer des agents IA", a déclaré Dai Yusen, associé directeur de ZhenFund, à "Jiazi Guangnian".
A proprement parler, seul ChatGPT dispose d'une large base de modèles "qualifiés" sur le marché. Limité par la puissance de calcul du modèle, il manque encore un terreau pour le développement des Agents IA en Chine.
L'avenir est radieux, mais la réalité est cruelle. La recherche et le développement technologiques et le capital-risque sont tous en plein essor. Personne ne sait quand la période de dividende des agents IA viendra vraiment avec la vague de grands modèles. Mais ce qui est certain, c'est que le changement s'est tranquillement amorcé.
1.Agents IA : des "assistants numériques" qui vous aident à faire les choses
Plutôt que de traiter AI Agents comme une version améliorée de ChatGPT, il est plus approprié de le considérer comme un "assistant numérique" pour les humains.
Il vous dit non seulement "comment le faire", mais aussi "vous aide à le faire". En tant que médium, les agents IA remplacent les humains et interagissent de manière répétée avec des modèles de langage large (LLM) tels que GPT. Tant qu'un objectif est donné, il peut simuler un comportement intelligent, créer des tâches de manière autonome, redéterminer la priorité de la liste des tâches, et terminer les tâches. La première tâche, et boucle jusqu'à ce que l'objectif soit atteint.
Contrairement à l'intelligence artificielle traditionnelle, les agents IA peuvent fonctionner indépendamment sans contrôle humain. **En accédant à l'API, les agents IA peuvent même naviguer sur le Web, utiliser des applications, lire et écrire des fichiers, payer avec des cartes de crédit, etc.
En termes simples, il vous suffit de lui donner un objectif, et l'IA **Les agents peuvent faire tout le reste. Par exemple, l'agent AI développé par HyperWrite peut commander automatiquement une pizza pour vous via le programme de contrôle du navigateur Chrome. **
Ce type d'imagination n'est pas difficile à mettre dans les films de science-fiction, mais dans le processus d'exploration de l'intelligence artificielle, il a duré près d'un demi-siècle.
Dès les années 1980, les informaticiens ont commencé à explorer comment développer un logiciel intelligent qui pourrait interagir comme un humain. Cependant, en raison des limites des données et de la puissance de calcul, les agents IA ne disposent pas des conditions réalistes nécessaires.
Joon Park, titulaire d'un doctorat en informatique à l'Université de Stanford, a déclaré un jour dans une interview : "Nous avons travaillé dans cette direction, mais toutes les méthodes des dernières décennies ne se sont même pas approchées de ce que nous réalisons actuellement. avec LLM... C'est pourquoi nous avons oublié cette vision. Mais quand LLM est arrivé, nous avons réalisé qu'il y avait une opportunité.
Le grand modèle de langage est le cerveau central des agents IA. En démantelant des tâches complexes, les exigences complexes des utilisateurs peuvent être désassemblées en méthodes de tâches réalisables.
D'une part, la formation de grands modèles est construite sur la base d'Internet et contient une grande quantité de données sur le comportement humain, qui constituent les éléments clés pour construire des agents IA crédibles.
D'autre part, avec une capacité de connaissance considérable, le grand modèle émerge avec une excellente capacité d'apprentissage du contexte et une capacité de raisonnement. En établissant une chaîne de réflexion pour réaliser la réflexion et la prise de décision continues du modèle, les agents IA peuvent analyser des problèmes complexes et les décomposer en sous-tâches simples et détaillées.
Dans le même temps, l'utilisation de la langue par LLM en tant que médium a également modifié la forme d'interaction frontale. Wen Yongteng, responsable de la piste d'application de l'IA de BV Baidu Ventures et vice-président de l'investissement, a déclaré à "Jiazi Guangnian": "BV Baidu Ventures a commencé très tôt à prêter attention au développement des agents d'IA. Grâce à la recherche et au jugement, nous Je pense que l'interface utilisateur graphique originale (GUI) Il est possible de se transformer en une interface utilisateur de langage (LanguageUI), et l'application frontale des agents AI existera sous toutes les formes frontales susceptibles d'interagir avec les humains.
C'est juste une tâche de démantèlement, et c'est loin d'être intelligent. IA pilotée par LLM Les agents ne peuvent pas se passer de trois composants clés :
Avec la coopération des trois composants, les agents IA peuvent non seulement penser comme un humain, mais aussi agir comme un humain.
Tout comme les humains, lorsqu'ils s'engagent dans des tâches complexes, il y a souvent un processus de raisonnement entre chaque étape. Les agents IA utiliseront également des composants ReAct (une bibliothèque Java pour la création d'interfaces utilisateur) pour combiner étroitement les capacités de raisonnement de grands modèles avec des décisions comportementales, afin que les modèles de langage puissent être planifiés et organisés de manière logique en fonction des connaissances.
Le framework Reflexition fournit aux agents IA des capacités de mémoire dynamique et d'auto-réflexion. Renforcer les agents linguistiques grâce à la rétroaction linguistique plutôt qu'à la mise à jour des pondérations lui permet d'améliorer les décisions d'action passées et de corriger les erreurs passées pour améliorer continuellement ses performances.
Dans le processus d'acquisition, de stockage, de rétention et de récupération des informations, les agents IA tentent également d'imiter la composition de la mémoire humaine et de construire un système de mémoire efficace.
Simulant le chemin de la mémoire humaine, les agents d'IA exprimeront la mémoire sensorielle, la mémoire à court terme et la mémoire à long terme en tant qu'intégration d'apprentissage de l'entrée d'origine (telle que texte, image, etc.), apprentissage du contexte et stockage vectoriel externe. . Les tâches et les résultats sont stockés dans le module de mémoire, et lorsque les informations sont rappelées, les informations stockées dans la mémoire sont renvoyées au dialogue avec l'utilisateur, créant ainsi un contexte plus serré.
L'utilisation et la création d'outils sont l'un des traits humains les plus distinctifs. En étant équipés d'outils externes et en utilisant des API pour appeler diverses interfaces, les agents IA peuvent simuler l'utilisation humaine d'outils pour effectuer des tâches plus complexes.
Bien que le niveau technique ne soit pas totalement mature, des problèmes tels que la gestion des données et la mémoire à long terme sont toujours en cours de résolution. Cependant, la capacité des agents d'intelligence artificielle à s'exécuter de manière autonome, à optimiser de manière itérative et à "mains libres" rend également inévitable leur popularité.
2. Remplaçant LLM, les agents IA deviennent le prochain hotspot IA
La naissance de ChatGPT a réalisé la fonction de l'IA ayant plusieurs séries de conversations avec les humains et fournissant des informations et des suggestions. L'introduction de Copilot a permis à l'IA d'entreprendre la capacité de terminer la première ébauche de travail pour les humains, tels que Github Copilot, Microsoft 365 Copilot et Midjourney, qui sont devenus le "copilote intelligent" des gens dans les domaines de la programmation, du travail de bureau, et la génération d'images.
Dites à une IA d'effectuer une tâche, et elle accomplira une tâche : écrivez une copie, répondez à une question ou générez une photo dont l'œil humain a du mal à dire qu'elle est réelle ou fausse. Dans le même temps, les utilisateurs doivent souvent fournir des invites spécifiques et claires pour chaque étape de l'IA.
À l'heure actuelle, l'IA est comme un stagiaire qui vient d'arriver, n'a aucune expérience et doit être enseigné à la main. Cependant, que se passe-t-il si vous voulez un bon employé qui obéit aux ordres, résout les difficultés d'exécution par lui-même et essaie de ne pas causer de problèmes aux autres ?
En mars et avril, Camel, AutoGPT, BabyAGI, Westworld Township et d'autres agents IA ont explosé ensemble, ce qui a semblé faire voir aux gens une telle possibilité.
Depuis l'AutoGPT open source de Important Gravitas en mars, dans les deux mois suivant sa sortie, AutoGPT a reçu 130 000 étoiles sur GitHub, ce qui en fait le projet open source à la croissance la plus rapide de l'histoire.
Source de l'image : Article "Agents génératifs : simulacres interactifs du comportement humain"
Andrej Karpathy a dit un jour sur Twitter : "La prochaine frontière de l'ingénierie rapide (ingénierie) est AutoGPT". Jusqu'à présent, AutoGPT a obtenu plus de 140 000 étoiles sur la plate-forme d'hébergement de code Github, se classant au 25e rang de l'histoire.
Le co-fondateur et PDG d'OpenAI, Sam Altman, a déclaré à plusieurs reprises que l'ère de la construction d'énormes modèles d'IA était révolue et que les corps intelligents étaient le défi.
Dans un article présentant les agents autonomes, l'auteur, Matt Schlicht, co-fondateur et PDG d'Octane AI (un fournisseur de plateforme de marketing de données), a recueilli les points de vue et opinions de plus d'une centaine de personnes de l'industrie, du milieu universitaire et des cercles d'investissement. Des experts de grandes entreprises telles que Meta, Nvidia, Stability AI ou des start-ups d'IA, ainsi que des membres du corps professoral de Stanford CS et des investisseurs en IA, dont Hugging Face, ont pour la plupart exprimé leurs attentes et leurs perspectives quant au potentiel des agents d'IA, c'est même appelé "AGI brut".
Prenant le relais des grands modèles, les agents IA semblent devenir la prochaine grande nouveauté de l'IA.
Mais en même temps, les voix de l'opposition sont sans fin.
Yoshua Bengio, lauréat du prix Turing, a mentionné dans son article de blog "Comment l'IA qui nuit aux humains apparaît" publié en mai de cette année que les humains peuvent contrôler les tâches et les objectifs généraux des agents d'IA, mais cela ne signifie pas que les humains peuvent contrôler les agents d'IA en vertu de Pour les sous-tâches et les sous-objectifs décomposés par sa propre intelligence, à moins que la recherche sur l'alignement de l'IA ne fasse une percée, les êtres humains n'auront pas de garantie de sécurité solide.
L'émergence collective d'agents intelligents, la poursuite et les doutes des grands patrons, la vague d'agents IA est rapide et chaude.
Cependant, AI Agents n'est pas un terme nouveau dans le cercle de l'intelligence artificielle.
En 2014, le Go AI AlphaGo lancé par DeepMind est en fait une sorte d'agents IA. Semblable à cela est l'OpenAI Five lancé par OpenAI en 2017 pour jouer à "Dota2", et en 2019, DeepMind a annoncé AlphaStar pour jouer à "StarCraft 2".
La tendance de l'industrie à cette époque était de former et d'améliorer les agents IA grâce à l'apprentissage par renforcement, qui était principalement utilisé dans les scénarios de jeu, en particulier dans certains jeux de confrontation avec des gagnants et des perdants évidents. Mais c'est une question ouverte si l'on veut atteindre la généralité dans le monde réel.
Au cours des années suivantes, OpenAI s'est tourné vers les modèles de langage à grande échelle et les séries GPT ont été lancées les unes après les autres. Les modèles à grande échelle sont devenus la voie dans laquelle divers fabricants de technologies se sont précipités. C'est aussi le développement de modèles à grande échelle. qui permettent aux agents IA de briser le goulot d'étranglement et de redévelopper l'opportunité.
Par rapport à la limitation aux scénarios de jeu il y a quelques années, que peuvent réaliser les agents IA sur la base de grands modèles ? Wen Yongteng, responsable de la piste d'application AI de BV Baidu Ventures et vice-président des investissements, a déclaré à « Jiazi Guangnian » : « Ce que nous avons vu, ce n'est pas seulement que le progrès technologique a considérablement amélioré la capacité de l'IA à comprendre les intentions des utilisateurs, à collecter des informations et à effectuer des tâches. Plus important encore, les agents IA sont parfaitement capables de reconstruire le futur écosystème d'applications. »
Peu de temps après le lancement d'AutoGPT, de nombreux internautes ont utilisé AutoGPT pour créer des assistants personnels automatisés. Par exemple, Udit Goenka, fondateur et PDG de FirstSales.io, a déclaré qu'il avait utilisé AutoGPT pour créer un moteur de prospection capable de rechercher des entreprises ayant reçu un investissement de démarrage l'année dernière et de décrire les détails de la création d'une liste.
Yew Jin Lim, ingénieur logiciel chez Google, a déclaré avoir utilisé AutoGPT pour créer un assistant de messagerie qui envoie les détails des tâches aux agents IA par e-mail.
Dai Yusen, associé directeur de ZhenFund, a déclaré à "Jiazi Guangnian": "Agent est une direction qui peut vraiment améliorer considérablement la productivité, car si les gens font encore des choses, les gens sont toujours limités."
"Les agents IA deviendront un outil de productivité dans la vie quotidienne et au travail." Matt Schlicht a écrit : "De la gestion des comptes de médias sociaux à l'investissement sur le marché, en passant par la publication des meilleurs livres pour enfants, les agents IA existeront dans tous les secteurs et toutes les tâches. qui peut être imaginé." Par exemple, aomni est un agent d'IA qui peut rechercher des informations sur n'importe quel sujet sur Internet, et complétera les objectifs de l'utilisateur un par un en créant une liste.
En plus des besoins de productivité, l'agent AI personnel Pi d'Inflection AI fournit une autre direction d'application possible.
Différent du positionnement de ChatGPT et de l'intelligence artificielle générale de Claude, Pi se concentre sur un QE élevé, la compagnie émotionnelle et la valeur émotionnelle. Pi se souviendra également des conversations historiques avec les utilisateurs. En plus de participer et d'aider le travail et la vie des gens, il apprendra également à contacter les amis et la famille pour établir des liens avec les utilisateurs. À l'heure actuelle, Inflection AI a reçu plus de 1,5 milliard de dollars d'investissements, dépassant Anthropic et juste derrière OpenAI.
**3. Les agents IA seront-ils la prochaine tendance ? **
"Construire une sorte de JARVIS (bâtiment similaire à JARVIS)", c'est le dernier profil mis à jour d'Andrej Karpathy sur Twitter, JARVIS est un assistant d'intelligence artificielle du super-héros Marvel Iron Man, qui a la capacité de penser de manière indépendante et peut aider le propriétaire à gérer diverses affaires et calculer diverses informations.
L'introduction de Karpathy signifie également que le pistolet de départ de la piste AI Agents a été tiré.
Le média étranger "The Information" a souligné que Sam Altman avait dit en privé à certains développeurs en mai qu'OpenAI espère faire de ChatGPT un assistant de travail personnel, et une personne familière avec le sujet a souligné que OpenAI a prêté attention à la façon d'utiliser des chatbots pour créer une IA autonome **Agents, les fonctions associées sont susceptibles d'être déployées dans l'assistant ChatGPT. **
Par coïncidence, Meta voit également une opportunité pour les agents IA.
En avril, Zuckerberg a déclaré aux investisseurs que Meta voyait une "opportunité de présenter des agents d'IA à des milliards de personnes de manière utile et significative", mais il n'a pas spécifié d'applications spécifiques pour le moment.
Et lors d'une réunion générale avec les employés en juin, Zuckerberg a annoncé une série de technologies à divers stades de développement, dont l'une apporterait des agents IA avec différentes personnalités et capacités pour aider ou divertir, initialement principalement pour Messenger et WhatsApp.
En Chine, AI **Les produits liés aux agents sont également nés les uns après les autres. **
Début juillet, sur le site WAIC, Alibaba Cloud a publié son premier corps intelligent, ModelScopeGPT, pour la communauté des développeurs, et lancera une série de corps intelligents à l'avenir pour faire face à divers scénarios d'application. **
**Huawei est également impliqué dans ce domaine, mais il se concentre davantage sur l'IA Embodied (IA Embodiée), c'est-à-dire la combinaison de grands modèles et de robots. **
En plus des grands fabricants, AI Agents est également une opportunité pour les entrepreneurs. Le co-fondateur d'OpenAI, Karpathy, a spécifiquement mentionné dans son discours précédent : "Les gens ordinaires, les entrepreneurs et les geeks ont plus d'avantages que des entreprises comme OpenAI dans la construction d'agents d'IA."
Wen Yongteng, responsable de la piste d'application IA de BV Baidu Venture Capital et vice-président des investissements, a déclaré que l'équipe BV est également actuellement optimiste quant aux opportunités pour les start-ups dans le domaine des agents IA.
"Le futur écosystème d'applications sera diversifié, plutôt que dominé par un seul géant. L'émergence des agents d'IA a apporté une opportunité de changement de paradigme, et de nombreuses applications traditionnelles sont confrontées à la possibilité d'être perturbées. Dans ce processus, les startups Il y a beaucoup d'opportunités pour ouvrir de nouveaux domaines. Pour chaque tâche spécifique, les agents IA ont beaucoup de place pour l'optimisation, y compris la construction d'algorithmes et de services spécifiques, les données utilisateur et la conception de produits. Les startups peuvent établir un avantage de différenciation.
"En outre, l'écologie actuelle des agents IA n'est pas assez claire, ce qui offre des opportunités de développement favorables aux start-up, car elles n'ont pas besoin de se concurrencer selon une règle établie. De ce point de vue, les start-up et les grandes entreprises sont debout sur sur la même ligne de départ, les start-up sont plus flexibles et peuvent ajuster rapidement leurs produits.
S'appuyant sur les connaissances accumulées au fil des années dans le domaine de l'intelligence artificielle, BV Baidu Ventures ne croit pas que les entreprises modèles monopoliseront les opportunités au niveau de la couche applicative. Parce que pour les entreprises modèles sous-jacentes, il est bien plus important de construire une écologie que de monopoliser une application. Si les entreprises modèles sous-jacentes adoptent une stratégie exclusive pour obtenir un avantage concurrentiel dans la couche applicative, cela peut nuire à leur propre écologie. Les entreprises modèles sous-jacentes peuvent créer de solides agents d'IA dans un ou deux domaines sur lesquels elles se concentrent, mais elles ne doivent pas nécessairement rivaliser avec les startups dans tous les domaines.
**L'écologie qui n'est pas encore déterminée, l'arène qui n'est pas encore formulée, et tout le monde est de retour sur la même ligne de départ. **
Mais il est indéniable que jusqu'à présent, en dehors de nombreuses démonstrations, AI Agents n'est pas apparu comme un véritable produit.
Dai Yusen, associé directeur de ZhenFund, a comparé le degré de coopération entre l'IA et les humains à différentes étapes de la conduite autonome, et AI Agents est comme l'étape L4 de la conduite autonome. Mais tout comme L4, les agents IA sont faciles à imaginer et à démontrer, mais difficiles à réaliser.L'application réelle des agents IA est encore dans un avenir incertain.
Dai Yusen a souligné que pour réaliser des agents IA utilisables, la capacité des grands modèles doit être considérablement améliorée.Même pour l'OpenAI de haut niveau, il reste encore beaucoup à faire en termes de retard et de performances.
"Si vous utilisez une machine à vapeur comme analogie, la vapeur ne peut être produite que lorsque l'eau est chauffée à 100 degrés. Si l'intelligence des agents IA n'a pas atteint un certain niveau, l'eau n'est chauffée qu'à 50 degrés. Même si beaucoup d'énergie a été dépensée, la vapeur ne peut toujours pas être produite. C'est 0."
Le coup d'envoi de la piste AI Agents a été donné, mais il ne s'agit certes pas d'un sprint de quelques mois, mais d'un marathon longue distance qui est voué à durer plusieurs années, voire dix ans.