10 AI-Agents representativos, cómo cambiará Internet / reformará Web3

FUENTE: VION WILLIAMS

Explore las posibilidades innovadoras de AI-Agents

Consenso y no consenso de AI-Agents

La razón por la que AI-Agents se ha convertido en una dirección que ha atraído cada vez más atención se debe en gran parte al hecho de que LLM proporciona una ruta de implementación técnica factible para la aplicación de AI-Agents y, en segundo lugar, hay muchos proyectos relacionados con AI-Agents. encerrar

Aunque LiLian Weng define qué son los agentes de IA impulsados por LLM en su artículo. Pero Deepmind también está tratando de definir el concepto de un agente unificado.Creo que el concepto de AI-Agents también formará diferentes tipos de diferenciación con la comprensión de las diferentes empresas de IA.

El consenso clave más claro es que basado en Agentes impulsados por LLM para realizar el procesamiento automático de problemas generales, son los Agentes de IA los que hemos identificado en este ciclo de explosión del modelo de lenguaje a gran escala y hemos formado un entendimiento compartido.

Encuentra la posibilidad a partir de la correlación de Agentes

En el nivel de aplicación de AI-Agents, en la etapa actual, debemos mirar a AI-Agents desde la perspectiva de la "relevancia" tanto como sea posible, es decir, debemos ser tolerantes con el ensayo y error e innovadores en las formas posibles. de AI-Agents Posibilidad**, no debe buscar una respuesta estandarizada en una posición estrecha como algunos críticos, estos no son aconsejables.

Por ejemplo, Auto-GTP, como posibilidad, en realidad ha inspirado muchos proyectos de Agentes, pero las críticas estrechas perderán la oportunidad de capturar nuevas oportunidades, lo cual es un fenómeno común entre los desarrolladores chinos. Como desarrollador sin creatividad, ¿cómo confiará en su competitividad tradicional en la era de la programación en lenguaje natural?

Aunque hay muchas introducciones sobre proyectos relacionados con AI-Agents, creo que hay un problema de listado homogéneo e introducción. Estos contenidos nos permiten saber qué proyectos pertenecen a la dirección de AI-Agents, pero no hay ningún relacionado Partiendo de la naturaleza, muestra el potencial de los AI-Agents en diferentes campos de aplicación y la posición ecológica de ciertos tipos de proyectos de AI-Agents.

Por ejemplo, en mi introducción, Yo clasificaré Auto-GPT, BabayAGI y MetaGPT en un tipo de ecología, porque tienen la continuidad de un cierto camino;

Construyendo una cognición holística en el rompecabezas de los Agentes

Con todo, en la introducción de proyectos representativos sobre AI-Agents, Utilicé las perspectivas de "relevancia", "posición ecológica" y "continuidad" para presentar proyectos representativos, de modo que podamos ver vagamente el desarrollo futuro. tendencia de los agentes de IA.

Aparecen los siguientes 10 proyectos relacionados representativos, incluidos algunos proyectos de referencia relacionados. Usaré el caso como un rompecabezas para armar un mapa relativamente completo, que es suficiente para que más personas se den cuenta claramente de cómo el potencial de los Agentes puede cambiar todo en Internet. Incluyendo la remodelación del panorama Web3.

Dos importantes direcciones futuras de AI-Agents

Los AI-Agents se pueden dividir aproximadamente en dos direcciones: **Agentes autónomos y agentes generativos. **

Los agentes autónomos toman como ejemplo Auto-GPT, que representa la capacidad de ejecutar automáticamente varias tareas para lograr los resultados deseados a través de descripciones de requisitos en lenguaje natural.En esta relación de colaboración, los agentes autónomos sirven a las personas y tienen atributos de herramienta claros;

Generative Agents toma como ejemplo la ciudad virtual de 25 agentes inteligentes publicada por Stanford.Generative Agents, como una IA-Agents con características de personalidad, capacidad de toma de decisiones autónoma y memoria a largo plazo, se inclina más por el concepto de "natividad".En esta colaboración En las relaciones, los agentes tienen relaciones sociales nativas digitales, no solo herramientas para servir a las personas;

Auto-GPT

Uno de los proyectos de código abierto más conocidos de Auto-GPT, su introducción en GitHub es muy simple: "Un intento experimental de código abierto para hacer que GPT-4 sea completamente autónomo". autónomo

Un breve resumen es que Auto-GTP puede automatizar completamente el resultado final de la tarea a través de un requisito de tarea de una oración; la lógica central de la capacidad de Auto-GPT para completar tareas de forma independiente radica en la capacidad de planificación de tareas del modelo de lenguaje, a través de la tarea Carry Realice el desmontaje y el análisis paso a paso, y mejore automáticamente los pasos de ejecución de la tarea. En el proceso, los resultados de la búsqueda en Internet se retroalimentarán al modelo de lenguaje, y la tarea se desmontará y ejecutará aún más.

Para usar la lengua vernácula popular como metáfora, **Auto-GPT completó la tarea en el proceso de "auto-cuestionamiento y auto-respuesta", sin necesidad de que los humanos proporcionen palabras rápidas. **

Aunque muchas personas critican a Auto-GPT por su gran consumo de tokens y la falta de resultados estables, Auto-GTP, como un caso de automatización basado en LLM, ha despertado mucho la curiosidad de los desarrolladores. Auto-GPT similar también es BabayAGI, MetaGPT, etc., están a la vanguardia de la experimentación con proyectos de código abierto para explorar la automatización.

dirección del proyecto:

**BabyAGI puede crear, clasificar y ejecutar automáticamente nuevas tareas en función de los resultados de las tareas anteriores y nuestros objetivos preestablecidos. **Utiliza tecnología de procesamiento de lenguaje natural para crear nuevas tareas basadas en objetivos y almacena los resultados de la tarea en la base de datos para que se pueda encontrar información relevante cuando sea necesario.

BabyAGI es en realidad un script de Python que ejecuta un ciclo infinito para completar los siguientes pasos:

  • Obtener la primera tarea de la lista de tareas.
  • Envíe la tarea al agente de ejecución, y el agente de ejecución utiliza la API de OpenAI para completar la tarea según el contexto.
  • Enriquece el resultado y guárdalo en Chroma/Weaviate.
  • Cree nuevas tareas y reordene las listas de tareas en función de los objetivos preestablecidos y los resultados de las tareas anteriores.

dirección del proyecto:

Tanto Auto-GPT como BabyAGI representan teóricamente el período inicial de nuestro actual brote de LLM.Nuestra exploración de AGI basada en LLM y el procesador de resolución de tareas de propósito general impulsado por LLM son, creo, el santo grial en el campo de la IA. Agentes en el futuro.

Agentes generativos

El artículo "Agentes generativos: simulacros interactivos del comportamiento humano" publicado por los investigadores de Stanford y Google ya es un proyecto de agente de IA muy conocido. En general, esta investigación colocó a 25 agentes de IA en un pequeño espacio virtual estilo píxel en la ciudad. , los agentes inteligentes pueden realizar la interacción simulada del comportamiento de la vida humana, y también pueden interactuar con el entorno de la ciudad virtual, y también pueden interactuar con humanos fuera del mundo virtual. **

Este documento tiene dos soluciones clave que merecen nuestra atención:

1, Arquitectura del Agente Generativo

Los agentes perciben su entorno y guardan todas las percepciones en un registro completo denominado flujo de memoria, que registra la experiencia del agente. En función de sus percepciones, la arquitectura recupera recuerdos relevantes y luego utiliza estos comportamientos recuperados para determinar una acción. Estos recuerdos recuperados también se utilizan para formar planes a más largo plazo y crear reflejos de mayor nivel, los cuales se alimentan en el flujo de memoria para uso futuro.

2, flujo de memoria

Según la arquitectura del agente generativo y el entorno interactivo en el que se encuentra el experimento, el agente inevitablemente generará una gran cantidad de datos de memoria.Memory Stream es una base de datos que registra de manera integral todos los recuerdos del agente generativo. Es una lista que contiene múltiples objetos de memoria, cada objeto contiene una descripción en lenguaje natural, una marca de tiempo de creación y una marca de tiempo de último acceso. El elemento más básico del flujo de memoria es una observación, que es un evento percibido directamente por un agente. Las observaciones comunes incluyen acciones realizadas por el propio agente, o acciones que el agente percibe como realizadas por otros agentes u objetos que no son agentes.

Basado en los dos componentes clave anteriores, de hecho, el comportamiento general del agente generativo se divide en tres partes: [memoria y recuperación] [reflexión] [planificación y respuesta] Para obtener más detalles, consulte el contenido del artículo original .

Este documento y este experimento verificaron que se puede confiar en que el comportamiento interactivo generado por el agente formado en base a LLM simula el comportamiento de la interacción humana en un entorno digital. El agente generativo puede desempeñar un papel en muchos entornos digitales, especialmente el generado. una relación de interacción humano-computadora formada entre agentes humanos y seres humanos.

Lo que podemos sentir de forma más intuitiva es que el agente generativo se crea como un residente digital nativo del metaverso y produce varias interacciones con el entorno del metaverso humano. De hecho, Podemos simular un mundo virtual digital altamente desarrollado de AI-Agents, y los humanos pueden extraer los resultados laborales digitales de AI-Agents de este mundo;

Cómo los agentes se convierten en socios de trabajo

Dado que Agentes se traduce como "agentes" en muchos contextos esta vez, los agentes se asocian fácilmente con el concepto de rol de un intermediario, lo que dificulta que muchas personas establezcan intuitivamente la asociación de la aplicación de escena de Agentes; en estos tres casos, respectivamente Muestra cómo los Agentes pueden convertirse en "expertos humanos" que pueden ser contratados, una empresa de marketing automatizada que no requiere participación humana en absoluto, y cómo los Agentes forman un equipo para colaborar entre sí.

En el siguiente ejemplo, podemos usar NexusGPT para crear personal experto múltiple y usar GPTeam para formar un equipo contratado por humanos, y este equipo de IA trabaja en una empresa totalmente automatizada como AutoCorp. Cuando juntamos estas piezas del rompecabezas, podemos sentir intuitivamente que el futuro ha llegado;

NexusGPT

Esta es la llamada primera plataforma independiente de IA del mundo creada por un desarrollador independiente Assem. NexusGPT se basa en el marco LangChainAI, utilizando GPT-3.5 API y Chroma (una base de datos integrada de código abierto nativa de IA), en la plataforma NexuseGPT Con más de ochocientos agentes de IA con habilidades específicas.

Los agentes en NexusGPT pueden ajustar de forma inteligente la dificultad de las preguntas:

    • Nivel 1: Diálogo simple
    • Nivel 2: operaciones/complementos preentrenados
    • Nivel 3: modo AutoGPT

Pero todos estos dependen del soporte de llamadas de función de OpenAI y LangchainAI;

Mientras que durante la ejecución de la tarea del agente, los autores consideran la velocidad a la que el sistema converge a calificaciones altas a través de la retroalimentación humana y las observaciones de calificación en un bucle. De hecho, esto es para proporcionar a los agentes de IA habilidades específicas para lograr estrategias de mejora optimizadas iterativamente en la comunicación con la parte humana A sobre los requisitos de la tarea.

NexusGPT representa un modelo comercial futuro para que los seres humanos contraten Agentes. Este proyecto en realidad tiene mucho margen de mejora, como la combinación de Agentes y módulos expertos (sistema experto y modelo experto). El método de fijación de precios de la Parte A para contratar Agentes es basados en Token Cálculo de consumo, etc., estos cambiarán nuestra forma tradicional de contratar el mercado laboral, y también cambiará la forma de colaboración de DAO;

Corporación automotriz

Creado en 5 horas por AutoCorpmina fahmi y su equipo durante el Hackathon GPT/LLM de Nueva York. AutoCorp es una empresa de marketing de marca completamente independiente. AutoCorp creará automáticamente anuncios de marca y diseños de productos para una empresa que vende camisetas directamente. Cuando los clientes planteen nuevas necesidades de consumo, AutoCorp actualizará su tema y generará nuevos activos de diseño. Autoiteración continua hacia una mejor dirección comercial.

Primero, AutoCorp desarrolló una idea inicial para una marca de camisetas basada en la idea original. Luego utilizó esta idea inicial para generar los diversos activos de la empresa y una guía de estilo por defecto. Cuando los clientes tengan necesidades, AutoCorp actualizará su plan de acuerdo con estas necesidades. Si un plan da como resultado menos ventas, AutoCorp hace ajustes. El proceso anterior se ejecutó de principio a fin y, de hecho, se puede conectar a la API de publicidad y a la API de camisetas personalizadas para su implementación en el mundo real.

Este párrafo se cita del twitter de Mina fahmi, y AutoCorp también fue creado por mina fahmi y su equipo durante el hackathon GPT/LLM en Nueva York en 5 horas, y su propósito de crear AutoCorp es también impulsar el concepto de "Autonomía" a el extremo

De hecho, el propósito de AutoCorp y DAO es muy consistente.**Si el objetivo final de una organización descentralizada es eliminar el factor "humano", entonces la automatización completa de las operaciones de producción es en realidad un atractivo de desarrollo razonable del concepto de DAO. . **AutoCorp en realidad representa la futura dirección de desarrollo comercial de DAO.

Equipo GP

GPTeam es un sistema de simulación multiagente de código abierto. GPTeam aprovecha GPT-4 para crear múltiples agentes que cooperan para lograr objetivos predefinidos. El objetivo principal de este proyecto es explorar el potencial de los modelos GPT para mejorar la productividad de múltiples agentes y la comunicación efectiva.

GPTeam emplea agentes independientes, cada uno equipado con memoria, e interactúa a través de la comunicación. Las implementaciones de memoria y reflexión para agentes están inspiradas en este trabajo de investigación. Los agentes se mueven por el mundo y realizan tareas en diferentes ubicaciones según sus propias tareas y las ubicaciones de otros agentes. Pueden comunicarse entre sí y colaborar en tareas mientras trabajan en paralelo hacia un objetivo común.

dirección del proyecto:

De hecho, todavía hay muchos proyectos de código abierto como GPTeam, como Dev-GPT, un equipo de desarrollo automatizado que crea microservicios personalizados para los usuarios. El equipo consta de tres roles virtuales: gerente de producto, desarrollador y operación y mantenimiento de desarrollo. La idea técnica de Dev-GPT es principalmente identificar y probar estrategias de tareas efectivas. Si falla 10 veces seguidas, cambiará al siguiente método.

Veremos más y más proyectos, diseñar agentes de IA como una especie de equipo de IA, no es difícil definir a los agentes como un rol de producción, como en el caso de NexusGPT, los desarrolladores pueden configurar cada agente. Es un desafío. convertirse en agentes con habilidades exclusivas, y luego cómo cooperar con estos agentes para ejercer sus respectivas habilidades y realizar una tarea/proyecto de automatización en combinación. Sin embargo, Project Atlas Agents está explorando la automatización basada en lenguaje natural, de hecho, proporciona una buena aplicación escenario para el equipo de Agentes;

Todo esto me hace pensar en DAO, una organización de colaboración de tareas automatizada basada en una lógica de gobierno automatizada;

Cómo reemplazan los agentes el trabajo repetitivo

Antes de que la IA reemplace por completo nuestro trabajo, los Agentes reemplazan la mayor parte de nuestro trabajo repetitivo actual es la próxima dirección de desarrollo de los Agentes en el campo comercial. el RPA tradicional tiene un umbral alto y no puede popularizarse entre el público. RPA es un remedio para la falta de automatización de la lógica de interacción de TI tradicional, y los agentes actuales pueden comunicarse con lenguaje natural para realizar la función que RPA necesita.

Los siguientes dos proyectos nos muestran cómo los agentes basados en LLM nos ayudarán a liberarnos del trabajo repetitivo en nuestro trabajo diario e investigación académica. (De hecho, el potencial de estos dos proyectos es más que eso)

Capa de trucos

"Automatiza tu negocio usando el lenguaje natural", usar el lenguaje natural para automatizar tu negocio, este es el eslogan de la marca Cheat Layere. Cheat Layer resuelve problemas imposibles de automatización empresarial a través de modelos de aprendizaje automático GPT-4 capacitados a medida, que actúan como ingenieros de software de IA para cada usuario.

Cheat Layer ha lanzado dos productos en Producthunt, uno es Cheat Layer y el otro es Project Atlas Agents. Project Atlas Agents es una interfaz de administración para proyectos sin código que se puede usar para construir e iterar AI Agents.

Cheat Layer automatiza el funcionamiento de toda la página web a través del modo de complemento de Google Chrome y utiliza un lenguaje natural. Por ejemplo, la mayoría de nuestras operaciones de rutina en la página web se pueden realizar de forma automática. Cheat Layer recuerda fácilmente a RPA, es decir, la automatización de procesos robóticos. Ha habido muchas discusiones sobre la relación entre Agentes y RPA, es un hecho indiscutible que la RPA tradicional ha sido eliminada por los Agentes.

Utilice el lenguaje natural a través de Cheat Layer para configurar la automatización de los procesos comerciales y use los Agentes de Project Atlas para administrar diferentes procesos de automatización. En términos generales, podemos usar el modo de lenguaje natural para crear un Agente para administrar la ejecución automatizada de un determinado negocio, como la complejidad del negocio aumenta, podemos mejorar iterativamente los Agentes.

Desconozco el marketing y promoción de Cheat Layer por el momento, pero según las estadísticas de similarweb, los principales usuarios se encuentran principalmente en Norteamérica, y el número de visitas ha aumentado un 37,8% respecto al mes anterior. Al crear agentes para automatizar la gestión comercial, es relativamente Comparado con varios chatbots, esta demanda puede satisfacer en gran medida las necesidades de los propietarios de comercio electrónico pequeños y medianos, y tal vez esta sea una dirección que vale la pena explorar y cavar;

Investigador GPT

GPT Researcher es un agente autónomo basado en GPT capaz de realizar investigaciones exhaustivas en línea sobre cualquier tema determinado. La introducción del proyecto en Github es:

"El agente es capaz de generar informes de investigación detallados, objetivos e imparciales con opciones de personalización para centrarse en recursos, esquemas y lecciones relevantes. Inspirado en AutoGPT y en un documento reciente de Plan-and-Solve, GPT Researcher resuelve los problemas de velocidad y deterministas , al paralelizar el trabajo de los agentes en lugar de las operaciones síncronas, lo que proporciona un rendimiento más estable y una mayor velocidad".

La arquitectura de GPT Researcher se lleva a cabo principalmente mediante la ejecución de dos agentes, **uno es un "planificador" y el otro es un "ejecutor"; **El planificador es responsable de generar preguntas de investigación, mientras que el ejecutor se basa en la investigación preguntas generadas por el planificador Encuentre información relevante, y finalmente filtre y resuma toda la información relevante a través del planificador, y luego genere un informe de investigación;

más específicamente:

  1. Generar un conjunto de preguntas de investigación que juntas formen una opinión objetiva sobre cualquier tarea dada.

  2. Para cada pregunta de investigación, active un agente rastreador para extraer información relevante para la tarea dada de los recursos en línea.

  3. Para cada recurso rastreado, resuma en función de la información relevante y rastree su fuente.

  4. Finalmente, todos los recursos resumidos se filtran y agregan, y se genera el informe de investigación final.

Características de este proyecto

Genere informes de investigación, esquemas, recursos y lecciones aprendidas

Cada estudio agrega más de 20 fuentes de Internet para formar conclusiones objetivas y fácticas.

Incluye una interfaz web fácil de usar (HTML/CSS/JS)

Web scraping habilitado para Java

Registre y realice un seguimiento de la información contextual sobre las fuentes web visitadas y utilizadas

Exporte informes de investigación a formatos como PDF...

Aunque GPT Researcher es una herramienta de investigación académica basada en GPT, y este es un proyecto de código abierto con fines académicos bajo la licencia MIT. Desde la perspectiva de la creación de contenido, este código abierto tiene un alto valor comercial. Por ejemplo, cuando este proyecto de código abierto se aplica a los informes de análisis empresarial, aún puede ahorrar mucho tiempo. En segundo lugar, transformar este proyecto de código abierto en una IA para redacción de contenido en profundidad: los agentes también cambiarán por completo el patrón de la industria de los medios de contenido;

dirección del proyecto:

Ecología de infraestructura de AI-Agents

El futuro obvio es que la relación de colaboración entre humanos en el futuro ya no será una relación de colaboración entre humanos y humanos, sino una relación de colaboración entre humanos y agentes de IA, y todos tendrán tantos agentes de IA como sea posible. para manejar tantas tareas como sea posible, formando así una estructura de colaboración social inteligente grande y compleja; **

La relación colaborativa entre humanos y Agentes es diferente de la teoría colaborativa de humanos y herramientas en las teorías anteriores de las ciencias sociales.La clave es que los Agentes, como un tipo de inteligencia similar a la humana, tienen ciertas capacidades de toma de decisiones independientes y la confianza humana en Los agentes también se han convertido en un tema clave, sin mencionar la autoconciencia de los agentes, sino la influencia de los agentes en el comportamiento de interacción social en la toma de decisiones en lugar de los humanos.

Con base en la consideración de las dos proposiciones anteriores, debemos darnos cuenta de que es posible que los seres humanos creen sus propios Agentes de IA de manera eficiente y conveniente, mientras permiten que sus propios Agentes tengan capacidades más poderosas, y que los Agentes sean confiables. Es inseparable de una buena infraestructura para brindar apoyo. Creo que la introducción de los siguientes tres proyectos representa la dirección de construcción de la futura infraestructura de AI-Agents;

cadena de lang

LangChain es un marco de desarrollo de aplicaciones basado en modelos de lenguaje. Puede lograr las siguientes funciones.

Reconocimiento de datos: conecte modelos de lenguaje a otras fuentes de datos

Agente: Permite que un modelo de lenguaje interactúe con su entorno.

El principal valor de LangChain radica en:

Componente: Proporciona abstracciones para trabajar con modelos de lenguaje y proporciona una serie de implementaciones para cada abstracción. Estos componentes son modulares y fáciles de usar, ya sea que use el resto del marco LangChain o no.

Cadenas listas para usar: un conjunto estructurado de componentes para implementar tareas específicas de alto nivel.

Las cadenas listas para usar facilitan el inicio rápido. Para aplicaciones más complejas y casos de uso granular, los componentes facilitan la personalización de cadenas existentes o la creación de otras nuevas.

langchain proporciona interfaces estándar y extensibles e integración externa al proporcionar los siguientes módulos

Modelo de entrada y salida del modelo de E/S: interacción de la interfaz con el modelo de lenguaje

Conexión de datos conexión de datos: interacción de interfaz con datos de una aplicación específica

Cadena de cadenas: construir secuencia de llamada

*Agentes: Deje que la cadena elija qué herramientas usar según instrucciones de alto nivel. *

*Memoria: Guarda el estado de la aplicación entre ejecuciones de la cadena. *

*Devoluciones de llamada: grabe y transmita pasos intermedios de cualquier cadena. *

Gracias a la ecología de desarrolladores relativamente activa de Langchain en la comunidad inglesa, hay relativamente muchos casos de desarrollo de aplicaciones de Agentes utilizando Langchain. Definir el marco de Agentes y proporcionar un marco de desarrollo de código cero es una tendencia futura.

Basado en un sistema de marco específico, la fabricación de Agentes es como construir bloques de Lego. A diferencia de la modularización de Web3, los módulos de Agentes no tienen que estar listos para usar, pero la gente común también puede desarrollar componentes específicos a través de la programación en lenguaje natural. Añadido al marco de Agentes.

Por ejemplo, muchas personas usan el marco langchain para desarrollar chatbots, desarrollan un componente de conversión de tono a través de la programación de lenguaje natural y lo agregan al chatbot, luego el tono de diálogo predeterminado original se puede cambiar a un tono de diálogo que cumpla con las propias preferencias del usuario.

La iluminación que nos brinda langchain es que el marco de desarrollo de Agentes para programación sin código + módulos de componentes para programación en lenguaje natural puede ser una herramienta de desarrollo necesaria para la popularización de Agentes.

Agentes transformadores

Transformer Agents es un sistema de AI-Agents lanzado por hunging Face. Aunque la función actual no es muy buena, la razón clave por la que debemos vigilarlo es que huggingFace es una gran comunidad de código abierto de biblioteca de modelos.

Transformer Agents en realidad se basa en el marco de trabajo de Transformer, agregando una API basada en lenguaje natural: huggingface define un conjunto de herramientas y diseña un agente para interpretar el lenguaje natural y usar estas herramientas. Lo más importante es que este sistema tiene un diseño extensible.

Es decir, Transformer Agents utilizó una pequeña cantidad de herramientas proxy bien preparadas en la etapa inicial para verificar la viabilidad de este sistema, y luego la escalabilidad significa que Transformer Agents puede usar libremente la enorme biblioteca de herramientas modelo de huggingface.

Siento que esta es la solución construida en el documento "HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face", que es conectar una enorme biblioteca de modelos a través de LLM para resolver tareas complejas en múltiples campos y múltiples modalidades. Esta imaginación es en realidad muy grande. La primera biblioteca de modelos de IA que reúne la inteligencia humana de primer nivel se utiliza en forma de agentes para atender problemas complejos en varias industrias. Es difícil no mirar hacia un futuro así. **

Por supuesto, es emocionante hacer realidad esta visión, pero en la etapa actual, todavía espero que Transformer Agents pueda proponer un marco de agentes impresionante para acomodar la afluencia de desarrolladores en esta ecología que contiene enormes minas de oro. medio. HuggingFace puede haber ajustado su propia estrategia de desarrollo.

Web Arena

**WebArena es un entorno web autónomo y autohospedado para crear agentes autónomos. **WebArena crea cuatro categorías populares de sitios web con características y datos que imitan a sus contrapartes del mundo real.

Para simular la resolución de problemas humanos, WebArena también incorpora herramientas y recursos de conocimiento como sitios web independientes. WebArena presenta un punto de referencia para interpretar comandos de lenguaje natural del mundo real de alto nivel en interacciones concretas basadas en la web. Los investigadores proporcionaron programas anotados para verificar programáticamente la corrección funcional de cada tarea.

Resumen de los artículos citados:

"Los agentes actuales se crean y prueban principalmente en entornos sintéticos simplificados, que limitan en gran medida la representación de escenarios del mundo real. En este documento, construimos un entorno de comando y control de agentes que es altamente realista y reproducible. Específicamente, nos enfocamos en agentes que realizan tareas en la web y crearon un entorno que incluye sitios web completamente funcionales en cuatro áreas comunes: comercio electrónico, debates en foros sociales, desarrollo de software colaborativo y administración de contenido. Nuestro entorno es rico y diverso, e incluye algunas herramientas (como mapas ) y bases de conocimientos externas (como manuales de usuario) para fomentar la resolución de tareas de forma humana.

En función de nuestro entorno, publicamos un conjunto de tareas comparativas que se centran en evaluar la corrección funcional de la finalización de la tarea. Las tareas en nuestro punto de referencia son diversas y abarcan mucho tiempo, y están diseñadas para simular tareas que los humanos realizan con frecuencia en Internet. Diseñamos e implementamos varios agentes autónomos, integrando técnicas de última generación como pensar antes de actuar.

Los resultados muestran que resolver tareas complejas es un desafío: nuestro mejor agente basado en GPT-4 solo logra una tasa de éxito de tareas de extremo a extremo del 10,59 %. Estos resultados resaltan la necesidad de un mayor desarrollo de agentes poderosos, los modelos de lenguaje de vanguardia actuales están lejos de ser perfectos en estas tareas del mundo real, y WebArena puede usarse para medir dicho progreso. "

Título de la tesis: WebArena: un entorno web realista para construir agentes autónomos

Dirección de tesis:

Este es el resultado de una investigación académica de un investigador de IA de Carnegie Mellon. De hecho, WebArena complementa la actualmente conocida arquitectura de desarrollo langchain, o varios proyectos relacionados con Agents-Team. Necesitamos una plataforma de prueba de simulación de Agents, utilizada para garantizar la robustez y efectividad de los Agentes.

La función principal de esta plataforma es probar la viabilidad de varios proyectos de Agentes. Un escenario que incluso puedo imaginar es que cuando contrato un Agente en una determinada plataforma en el futuro, usaremos los Agentes a través de una plataforma como WebArena para probar el La capacidad de trabajo real de los agentes también significa que los humanos tienen derecho a hablar sobre las decisiones de precios de los agentes de IA.

**¿Cómo afectarán todo los agentes de IA? **

Red de colaboración automatizada basada en agentes

A través de nuestra introducción y análisis de más de una docena de proyectos anteriores, estos diferentes proyectos son como piezas de un rompecabezas, que conforman nuestra comprensión general relativa de los Agentes.Los Agentes son en realidad la dirección para aprovechar verdaderamente el potencial de LLM, y LLM es En el centro, los Agentes dotan a LLM de manos y pies. Basados en la diversidad funcional de los Agentes impulsados por LLM, los Agentes serán como una explosión biológica, y los humanos y los Agentes se convertirán en una relación de desarrollo simbiótico/compañero digital.

La red colaborativa de la sociedad humana también formará una red colaborativa automatizada entre humanos y Agentes debido a la aplicación a gran escala de Agentes.La estructura de producción de la sociedad humana se actualizará y todos los aspectos de la sociedad se verán afectados y cambiados;

Cambiando Todo en Internet

Los AI-Agents han cambiado por completo la forma en que obtenemos información, procesamos información, producimos información y usamos información en Internet, y han cambiado nuestro modelo comercial actual que se basa en Internet. Una red inteligente con capacidades de comunicación y ejecución autónoma/automática de tareas es que los Agentes de Internet son el medio inteligente con el que hablamos y ejecutamos.

Remodelando la Narrativa para Web3

La red de moneda encriptada se convertirá en la red de moneda natural de los Agentes, y los recursos informáticos consumidos por toda la red de colaboración AI-Agents harán de Token un importante recurso económico de AI; la propiedad de datos personales representada por Web3 también se enfrentará a una nueva computadora humana relación de interacción Entre ellos, una propuesta completamente nueva de que los humanos y los agentes de IA comparten los derechos de propiedad de los datos. La aparición de agentes con derechos de propiedad independientes (un movimiento radical para liberar la IA), los DAO totalmente automatizados por agentes de IA y los superindividuos monopolizan la mayoría de los derechos de propiedad de datos de la red y los recursos informáticos efectivos.

El movimiento afirmativo de datos bajo la ola de Web3 ha traído de vuelta la propiedad de datos de todos. De hecho, la mayoría de las personas no necesariamente tienen recursos de datos de alto valor. El retorno de la propiedad de datos se ha convertido en un atractivo político de la narrativa Web3, pero ignora el AGI. La estructura de producción es desigual, lo que representa AI-Agents es que si bien la IA es superproductividad, también está construyendo una nueva relación de producción de interacción humano-computadora y colaboración automática, lo que nos obliga a remodelar la lógica narrativa de Web3. ;

Acelera la construcción del metaverso

A partir del desarrollo y la evolución de los Agentes Generativos, la exploración de los residentes digitales nativos digitales y la construcción de una serie de actividades sociales en el entorno del metaverso de los humanos digitales nativos (Agentes de IA con características de personalidad y conciencia autónoma), de hecho, está acelerando el metaverso. El universo ha evolucionado de un espacio digital a un territorio digital con funciones y formas sociales. El concepto de espacio informático también permitirá a los Agentes obtener un espacio de desarrollo multimodal digital, acelerando así el surgimiento de la inteligencia incorporada de los Agentes en el entorno digital.

La construcción del metaverso ya no es tarea de los seres humanos, sino la tarea de autoexpansión continua como el espacio vital de AI-Agent;

Tenga cuidado con el secuestro de una sola narrativa tecnológica

De hecho, en los últimos años, han surgido varios focos tecnológicos uno tras otro, y la humanidad parece haber entrado en un período de frecuentes revoluciones tecnológicas. De hecho, las tres narrativas de Metaverse, Web3 y AGI han surgido una tras otra, lo que ha de hecho creó mucho para las personas en la elección de direcciones de carrera Debido al hecho de que la mayoría de las personas en el mercado están orientadas al pensamiento basado en proyectos, el posicionamiento del proyecto en sí puede atribuirse fácilmente a una categoría específica, como Web3 o AI. Aquí es donde el asno decide la cabeza, ignorando la tecnología La ley objetiva del desarrollo de la historia.

**El desarrollo de la ciencia y la tecnología nunca ha sido fragmentado, sino que se ha movido hacia la integración interdisciplinaria en una unidad dialéctica. **Por ejemplo, el atributo narrativo NFT de Web3 está naturalmente en línea con la narrativa del Metaverso. En los primeros días de Web3, algunas personas se opusieron deliberadamente a los dos. Estas son perspectivas muy estrechas. Lo mismo es cierto para la narrativa AGI de hoy. Los practicantes de Web3 solo conocen las herramientas de IA, pero no piensan profundamente en la lógica narrativa de AGI. Deliberadamente crearán una resistencia cognitiva entre AI y Web3. Por ejemplo, la comprensión de DAO de muchas personas de Web3 está en el original Pocas personas tienen el coraje de detenerse y repensar la influencia de AGI en DAO.

Web3, Metaverse y AGI son tres direcciones altamente relacionadas. Las organizaciones de medios tradicionales de tecnología dominante o las instituciones de inversión aún no han establecido un nuevo concepto de paradigma para las narrativas tecnológicas futuras y han estado utilizando viejos paradigmas narrativos para influir en el mercado. Los recursos de la ciencia y los profesionales de la tecnología en esta dirección están dispersos y sus ideas no son lo suficientemente abiertas. No descartamos que en el futuro sigan surgiendo nuevas narrativas tecnológicas, pero si se sigue adoptando el viejo paradigma de las narrativas tecnológicas, los recursos de talentos científicos y tecnológicos solo se dividirán y dispersarán una y otra vez. de la cognición tecnológica es un recurso de desecho de cosas invisibles.

Una pregunta clave que enfrenta actualmente toda la industria tecnológica china es ¿qué es la tecnología? Hay una falta de nuevos paradigmas narrativos, y no hay nuevos conceptos narrativos que nos guíen para lidiar mejor con la próxima ola de tecnología. Siempre estamos inmersos en proyectos, pero nos faltan narrativas que puedan condensar el poder de la ciencia y la tecnología.Ni las tres grandes narrativas de Web3, Metaverse y AGI se originaron en China.

Tengo muchas ganas de marcar el comienzo de una era en la que cien flores florezcan y cien escuelas de pensamiento compitan en narrativas científicas y tecnológicas. Necesitamos urgentemente formar una nueva comprensión de las narrativas tecnológicas, para que podamos encontrar el camino correcto para el desarrollo y determinar nuestra posición de desarrollo sostenible en todo el ecosistema tecnológico.

Por supuesto, apelar solo es inútil, y alguien todavía necesita hacerlo, así que lo haré primero, ¡y he soportado este pensamiento narrativo de tecnología única durante mucho tiempo!

Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)