¿Los agentes de inteligencia artificial de los que hablan los peces gordos de Silicon Valley son realmente atractivos o no?

Question

Autor｜Li Han Zhu YueEditar｜CastañasFuente: Jiazi Guangnian![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-6871add7c5-dd1a6f-7649e1) *Fuente de la imagen: Generada por la herramienta de IA Unbounded*Después del gran éxito de ChatGPT, OpenAI ya pasó al siguiente objetivo: los agentes de IA (cuerpo inteligente)."Si un documento propone un método de capacitación diferente, OpenAI se burlará internamente, pensando que todo lo sobramos. Pero cuando salga el nuevo documento de AI Agents, lo discutiremos con mucha seriedad y entusiasmo. ** Gente común, empresarios y los geeks tienen una ventaja sobre empresas como OpenAI en términos de creación de agentes de IA.**”, dijo Andrej Karpathy, cofundador de OpenAI y exdirector de TeslaAI.El discurso público de Karpathy ha añadido mucho calor a los agentes de IA. Pero su juicio no es excluyente.Ya en marzo, AutoGPT ganó 74 000 estrellas en GitHub y rápidamente se convirtió en el proyecto de código abierto con el número de estrellas de más rápido crecimiento en la historia; BabyAGI y AgentGPT, que se lanzaron más tarde, surgieron como hongos: pedir pizza, organizar buzones de correo, crear blogs, e incluso organiza una fiesta de San Valentín...Cada vez aparecen más agentes de IA en varias escenas de la vida de las personas, y la locura se está extendiendo rápidamente desde Silicon Valley.Los tecnólogos, que se ejecutan automáticamente y funcionan de forma independiente, tienen grandes expectativas de los agentes de IA, que los consideran una "herramienta de productividad que cambia la sociedad". Algunas personas incluso lo consideran como "el comienzo de la era de la inteligencia artificial general (AGI)".Pero las voces no pueden ocultar los problemas existentes."Un modelo grande es el requisito previo para los agentes de IA. Solo con una base de hardware lo suficientemente buena podemos desarrollar agentes de IA", dijo Dai Yusen, socio gerente de ZhenFund, a "Jiazi Guangnian".Estrictamente hablando, solo ChatGPT tiene una gran base de modelos "calificados" en el mercado. Restringido por el poder de cómputo del modelo, todavía falta terreno para el desarrollo de agentes de IA en China.El futuro es brillante, pero la realidad es cruel. La investigación y el desarrollo de tecnología y el capital de riesgo están en pleno apogeo. Nadie sabe cuándo llegará realmente el período de dividendos de los agentes de IA con la ola de modelos grandes. Pero lo cierto es que el cambio ha comenzado silenciosamente.## **1.Agentes AI: "asistentes digitales" que te ayudan a hacer cosas**En lugar de tratar a AI Agents como una versión mejorada de ChatGPT, es más apropiado considerarlo como un "asistente digital" para humanos.No solo te dice "cómo hacerlo", sino que también "te ayuda a hacerlo". Como medio, los agentes de IA reemplazan a los humanos e interactúan repetidamente con modelos de lenguaje grande (LLM) como GPT. Siempre que se proporcione un objetivo, puede simular un comportamiento inteligente, crear tareas de forma autónoma, volver a determinar la prioridad de la lista de tareas, y completar tareas La primera tarea, y bucle hasta que se logre el objetivo.**A diferencia de la inteligencia artificial tradicional, los agentes de IA** pueden operar de forma independiente sin control humano. **Al acceder a la API, los agentes de AI pueden incluso navegar por la web, usar aplicaciones, leer y escribir archivos, pagar con tarjetas de crédito y más.**En pocas palabras, solo necesita darle un objetivo y la IA** **Los agentes pueden hacer el resto. Por ejemplo, el agente de inteligencia artificial desarrollado por HyperWrite puede ordenar pizza automáticamente a través del programa de control del navegador Chrome. **![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-0dde3def20-dd1a6f-7649e1) Fuente: Cuenta de Twitter del CEO de HyperWrite, Matt ShumerEste tipo de imaginación no es difícil de poner en películas de ciencia ficción, pero en el proceso de exploración de la inteligencia artificial ha durado casi medio siglo.Ya en la década de 1980, los informáticos comenzaron a explorar cómo desarrollar un software inteligente que pudiera interactuar como un ser humano. Sin embargo, debido a las limitaciones de datos y potencia informática, los agentes de IA carecen de las condiciones realistas necesarias.Joon Park, un doctorado en informática de la Universidad de Stanford, dijo una vez en una entrevista: "Hemos estado trabajando en esa dirección, pero todos los métodos en las últimas décadas ni siquiera se han acercado a lo que estamos logrando ahora". con LLM... Por eso nos olvidamos de esa visión, pero cuando apareció LLM, nos dimos cuenta de que había una oportunidad”.El gran modelo de lenguaje es el cerebro central de AI Agents. Al desmantelar tareas complejas, los requisitos complejos del usuario se pueden desarmar en métodos de tareas alcanzables.Por un lado, el entrenamiento de grandes modelos se construye sobre la base de Internet y contiene una gran cantidad de datos de comportamiento humano, lo que constituye los elementos clave para construir agentes de IA creíbles.Por otro lado, con una capacidad de conocimiento considerable, el modelo grande emerge con una excelente capacidad de aprendizaje del contexto y capacidad de razonamiento. Al establecer una cadena de pensamiento para realizar el pensamiento continuo y la toma de decisiones del modelo, los agentes de IA pueden analizar problemas complejos y desarmarlos en subtareas simples y detalladas.Al mismo tiempo, el uso del lenguaje como medio por parte de LLM también ha cambiado la forma de interacción del front-end. Wen Yongteng, jefe de la pista de aplicaciones de IA de BV Baidu Ventures y vicepresidente de inversiones, dijo a "Jiazi Guangnian": "BV Baidu Ventures comenzó a prestar atención al desarrollo de los agentes de IA desde muy temprano. A través de la investigación y el juicio, Creo que la interfaz gráfica de usuario (GUI) original es posible transformarla en una interfaz de usuario de idioma (LanguageUI), y la aplicación frontal de los agentes de IA existirá en todas las formas frontales que puedan interactuar con los humanos".Es solo una tarea de desmantelamiento, y está lejos de ser inteligente. **IA impulsada por LLM** **Los agentes no pueden prescindir de tres componentes clave:*** **Planificación: **Descomponer tareas a gran escala en subobjetivos más pequeños y manejables; reflexionar y refinar, analizar, resumir y refinar comportamientos pasados para mejorar su inteligencia y adaptabilidad, mejorar la calidad del resultado final.* **Memoria (Memory): **Memoria a corto plazo, aprendizaje contextual; memoria a largo plazo, la capacidad de almacenar y recuperar información ilimitada durante mucho tiempo, generalmente lograda a través del almacenamiento de un portador externo y una recuperación rápida.* **Uso de la herramienta:** puede aprender a llamar a API externas para obtener información adicional que falta en los pesos del modelo.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-c089219548-dd1a6f-7649e1) Descripción general de AI Agent impulsado por LLM, fuente de la imagen: blog personal de Lilian WengCon la cooperación de los tres componentes, los agentes de IA no solo pueden pensar como humanos, sino también actuar como humanos.Al igual que los humanos, cuando se involucran en tareas complejas, a menudo hay un proceso de razonamiento entre cada paso. Los agentes de IA también utilizarán componentes ReAct (una biblioteca de Java para crear interfaces de usuario) para combinar estrechamente las capacidades de razonamiento de modelos grandes con decisiones de comportamiento, de modo que los modelos de lenguaje puedan planificarse y organizarse lógicamente en función del conocimiento.El marco Reflexion proporciona a los agentes de IA memoria dinámica y capacidades de autorreflexión. El fortalecimiento de los agentes de lenguaje a través de la retroalimentación del lenguaje en lugar de actualizar los pesos le permite mejorar las decisiones de acción pasadas y corregir los errores del pasado para mejorar continuamente su desempeño.En el proceso de adquisición, almacenamiento, retención y recuperación de información, los agentes de IA también intentan imitar la composición de la memoria humana y construir un sistema de memoria eficiente.Simulando la forma de la memoria humana, los agentes de IA expresarán la memoria sensorial, la memoria a corto plazo y la memoria a largo plazo como la incrustación de aprendizaje de la entrada original (como texto, imagen, etc.), el aprendizaje contextual y el almacenamiento externo de vectores. . Las tareas y los resultados se almacenan en el módulo de memoria, y cuando se recupera la información, la información almacenada en la memoria se devuelve al diálogo con el usuario, creando así un contexto más ajustado.Uno de los rasgos humanos más distintivos es el uso y creación de herramientas. Al estar equipados con herramientas externas y usar API para llamar a varias interfaces, los agentes de IA pueden simular el uso humano de herramientas para completar tareas más complejas.Aunque el nivel técnico no está del todo maduro, todavía se están resolviendo cuestiones como la gestión de datos y la memoria a largo plazo. Sin embargo, la capacidad de los agentes de IA para ejecutar de forma autónoma, optimizar iterativamente y "manos libres" también hace que sea inevitable volverse popular.## ** 2. Reemplazando a LLM, los agentes de IA se convierten en el próximo punto de acceso de IA **El nacimiento de ChatGPT ha dado cuenta de la función de la IA al tener múltiples rondas de conversaciones con humanos y proporcionar información y sugerencias. La introducción de Copilot ha permitido a AI asumir la capacidad de completar el primer borrador de trabajo para humanos, como Github Copilot, Microsoft 365 Copilot y Midjourney, que se han convertido en el "copiloto inteligente" de las personas en los campos de programación, trabajo de oficina, y generación de imágenes.Dígale a una IA que haga una tarea, y la hará: escriba una copia, responda una pregunta o genere una foto que sea difícil para el ojo humano distinguir si es real o falsa. Al mismo tiempo, las personas a menudo necesitan proporcionar indicaciones claras y específicas para cada paso de la IA.En este momento, la IA es como un interno que acaba de llegar, no tiene experiencia y necesita que se le enseñe a mano. Sin embargo, ¿qué sucede si desea un buen empleado que obedezca las órdenes, resuelva las dificultades de ejecución por sí mismo y trate de no causar problemas a los demás?En marzo y abril, Camel, AutoGPT, BabyAGI, Westworld Township y otros agentes de IA explotaron juntos, lo que pareció hacer que la gente viera tal posibilidad.Desde AutoGPT de código abierto de Significant Gravitas en marzo, dentro de los dos meses posteriores a su lanzamiento, AutoGPT ha recibido 130,000 estrellas en GitHub, lo que lo convierte en el proyecto de código abierto de más rápido crecimiento en la historia.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-3abb85fe26-dd1a6f-7649e1) Ciudad de Westworld creada por la Universidad de StanfordFuente de la imagen: Artículo "Agentes generativos: simulacros interactivos del comportamiento humano"Andrej Karpathy dijo una vez en Twitter: "La próxima frontera de la ingeniería rápida (ingeniería) son los AutoGPT". Hasta ahora, AutoGPT ha obtenido más de 140.000 estrellas en la plataforma de alojamiento de código Github, ocupando el puesto 25 en la historia.El cofundador y director ejecutivo de OpenAI, Sam Altman, ha declarado en varias ocasiones que la era de construir grandes modelos de IA ha terminado y que los cuerpos inteligentes son el desafío.En un artículo que presenta a los agentes autónomos, el autor, Matt Schlicht, cofundador y director ejecutivo de Octane AI (un proveedor de plataformas de marketing de datos), recopiló los puntos de vista y las opiniones de más de cien personas de la industria, la academia y los círculos de inversión. Expertos de grandes empresas como Meta, Nvidia, Stability AI o nuevas empresas de IA, así como miembros de la facultad de Stanford CS e inversores en IA, incluido Hugging Face, la mayoría de ellos expresaron sus expectativas y perspectivas sobre el potencial de los agentes de IA, incluso se llama "AGI bruto".Tomando el relevo de los grandes modelos, los agentes de IA parecen convertirse en la próxima gran novedad en IA.Pero al mismo tiempo, las voces de oposición son interminables.El ganador del premio Turing, Yoshua Bengio, mencionó en su publicación de blog "Cómo aparece la IA que daña a los humanos", publicada en mayo de este año, que los humanos pueden controlar las tareas generales y los objetivos de los agentes de IA, pero eso no significa que los humanos puedan controlar los agentes de IA en virtud de Para las subtareas y subobjetivos descompuestos por la propia inteligencia, a menos que la investigación sobre la alineación de la IA haga un gran avance, los seres humanos no tendrán una fuerte garantía de seguridad.La aparición colectiva de agentes inteligentes, la persecución y las dudas de los grandes jefes, la ola de agentes de IA es rápida y caliente.Sin embargo, AI Agents no es un término nuevo en el círculo de la inteligencia artificial.En 2014, el Go AI AlphaGo lanzado por DeepMind es en realidad una especie de agentes de IA. Similar a este es el OpenAI Five lanzado por OpenAI en 2017 para jugar "Dota2", y en 2019 DeepMind anunció AlphaStar para jugar "StarCraft 2".La tendencia de la industria en ese momento era entrenar y mejorar los agentes de IA a través del aprendizaje por refuerzo, que se usaba principalmente en escenarios de juegos, especialmente en algunos juegos de confrontación con ganadores y perdedores obvios. Pero es una pregunta abierta si uno quiere lograr generalidad en el mundo real.En los años siguientes, OpenAI recurrió a modelos de lenguaje a gran escala, y la serie GPT se lanzó una tras otra. Los modelos a gran escala se convirtieron en la pista para que varios fabricantes de tecnología se precipitaran. También es el desarrollo de modelos a gran escala. que permiten a los agentes de IA romper el cuello de botella y volver a desarrollar la oportunidad.En comparación con estar limitados a escenarios de juego hace unos años, ¿qué pueden lograr los agentes de IA sobre la base de modelos grandes? Wen Yongteng, jefe de la pista de aplicaciones de IA de BV Baidu Ventures y vicepresidente de inversiones, dijo a "Jiazi Guangnian": "Lo que hemos visto no es solo que el progreso tecnológico ha mejorado en gran medida la capacidad de la IA para comprender las intenciones de los usuarios, recopilar información y realizar tareas Más importante aún, los agentes de IA son totalmente capaces de reconstruir el futuro ecosistema de aplicaciones ".Poco después del lanzamiento de AutoGPT, muchos internautas utilizaron AutoGPT para crear asistentes personales automatizados. Por ejemplo, Udit Goenka, fundador y director ejecutivo de FirstSales.io, publicó que usó AutoGPT para crear un motor de prospección que puede buscar empresas que recibieron una ronda inicial de inversión el año pasado y describir los detalles de la creación de una lista.Yew Jin Lim, ingeniero de software de Google, dijo que usó AutoGPT para crear un asistente de correo electrónico que envía los detalles de las tareas a los agentes de IA por correo electrónico.Dai Yusen, socio gerente de ZhenFund, dijo a "Jiazi Guangnian": "El agente es una dirección que realmente puede mejorar enormemente la productividad, porque si las personas aún hacen cosas, las personas siempre estarán limitadas"."Los AI Agents se convertirán en una herramienta de productividad en la vida y el trabajo diarios". Matt Schlicht escribió: "Desde la gestión de cuentas de redes sociales, la inversión en el mercado, hasta la publicación de los mejores libros para niños, los AI Agents existirán en todas las industrias y todas las tareas. eso se puede imaginar." Por ejemplo, aomni es un agente de IA que puede buscar información sobre cualquier tema en Internet, y completará los objetivos del usuario uno por uno creando una lista.Además de las necesidades de productividad, el AI Agent Pi personal de Inflection AI proporciona otra posible dirección de aplicación.A diferencia del posicionamiento de ChatGPT y la inteligencia artificial general de Claude, Pi se enfoca en un EQ alto, el compañerismo emocional y el valor emocional. Pi también recordará las conversaciones históricas con los usuarios, además de participar y ayudar en el trabajo y la vida de las personas, también aprenderá a contactar a amigos y familiares para establecer conexiones con los usuarios. En la actualidad, Inflection AI ha recibido más de 1500 millones de dólares estadounidenses en inversión, superando a Anthropic y solo superado por OpenAI.## **3. ¿Serán los agentes de IA la próxima tendencia? **"Construyendo una especie de JARVIS (edificio similar a JARVIS)", este es el último perfil actualizado de Andrej Karpathy en Twitter, JARVIS es un asistente de inteligencia artificial del superhéroe de Marvel Iron Man, quien tiene la capacidad de pensar de forma independiente y puede ayudar al dueño a manejar diversos asuntos y calcular diversa información.La introducción de Karpathy también significa que se ha disparado el pistoletazo de salida de la ruta de los agentes de IA.El medio extranjero "The Information" señaló que Sam Altman les había dicho en privado a algunos desarrolladores en mayo que OpenAI esperaba hacer de ChatGPT un asistente de trabajo personal, y una persona familiarizada con el asunto señaló que **OpenAI ha estado prestando atención a cómo usar chatbots para crear IA autónoma** **Agentes, es probable que se implementen funciones relacionadas en el asistente ChatGPT. **Coincidentemente, Meta también ve una oportunidad para los agentes de IA.En abril, Zuckerberg les dijo a los inversores que Meta vio una "oportunidad de presentar agentes de inteligencia artificial a miles de millones de personas de una manera útil y significativa", pero no especificó aplicaciones específicas en este momento.Y en una reunión general con empleados en junio, Zuckerberg anunció una serie de tecnologías en varias etapas de desarrollo, una de las cuales traería agentes de IA con diferentes personalidades y habilidades para ayudar o entretener, inicialmente principalmente para Messenger y WhatsApp.**En China, la IA** **Los productos relacionados con los agentes también han nacido uno tras otro. **En el sitio de WAIC a principios de julio, Alibaba Cloud lanzó su primer cuerpo inteligente, ModelScopeGPT, para la comunidad de desarrolladores, y lanzará una serie de cuerpos inteligentes en el futuro para hacer frente a varios escenarios de aplicaciones. ****Huawei también está involucrado en este campo, pero se enfoca más en Embodied AI (Embodied AI), es decir, la combinación de modelos grandes y robots. **Además de los grandes fabricantes, AI Agents también es una oportunidad para los emprendedores. El cofundador de OpenAI, Karpathy, mencionó específicamente en su discurso anterior: "La gente común, los empresarios y los geeks tienen más ventajas en la creación de agentes de IA que empresas como OpenAI".Wen Yongteng, director de la pista de aplicaciones de IA de BV Baidu Venture Capital y vicepresidente de inversiones, dijo que el equipo de BV también es actualmente optimista sobre las oportunidades para las empresas emergentes en el campo de los agentes de IA."El futuro ecosistema de aplicaciones estará diversificado, en lugar de dominado por un solo gigante. El surgimiento de AI Agents ha brindado la oportunidad de un cambio de paradigma, y muchas aplicaciones tradicionales enfrentan la posibilidad de ser interrumpidas. En este proceso, las nuevas empresas están muchas oportunidades para abrir nuevos campos. Para cada tarea específica, AI Agents tiene mucho espacio para la optimización, incluida la construcción de algoritmos y servicios específicos, datos de usuario y diseño de productos. Las empresas emergentes pueden establecer una ventaja de diferenciación"."Además, la ecología actual de los Agentes de IA no es lo suficientemente clara, lo que brinda oportunidades de desarrollo favorables para las empresas emergentes, porque no necesitan competir bajo una regla establecida. Desde esta perspectiva, las empresas emergentes y las grandes empresas están parados en la misma línea de partida, las nuevas empresas son más flexibles y pueden ajustar rápidamente sus productos”.Basándose en el conocimiento acumulado a lo largo de los años en el campo de la inteligencia artificial, BV Baidu Ventures no cree que las empresas modelo monopolicen las oportunidades en la capa de aplicación. Porque para las empresas modelo subyacentes, la importancia de construir una ecología es mucho mayor que monopolizar una aplicación. Si las empresas modelo subyacentes adoptan una estrategia exclusiva para obtener una ventaja competitiva en la capa de aplicación, pueden dañar su propia ecología. Las empresas modelo subyacentes pueden crear Agentes de IA fuertes en una o dos áreas en las que se enfocan, pero no necesariamente tienen que competir con las nuevas empresas en todas las áreas.** La ecología que aún no se ha determinado, la arena que aún no se ha formulado, y todos están de vuelta en la misma línea de partida. **Pero es innegable que hasta ahora, aparte de muchas demostraciones, AI Agents no ha aparecido como un producto real.Dai Yusen, socio gerente de ZhenFund, comparó el grado de cooperación entre la IA y los humanos con las diferentes etapas de la conducción autónoma, y AI Agents es como la etapa L4 de la conducción autónoma. Pero al igual que L4, los agentes de IA son fáciles de imaginar y demostrar, pero difíciles de realizar. La aplicación real de los agentes de IA aún se encuentra en un futuro incierto.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-cf43693e76-dd1a6f-7649e1) El grado de cooperación entre la IA y los humanos se compara con las diferentes etapas de la conducción autónoma.Fuente de la imagen: cuenta instantánea de Dai Yusen @yusenDai Yusen enfatizó que para realizar agentes de IA utilizables, la capacidad de los modelos grandes debe mejorarse en gran medida.Incluso para el OpenAI de nivel superior, todavía hay mucho margen de mejora en términos de retraso y rendimiento."Si usa una máquina de vapor como analogía, el vapor solo se puede producir cuando el agua se calienta a 100 grados. Si la inteligencia de los agentes de IA no ha alcanzado un cierto nivel, el agua solo se calienta a 50 grados. Incluso si mucho de energía se ha gastado, todavía no se puede producir vapor. Es 0".El pistoletazo de salida para la pista de AI Agents ya ha comenzado, pero definitivamente no es un sprint de unos pocos meses, sino un maratón de larga distancia que está destinado a durar varios años, o incluso diez años.