Dirigido por el equipo de Tsinghua, salió la primera prueba de referencia sistemática del agente de IA

2023-08-09 02:18:36

Los agentes de IA, o agentes inteligentes autónomos, no solo son súper asistentes humanos en películas de ciencia ficción como Jarvis, sino que también han sido un centro de investigación en el campo de la IA en el mundo real. En particular, la aparición de grandes modelos de IA representados por GPT-4 ha llevado el concepto de agentes de IA a la vanguardia de la tecnología.

En la anteriormente popular "ciudad virtual" de Stanford, 25 agentes de IA crecieron libremente en la ciudad virtual y celebraron una fiesta del Día de San Valentín; el modelo de agente encarnado Voyager propuesto por Nvidia y otros también aprendieron en "Mi mundo" Varias habilidades de supervivencia han creado sus propias mundo; además, AutoGPT, BabyAGI y AgentGPT, que pueden completar tareas de forma independiente, también han despertado un gran interés y acalorados debates entre el público.

Incluso Andrej Karpathy, exdirector de IA de Tesla y que regresa a OpenAI, reveló en un evento de desarrolladores que cada vez que haya un nuevo documento de agente de IA, OpenAI estará muy interesado y tendrá una discusión seria**.

Aunque la investigación actual sobre agentes de IA es extremadamente candente, Actualmente, la industria de IA carece de un punto de referencia sistemático y estandarizado para evaluar el nivel de inteligencia de los LLM como agentes.

Con este fin, un equipo de investigación de Tsinghua University, Ohio State University y University of California, Berkeley propuso la primera prueba comparativa sistemática: AgentBench, para evaluar a los LLM como agentes en varios desafíos y rendimiento del mundo real (como habilidades de razonamiento y toma de decisiones) en 8 entornos diferentes.

Los resultados muestran que los principales modelos de lenguaje comercial, como GPT-4, funcionan bien en entornos complejos, con una ventaja significativa entre los modelos de código abierto. Con este fin, el equipo de investigación sugiere que se necesitan más esfuerzos para mejorar las capacidades de aprendizaje de los LLM de código abierto.

Se ha publicado un artículo de investigación relacionado titulado "AgentBench: uating LLMs as Agents" en el sitio web de preimpresión arXiv. Además, conjuntos de datos, entornos y paquetes de evaluación integrados relacionados también se han publicado en GitHub.

Primer punto de referencia sistemático

En investigaciones y prácticas anteriores, se han utilizado entornos de juegos basados en texto para la evaluación de la agencia del lenguaje. Sin embargo, a menudo están limitados por espacios de acción discretos y cerrados, y su atención se centra principalmente en las capacidades de los modelos basadas en el sentido común.

Algunos intentos recientes de agentes incorporados emplean simuladores multimodales complejos basados en juegos, interfaces gráficas de usuario (GUI) y escenas interiores. Sin embargo, a pesar de la complejidad de estos simuladores, no pueden reflejar con precisión el uso de LLM en casos de uso del mundo real, y su naturaleza multimodal también plantea obstáculos para la evaluación rápida de LLM de texto sin formato.

Además, la mayoría de los puntos de referencia de los agentes se centran en un solo entorno, lo que limita su capacidad para proporcionar una descripción general completa de los LLM en diferentes escenarios de aplicación.

En este trabajo, el equipo de investigación trabajó en sistema operativo (SO), base de datos (DB), gráfico de conocimiento (KG), juego de cartas (DCG), adivinación de escenarios (LTP), decoración del hogar (Alfworld), compras en línea (WebShop) ) y navegación web (Mind2Web) ** Se evaluaron exhaustivamente 25 modelos de lenguaje diferentes (tanto modelos basados en API como de código abierto) utilizando AgentBench en 8 tareas de entorno diferentes.

Los resultados de las pruebas muestran que los modelos de última generación como GPT-4 son capaces de manejar una amplia variedad de tareas del mundo real, mientras que la mayoría de los LLM de código abierto funcionan mucho peor que los LLM basados en API en AgentBench; incluso, el más capaz También existe una brecha de rendimiento significativa entre el modelo de código abierto openchat-13b-v3.2 y gpt-3.5-turbo.

Aunque a través de una amplia capacitación en alineación, los LLM no solo pueden dominar las tareas tradicionales de PNL, como la respuesta a preguntas, el razonamiento en lenguaje natural y el resumen de texto, sino que también demuestran la capacidad de comprender las intenciones humanas y ejecutar instrucciones, pero se desempeñan mal en tareas de AgentBench como la efectividad de la acción. , contexto largo, consistencia de múltiples rondas y entrenamiento de código) el rendimiento está relativamente rezagado.

Según el equipo de investigación, se necesita más trabajo en el futuro para realizar evaluaciones más rigurosas y sistemáticas, y para proporcionar potentes herramientas de código abierto para facilitar dichas evaluaciones, como la mejora continua de AgentBench para que sea más completo e inclusivo. y establecer un sistema de evaluación más sistemático para los LLM, etc.

La carrera hacia los agentes de IA "autónomos" está arrasando en Silicon Valley

La continua evolución de los grandes modelos de IA ha dado lugar al nacimiento de nuevos asistentes. La carrera por los agentes de IA "autónomos" actualmente está alimentando un frenesí en Silicon Valley. No solo ha atraído a desarrolladores individuales, sino que también han participado activamente empresas gigantes como Microsoft y Alphabet, la empresa matriz de Google, así como muchas empresas emergentes.

Tomemos como ejemplo la startup Inflection AI, cuyos cofundadores Reid Hoffman y Mustafa Suleyman dijeron en un podcast que están desarrollando un asistente personal que puede actuar como mentor y manejar tareas como organizar créditos de vuelo y asuntos de hoteles.

El desarrollador de la compañía MultiOn, Div Garg, dijo que el objetivo es convertirlo en un amigo personal de IA, similar al asistente virtual "Jarvis". Quieren que este proxy pueda conectarse a servicios individuales.

El CEO de Generalmente Inteligente, Kanjun Qiu, dijo: "Las cosas que son fáciles para los humanos siguen siendo muy difíciles para las computadoras, como programar una reunión para el jefe con un grupo de clientes importantes. Esto requiere capacidades de razonamiento muy complejas, que involucran el acceso a las preferencias de todos, resolver conflictos, mientras que también se matiza cuando se trabaja con clientes”.

Qiu y otros cuatro desarrolladores de agencias predicen que los primeros sistemas que pueden realizar tareas de varios pasos de manera confiable con cierta autonomía estarán disponibles dentro de un año, con un enfoque en verticales como la codificación y el marketing.

El CEO de Microsoft, Satya Nadella, dijo una vez en una entrevista con el Financial Times: "Ya sea Cortana de Microsoft, Alexa de Amazon, Asistente de Google o Siri de Apple, no son lo suficientemente inteligentes como para cumplir con las expectativas iniciales".

**Dejando de lado las preocupaciones existentes, los agentes de IA han demostrado un gran potencial y mercado. **Aunque podemos encontrar algunos desafíos en el proceso de exploración y aplicación, al igual que muchas innovaciones en la historia, a medida que pasa el tiempo, podemos esperar ver que estos agentes de IA aporten beneficios positivos y positivos a la sociedad humana a través de la optimización y la mejora continuas. profunda influencia.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
Gate 2025 Q2 Report Released
9k Popularidad
Gate Derivatives Volume Hits New High
12k Popularidad
CPI Data Incoming
41k Popularidad
4Join Gate VIP to Win MacBook
30k Popularidad
5MicroStrategy Buys More Bitcoin
672 Popularidad
6BTC Hits New High
115k Popularidad
7My Gate Moments
28k Popularidad
8VIP Exclusive Airdrop Carnival
26k Popularidad
9Fed June Meeting Minutes
7k Popularidad
10Gate Alpha Trading Share
15k Popularidad

Anclado