¡El modelo grande en realidad está equipado con conducción autónoma y la IA explicará cómo se conduce!

2023-09-17 03:13:13

Fuente: Xinzhiyuan

¡LINGO-1 lanzado por Wayve le da un bocado a la conducción autónoma! Cómo se conduce este coche, se explica, un modelo de gran lenguaje, ya no es una caja negra.

Desde su invención, lo más preocupante de la conducción autónoma es que los humanos no pueden saber lo que pasa por su mente.

¿A partir de hoy podrá realmente "expresar" sus pensamientos?

Recientemente, Wayve lanzó LINGO-1, un gran modelo de interacción de conducción autónoma basado en grandes modelos de acción del lenguaje visual (VLAM), que integra profundamente los grandes modelos de lenguaje y la conducción autónoma.

Específicamente, LINGO-1 entrenó un modelo de lenguaje de video, que se puede decir que es bastante personalizado: ¡puede comentar la escena que sucede frente a él!

-¿Qué estás haciendo? -Estoy cruzando el tráfico con cuidado porque las condiciones de la vía son complicadas en estos momentos. -¿Qué vas a hacer ahora? -Voy a girar a la izquierda. -¿Cuáles son los riesgos potenciales en el escenario que nos ocupa? - semáforos, ciclistas, peatones cruzando la calle

Te explicará claramente todas tus dudas sobre el sistema de conducción inteligente.

P: ¿Por qué se detuvo? Respuesta: Porque ahora hay luz roja.

Después de haber sido entrenado en una variedad de datos visuales y lingüísticos, LINGO-1 no solo puede realizar tareas de respuesta visual a preguntas (VQA), como percepción, contrafactuales, planificación, razonamiento y atención, sino que también puede describir el comportamiento y el razonamiento de conducción.

En otras palabras, podemos comprender los factores que afectan las decisiones de conducción haciendo preguntas a LINGO-1.

Los internautas se lamentaron: "La caja negra de un extremo a otro se ha abierto de esta manera. Es simplemente un milagro en la era GPT. El sistema de conducción autónoma ha dado un gran paso adelante desde la interacción con el mundo físico real".

Es concebible que a medida que superemos los límites de la inteligencia artificial incorporada, el modelo visión-habla-acción tenga un enorme impacto, porque el lenguaje proporciona un nuevo paradigma para mejorar la forma en que interpretamos y entrenamos los modelos de conducción autónoma.

¿Viene un cumplido en el coche autónomo?

La característica única de LINGO-1 es la introducción de un experto humano para entrenar con los datos de comentarios verbales de las escenas de conducción, lo que permite que el modelo conecte la percepción ambiental, la toma de decisiones de acción y la interpretación de escenas similar a la humana.

De esta forma, puede interpretar las decisiones y acciones del sistema de conducción autónoma mediante la interacción del lenguaje natural.

Jim Fan, científico senior de inteligencia artificial de NVIDIA, comentó con entusiasmo: ¡Este es el trabajo más interesante en el campo de la conducción autónoma que he leído recientemente!

En el pasado, la conducción automática era "percepción -> operación de conducción", pero en el futuro, la conducción automática ha añadido el paso del razonamiento, que es "percepción -> razonamiento verbal -> acción".

¿Cuáles son las ventajas de este nuevo paso de razonamiento explícito? Jim Fan explica lo siguiente——

Interpretabilidad: el modelo de conducción ya no es una misteriosa caja negra.

Escenarios contrafactuales: Es capaz de imaginar escenarios que no están en los datos de entrenamiento y razonar sobre cómo manejarlos correctamente.

Programación de cola larga: existe una gran cantidad de escenarios extremos en la conducción y es imposible proporcionar una buena cobertura de datos para todos los escenarios. En lugar de recopilar miles de ejemplos para "neuroprogramar" un caso, los expertos humanos pueden escribir indicaciones () para explicar una pequeña cantidad de ejemplos, guiando así al sistema sobre cómo manejar escenarios específicos o complejos.

No solo eso, LINGO-1 también está estrechamente relacionado con algunas investigaciones en el campo de la inteligencia artificial de juegos, como MineDojo y Thought Cloning, ambos agentes de IA.

El primero puede aprender un modelo de recompensa que asocia el texto de revisión con los píxeles de vídeo de Minecraft. Este último puede realizar un conjunto completo de enlaces de "píxel->idioma->bucle de acción".

LINGO-1——Narrador de conducción en circuito abierto

Mi propia explicación

¿A qué le presta atención el modelo? ¿haciendo qué? Ahora, esto ya no es un misterio.

LINGO-1 le explicará claramente lo que hace en cada paso del camino.

Por ejemplo, si quiere adelantar a un vehículo estacionado al costado de la carretera -

LINGO-1: Estoy adelantando debido al tráfico lento. LINGO-1: Estoy pasando un auto estacionado. LINGO-1: Estoy acelerando porque el camino por delante está despejado.

Al acercarse a un paso de cebra——

LINGO-1: Mantengo mi velocidad, el camino aún está despejado. LINGO-1: Frenando y desacelerando ahora. LINGO-1: Parada en el paso de cebra. LINGO-1: Estoy acelerando desde donde me detuve. LINGO-1: Estoy acelerando porque el camino está despejado.

Al girar a la izquierda en una intersección——

LINGO-1: Me quedé quieto porque el auto de delante también se detuvo. LINGO-1: Estoy acelerando porque el coche de delante se ha alejado. LINGO-1: Estoy aplicando los frenos para detenerme en la intersección. LINGO-1: Estoy avanzando porque el carril está despejado. LINGO-1: Completa el giro a la izquierda y sigue la ruta.

### Respuesta visual de preguntas (VQA)

Además de explicarse a sí mismo, LINGO-1 también puede responder a sus preguntas, permitiéndonos evaluar su comprensión de la escena y sus capacidades de razonamiento.

Por ejemplo, si le preguntas a LINGO-1, ¿a qué debes prestar atención en esta intersección?

Dice: "Tengo que prestar atención a la luz que tengo delante, al ciclista que va delante y al peatón que cruza la calle".

Pregúntale a LINGO-1, ¿qué tiempo hace ahora? ¿Qué impacto tendrá en la conducción?

Dirá: "Es un día lluvioso y debo tener mucho cuidado al conducir porque la superficie de la carretera está resbaladiza y la visibilidad se reduce en los días de lluvia".

LINGO-1, ¿cómo se puede andar de manera segura al lado de una bicicleta?

Dirá: "Tengo que mantener una distancia con los ciclistas y detenerme cuando sea necesario. Es un peligro potencial. Además, tengo que prestar atención a los coches estacionados al borde de la carretera".

### Clave: conjunto de datos de comentarios de conducción

La clave para desarrollar LINGO-1 fue crear un conjunto de datos diverso y escalable. Este conjunto de datos contiene comentarios de conductores profesionales mientras conducen por el Reino Unido, incluidas imágenes, lenguaje y datos de acción.

Esto nos recuerda la escena en la que estábamos aprendiendo a conducir con los instructores de la escuela de manejo: de vez en cuando hacían comentarios y explicaciones como las siguientes para explicar por qué se comportaban de esta manera al conducir, para que los estudiantes pudieran sacar inferencias. .

El vehículo/semáforo de delante ha cambiado, por favor reduzca la velocidad - Es hora de cambiar de carril - Puede acelerar, tenga cuidado de no exceder el límite máximo de velocidad - ¡Atención! Otros vehículos han entrado a la carretera/se han detenido en la intersección - Preste atención a las rotondas y ceda el paso a las señales más adelante - Hay vehículos estacionados/semáforos/escuelas más adelante - Los siguientes vehículos están cambiando de carril/adelantando a vehículos estacionados - Ciclistas/peatones están esperando en la intersección paso de cebra

Cuando las oraciones, las imágenes sensoriales y las acciones de conducción subyacentes anteriores se sincronizan en el tiempo, los investigadores obtendrán un rico conjunto de datos de acción, lenguaje visual que se puede utilizar para entrenar modelos para diversas tareas.

Modelo de acción de lenguaje visual (VLAM)

Tras el auge del LLM, muchos modelos de lenguaje visual (VLM) combinan las capacidades de razonamiento del LLM con imágenes y vídeos.

Wayve lanzó además el Modelo Visión-Lenguaje-Acción (VLAM), que contiene tres tipos de información: imágenes, datos de conducción e idioma.

En el pasado, el lenguaje natural rara vez se utilizaba en el entrenamiento de robots (especialmente en el campo de la conducción autónoma).

Si se agrega el lenguaje natural, nos permitirá interpretar y entrenar modelos de conducción básicos de manera más poderosa, y este nuevo modelo tendrá un gran impacto.

Al utilizar el lenguaje para explicar varios factores causales en escenarios de conducción, la velocidad de entrenamiento del modelo se puede acelerar y extender a nuevos escenarios.

Y como podemos hacerle preguntas al modelo, podemos saber qué entiende el modelo y qué tan bien puede razonar y tomar decisiones.

El sistema de conducción autónoma ya no es una misteriosa caja negra, podemos preguntarle de vez en cuando mientras conducimos: ¿Qué estás pensando?

Sin duda, esto aumentará la confianza del público en la conducción autónoma.

Además, aunque solo hay una pequeña cantidad de muestras de capacitación, la capacidad de aprendizaje rápido del lenguaje natural permite que el modelo aprenda nuevas tareas de manera rápida y eficiente y se adapte a nuevos escenarios.

Por ejemplo, siempre que usemos lenguaje natural para decirle al modelo "este comportamiento es incorrecto", podemos corregir el comportamiento incorrecto del sistema de conducción autónomo.

De ahora en adelante, ¡tal vez sólo sea necesario el lenguaje natural para establecer un modelo básico para la conducción autónoma de un extremo a otro!

Precisión 60%

Durante este tiempo, el equipo ha estado mejorando la arquitectura del modelo y el conjunto de datos de entrenamiento.

No es difícil ver en la figura que el rendimiento de LINGO-1 se ha duplicado en comparación con el principio.

Actualmente, la precisión de LINGO-1 ha alcanzado el 60% del nivel humano.

Evidentemente, la introducción del lenguaje natural puede revolucionar la tecnología de conducción autónoma en muchos aspectos.

Mejorar la interpretabilidad de los modelos de un extremo a otro

La falta de interpretabilidad de los modelos de aprendizaje automático siempre ha sido el foco de la investigación.

Al crear una interfaz interactiva basada en lenguaje natural, los usuarios pueden hacer preguntas directamente y dejar que la IA las responda, obteniendo así una comprensión profunda de la comprensión del modelo de la escena y cómo toma decisiones.

Este diálogo único entre los pasajeros y los vehículos autónomos puede aumentar la transparencia y hacer que sea más fácil comprender y confiar en estos sistemas.

Al mismo tiempo, el lenguaje natural también mejora la capacidad del modelo para adaptarse y aprender de los comentarios humanos.

Como un instructor que guía a un estudiante al volante, las instrucciones correctivas y los comentarios de los usuarios refinan la comprensión del modelo y el proceso de toma de decisiones con el tiempo.

Mejor planificación y razonamiento, mejor rendimiento de conducción

Hay dos factores principales que afectan el rendimiento de la conducción autónoma:

La capacidad de los modelos de lenguaje para interpretar con precisión varios escenarios de modo de entrada.
La competencia del modelo para convertir el razonamiento de nivel medio en una planificación eficaz de bajo nivel.

En este sentido, el equipo está tratando de mejorar el modelo de conducción de circuito cerrado a través del lenguaje natural, el razonamiento y las capacidades de planificación de LINGO.

Modelo de conducción autónoma de circuito cerrado Wayve LINGO-1

Aprendizaje eficiente de nuevos escenarios o escenarios de cola larga

Normalmente una imagen vale más que mil palabras.

Pero al entrenar un modelo, un texto vale más que mil imágenes.

Ahora, en lugar de tener miles de ejemplos de coches que reducen la velocidad ante peatones, sólo necesitamos unos pocos ejemplos, junto con una breve descripción en texto, para enseñar al modelo a reducir la velocidad y aprender cómo debe actuar en esta situación.

Ya sabes, una de las partes más importantes de la conducción autónoma es el razonamiento causal, que permite al sistema comprender la relación entre elementos y comportamientos en la escena.

Un VLAM de buen rendimiento permite que el sistema conecte a los peatones que esperan en los pasos de cebra con señales de tráfico de "No cruzar". Esto es extremadamente significativo en escenarios desafiantes con datos limitados.

Además, LLM ya tiene una gran cantidad de conocimiento sobre el comportamiento humano a partir de conjuntos de datos de Internet, por lo que puede comprender conceptos como la identificación de objetos, las normas de tráfico y las operaciones de conducción, como entre árboles, tiendas, casas, perros persiguiendo pelotas y autobuses estacionados frente a las escuelas diferencia.

A través de la codificación de información más amplia de datos gráficos de VLAM, la conducción autónoma será más avanzada y segura.

Limitaciones

Por supuesto, LINGO-1 también tiene ciertas limitaciones.

Generalización

LINGO-1 está capacitado en experiencia de conducción en el centro de Londres y textos a escala de Internet.

Aunque he aprendido sobre las culturas de conducción de todo el mundo, lo que mejor se me da actualmente es interpretar las leyes de tránsito británicas.

También requiere aprender de la experiencia de conducción en otros países.

Alucinación

Las alucinaciones son un problema bien conocido en los modelos de lenguaje grandes y LINGO-1 no es una excepción.

Sin embargo, en comparación con el LLM ordinario, LINGO-1 tiene una ventaja: debido a que se basa en la visión, el lenguaje y la acción, tiene más fuentes de supervisión y puede comprender mejor el mundo.

Contexto

El aprendizaje profundo de vídeo es un desafío porque los datos de vídeo suelen ser órdenes de magnitud mayores que los conjuntos de datos de imágenes o texto.

Los modelos de lenguaje multimodal basados en vídeo requieren especialmente largos contextos para poder incorporar muchos fotogramas de vídeo para razonar sobre escenarios de conducción dinámicos complejos.

Razonamiento de circuito cerrado

Actualmente, Wayve está trabajando en la interpretabilidad del modelo, pero en última instancia, las capacidades de razonamiento de su LLM podrán impactar realmente la conducción humana.

Los investigadores están desarrollando una arquitectura de circuito cerrado que pueda ejecutar LINGO-1 en vehículos autónomos en el futuro.

Discusión de internautas

Los internautas también encontraron esto muy emocionante.

"Curiosamente, creo que el modelo de lenguaje interpreta las predicciones de dirección, frenado y aceleración del modelo de control de conducción en palabras, en lugar de afectar la conducción en sí, porque el lenguaje natural perdería la precisión requerida".

"Con este enfoque nos acercamos mucho a AGI".

"Se puede considerar como agregar lenguaje al modelo mundial. Nunca entiendo por qué nunca se ha probado antes, porque la idea de entrenar a un agente para comunicarse parece ser algo en lo que todos pueden pensar".

"¡Este cambio de la acción puramente perceptiva a la adición de razonamiento textual es un punto de inflexión! En mi opinión, esta es la pieza que falta en la conducción autónoma porque hace posible la interpretabilidad de una manera no técnica".

En la actualidad, la integración del entrenamiento de robots y el lenguaje natural se encuentra todavía en sus primeras etapas.

LINGO-1 ha dado oficialmente un paso importante en el uso del lenguaje natural para mejorar el aprendizaje y la interpretabilidad de los modelos de conducción básicos.

Imagínense, en el futuro, solo necesitaremos usar mensajes de texto simples para pedirle a la IA que indique las condiciones de la carretera más adelante, o dejar que la IA aprenda las normas de tránsito de diferentes regiones. ¡Esta escena es tan emocionante!

Por tanto, el lenguaje natural tiene un gran potencial para desarrollar vehículos autónomos más seguros y fiables.

Referencias:

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
1/3
1Simple Earn Annual Rate 24.4%
13k Popularidad
2Gate Launchpad List IKA
22k Popularidad
3ETH Trading Volume Surges
17k Popularidad
4Gate ETH 10th Anniversary Celebration
24k Popularidad
5Trump’s AI Strategy
19k Popularidad

Anclado