Le grand modèle est effectivement équipé d’une conduite autonome, et l’IA vous expliquera comment il roule !

Source : Xinzhiyuan

LINGO-1 lancé par Wayve donne du fil à retordre à la conduite autonome ! Comment conduire cette voiture, s'explique-t-elle, un grand modèle de langage, ce n'est plus une boîte noire.

Depuis son invention, la chose la plus inquiétante à propos de la conduite autonome est que les humains ne peuvent pas savoir ce qui se passe dans leur esprit.

À partir d'aujourd'hui, peut-il réellement « exprimer » ses pensées ?

Récemment, Wayve a lancé LINGO-1, un grand modèle d'interaction de conduite autonome basé sur de grands modèles d'action linguistique visuelle (VLAM), qui intègre profondément les grands modèles de langage et la conduite autonome.

Plus précisément, LINGO-1 a formé un modèle de langage vidéo, que l'on peut dire assez personnalisé : il peut commenter la scène qui se passe devant lui !

-Qu'est-ce que tu fais ? -Je traverse la circulation prudemment car les conditions routières sont compliquées en ce moment. -Qu'est-ce que tu vas faire ensuite ? -Je vais tourner à gauche. -Quels sont les risques potentiels dans le scénario considéré ? - feux tricolores, cyclistes, piétons traversant la route

Il vous expliquera clairement tous vos doutes concernant le système de conduite intelligente.

Q : Pourquoi ça s’est arrêté ? Réponse : Parce que c'est un feu rouge maintenant.

Après avoir été formé sur une variété de données visuelles et linguistiques, LINGO-1 peut non seulement effectuer des tâches de réponse visuelle aux questions (VQA) telles que la perception, les contrefactuels, la planification, le raisonnement et l'attention, mais également décrire le comportement de conduite et le raisonnement.

En d’autres termes, nous pouvons comprendre les facteurs qui affectent les décisions de conduite en posant des questions à LINGO-1.

Les internautes ont déploré : « La boîte noire de bout en bout a été ouverte de cette manière. C'est tout simplement un miracle à l'ère du GPT. Le système de conduite autonome a fait un grand pas en avant par rapport à l'interaction avec le monde physique réel.

Il est concevable qu’à mesure que nous repoussons les limites de l’intelligence artificielle incarnée, le modèle vision-parole-action aura un impact énorme, car le langage fournit un nouveau paradigme pour améliorer la façon dont nous interprétons et formons les modèles de conduite autonome.

**Un compliment arrive dans la voiture autonome ? **

La caractéristique unique de LINGO-1 est l'introduction d'un expert humain pour s'entraîner sur les données de commentaires verbaux des scènes de conduite, permettant au modèle de relier la perception environnementale, la prise de décision d'action et l'interprétation de la scène à l'image d'un humain.

De cette manière, il peut interpréter les décisions et les actions du système de conduite autonome grâce à une interaction en langage naturel.

Jim Fan, scientifique principal en IA chez NVIDIA, a commenté avec enthousiasme : C'est l'ouvrage le plus intéressant dans le domaine de la conduite autonome que j'ai lu récemment !

Dans le passé, la conduite automatique était « perception -> opération de conduite », mais à l'avenir, la conduite automatique a ajouté l'étape de raisonnement, qui est « perception -> raisonnement verbal -> action ».

Quels sont les avantages de cette nouvelle étape de raisonnement explicite ? Jim Fan explique ce qui suit——

  • Interprétabilité : Le modèle de conduite n'est plus une mystérieuse boîte noire.
  • Scénarios contrefactuels : Il est capable d'imaginer des scénarios qui ne figurent pas dans les données de formation et de raisonner sur la manière de les gérer correctement.
  • Programmation longue traîne : Il existe un grand nombre de scénarios de pointe en conduite, et il est impossible de fournir une bonne couverture de données pour tous les scénarios. Plutôt que de collecter des milliers d'exemples pour « neuroprogrammer » un cas, les experts humains peuvent écrire des invites () pour expliquer un petit nombre d'exemples, guidant ainsi le système sur la façon de gérer des scénarios spécifiques ou complexes.

De plus, LINGO-1 est également étroitement lié à certaines recherches dans le domaine de l'intelligence artificielle des jeux, telles que MineDojo et Thought Cloning, qui sont tous deux des agents d'IA.

Les premiers peuvent apprendre un modèle de récompense qui associe le texte de révision aux pixels vidéo de Minecraft. Ce dernier peut réaliser un ensemble complet de liens de type "pixel->langage->boucle d'action".

LINGO-1——Narrateur de conduite en boucle ouverte

Ma propre explication

À quoi le modèle prête-t-il attention ? faire quoi? Désormais, ce n’est plus un mystère.

LINGO-1 vous expliquera clairement ce qu'il fait à chaque étape du processus.

Par exemple, s'il veut dépasser un véhicule garé sur le bord de la route -

LINGO-1 : Je dépasse en raison de la lenteur du trafic. LINGO-1 : Je dépasse une voiture garée. LINGO-1 : J'accélère parce que la route est libre.

À l'approche d'un passage piéton——

LINGO-1 : Je maintiens ma vitesse, la route est toujours dégagée. LINGO-1 : Freiner et ralentir maintenant. LINGO-1 : Arrêtez-vous au passage piéton. LINGO-1 : J'accélère là où je me suis arrêté. LINGO-1 : J'accélère parce que la route est libre.

En tournant à gauche à une intersection——

LINGO-1 : Je suis resté immobile car la voiture qui me précédait s'est également arrêtée. LINGO-1 : J'accélère car la voiture qui me précède s'est éloignée. LINGO-1 : J'applique les freins pour m'arrêter à l'intersection. LINGO-1 : J'avance car la voie est libre. LINGO-1 : Terminez le virage à gauche et suivez l'itinéraire.

### Réponse visuelle aux questions (VQA)

En plus de s'expliquer, LINGO-1 peut également répondre à vos questions, nous permettant d'évaluer ses capacités de compréhension de scène et de raisonnement.

Par exemple, si vous posez la question à LINGO-1, à quoi devez-vous faire attention à cette intersection ?

Il dit : « Je dois faire attention à la lumière devant moi, au cycliste devant moi et au piéton qui traverse la route. »

Demandez à LINGO-1, quel temps fait-il maintenant ? Quel impact cela aura-t-il sur la conduite ?

Il dira : « C'est un jour de pluie et je dois être extrêmement prudent lorsque je conduis car la surface de la route est glissante et la visibilité est réduite les jours de pluie. »

LINGO-1, comment rouler en toute sécurité côte à côte avec un vélo ?

Il dira : "Je dois garder mes distances avec les cyclistes et m'arrêter si nécessaire. C'est un danger potentiel. De plus, je dois faire attention aux voitures garées au bord de la route."

### Clé : Ensemble de données de commentaires de conduite

La clé du développement de LINGO-1 a été de créer un ensemble de données évolutif et diversifié. Cet ensemble de données contient des commentaires de conducteurs professionnels lors de leurs déplacements à travers le Royaume-Uni, notamment des images, des données linguistiques et des actions.

Cela nous rappelle la scène où nous apprenions à conduire avec les instructeurs de l'auto-école - de temps en temps, ils faisaient des commentaires et des explications comme celles-ci pour expliquer pourquoi ils se comportaient de cette façon en conduisant, afin que les élèves puissent en tirer des conclusions. .

  • Le véhicule/feu devant a changé, veuillez ralentir - Il est temps de changer de voie - Vous pouvez accélérer, faites attention à ne pas dépasser la vitesse maximale autorisée - Attention ! D'autres véhicules sont entrés sur la route/s'ont arrêtés à l'intersection - Faites attention au rond-point et cédez le passage devant vous - Il y a des véhicules garés/des feux tricolores/des écoles devant vous - Le véhicule à côté de vous change de voie/dépasse un véhicule garé - Cyclistes/ les piétons attendent au passage piéton

Lorsque les phrases ci-dessus, les images sensorielles et les actions de conduite sous-jacentes seront synchronisées dans le temps, les chercheurs obtiendront un riche ensemble de données visuelles, linguistiques et actions qui pourront être utilisées pour entraîner des modèles pour diverses tâches.

Modèle Visuel-Langage-Action (VLAM)

Après l'essor du LLM, de nombreux modèles de langage visuel (VLM) combinent les capacités de raisonnement du LLM avec des images et des vidéos.

Wayve a en outre lancé le modèle Vision-Langage-Action (VLAM), qui contient trois types d'informations-images, de données de conduite et de langage.

Dans le passé, le langage naturel était rarement utilisé dans la formation des robots (notamment dans le domaine de la conduite autonome).

Si le langage naturel est ajouté, cela nous permettra d'interpréter et de former avec plus de puissance les modèles de conduite de base. Ce nouveau modèle aura un impact énorme.

En utilisant le langage pour expliquer divers facteurs causals dans les scénarios de conduite, la vitesse de formation du modèle peut être accélérée et étendue à de nouveaux scénarios.

Et puisque nous pouvons poser des questions au modèle, nous pouvons savoir ce que le modèle comprend et dans quelle mesure il peut raisonner et prendre des décisions.

Le système de conduite autonome n’est plus une mystérieuse boîte noire, on peut lui demander de temps en temps en conduisant : à quoi penses-tu ?

Cela augmentera sans aucun doute la confiance du public dans la conduite autonome.

De plus, bien qu'il n'existe qu'un petit nombre d'échantillons de formation, la capacité d'apprentissage rapide du langage naturel permet au modèle d'apprendre rapidement et efficacement de nouvelles tâches et de s'adapter à de nouveaux scénarios.

Par exemple, tant que nous utilisons le langage naturel pour dire au modèle « ce comportement est mauvais », nous pouvons corriger le mauvais comportement du système de conduite autonome.

Désormais, seul le langage naturel sera peut-être nécessaire pour établir un modèle de base pour une conduite autonome de bout en bout !

Précision 60 %

Pendant ce temps, l'équipe a amélioré l'architecture du modèle et l'ensemble des données de formation.

Il n'est pas difficile de voir sur la figure que les performances de LINGO-1 ont doublé par rapport au début.

Actuellement, la précision de LINGO-1 a atteint 60 % du niveau humain.

De toute évidence, l’introduction du langage naturel peut révolutionner la technologie de conduite autonome à bien des égards.

Améliorer l'interprétabilité des modèles de bout en bout

Le manque d’interprétabilité des modèles d’apprentissage automatique a toujours été au centre des recherches.

En créant une interface interactive basée sur le langage naturel, les utilisateurs peuvent directement poser des questions et laisser l'IA y répondre, acquérant ainsi une compréhension approfondie de la compréhension de la scène par le modèle et de la manière dont il prend des décisions.

Ce dialogue unique entre les passagers et les voitures autonomes peut accroître la transparence et faciliter la compréhension et la confiance dans ces systèmes.

Dans le même temps, le langage naturel améliore également la capacité du modèle à s’adapter aux commentaires humains et à en tirer des enseignements.

À la manière d'un instructeur guidant un élève au volant, les instructions correctives et les commentaires des utilisateurs affinent la compréhension du modèle et le processus de prise de décision au fil du temps.

Meilleure planification et raisonnement, performances de conduite améliorées

Deux facteurs principaux affectent les performances de conduite autonome :

  1. La capacité des modèles de langage à interpréter avec précision divers scénarios de mode de saisie

  2. La capacité du modèle à convertir un raisonnement de niveau intermédiaire en une planification efficace de bas niveau

À cet égard, l'équipe tente d'améliorer le modèle de conduite en boucle fermée grâce aux capacités de langage naturel, de raisonnement et de planification de LINGO.

Modèle de conduite autonome en boucle fermée Wayve LINGO-1

Apprentissage efficace de nouveaux scénarios ou de scénarios à longue traîne

Habituellement, une image vaut mille mots.

Mais lors de la formation d’un modèle, un morceau de texte vaut mille images.

Désormais, au lieu d'avoir des milliers d'exemples de voitures ralentissant pour les piétons, nous n'avons besoin que de quelques exemples, accompagnés d'une courte description textuelle, pour apprendre au modèle à ralentir et apprendre comment il doit se comporter dans cette situation.

Vous savez, l’un des éléments les plus importants de la conduite autonome est le raisonnement causal, qui permet au système de comprendre la relation entre les éléments et les comportements dans la scène.

Un VLAM performant permet au système de connecter les piétons qui attendent aux passages piétons aux feux de circulation « Ne pas traverser ». Ceci est extrêmement significatif dans des scénarios difficiles avec des données limitées.

De plus, LLM possède déjà une grande quantité de connaissances sur le comportement humain à partir d'ensembles de données Internet, ce qui lui permet de comprendre des concepts tels que l'identification d'objets, les règles de circulation et les opérations de conduite, comme entre les arbres, les magasins, les maisons, les chiens chassant des balles, et bus garés devant les écoles, différence.

Grâce au codage plus large des données graphiques du VLAM, la conduite autonome deviendra plus avancée et plus sûre.

Limitations

Bien entendu, LINGO-1 présente également certaines limites.

Généralisation

LINGO-1 est formé sur l'expérience de conduite dans le centre de Londres et sur la rédaction de textes à l'échelle Internet.

Bien que j'aie découvert des cultures de conduite du monde entier, ce que je fais actuellement le mieux, c'est d'interpréter le code de la route britannique.

Cela nécessite également d’apprendre de l’expérience de conduite dans d’autres pays.

Hallucinations

Les hallucinations sont un problème bien connu dans les grands modèles de langage, et LINGO-1 ne fait pas exception.

Cependant, par rapport au LLM ordinaire, LINGO-1 présente un avantage : parce qu'il est basé sur la vision, le langage et l'action, il dispose de plus de sources d'encadrement et permet de mieux comprendre le monde.

Contexte

L'apprentissage profond vidéo est un défi car les données vidéo sont généralement plusieurs fois plus grandes que les ensembles de données d'images ou de texte.

Les modèles de langage multimodal basés sur la vidéo nécessitent en particulier de longues longueurs de contexte pour pouvoir intégrer de nombreuses images vidéo afin de raisonner sur des scénarios de conduite dynamiques complexes.

Raisonnement en boucle fermée

Wayve travaille actuellement sur l’interprétabilité des modèles, mais à terme, les capacités de raisonnement de son LLM pourront avoir un véritable impact sur la conduite humaine.

Les chercheurs développent une architecture en boucle fermée qui pourra à l’avenir exécuter LINGO-1 sur des véhicules autonomes.

Discussion entre internautes

Les internautes ont également trouvé cela très excitant.

"Fait intéressant, je pense que le modèle de langage interprète les prédictions de direction, de freinage et d'accélérateur du modèle de contrôle de conduite en mots, plutôt que d'affecter la conduite elle-même, car le langage naturel perdrait la précision requise."

"Avec cette approche, nous nous rapprochons beaucoup d'AGI."

"Vous pouvez considérer cela comme un ajout de langage au modèle mondial. Je n'ai jamais compris pourquoi cela n'a jamais été essayé auparavant, car l'idée de former un agent à communiquer semble être une chose à laquelle tout le monde peut penser."

"Ce passage de l'action perceptuelle pure à l'ajout d'un raisonnement textuel change la donne ! À mon avis, c'est la pièce manquante de la conduite autonome car elle rend l'interprétabilité possible de manière non technique."

À l’heure actuelle, l’intégration de la formation robotique et du langage naturel en est encore à ses débuts.

LINGO-1 a officiellement franchi une étape importante dans l'utilisation du langage naturel pour améliorer l'apprentissage et l'interprétabilité des modèles de conduite de base.

Imaginez, à l'avenir, nous n'aurons besoin que d'utiliser de simples invites textuelles pour demander à l'IA de nous indiquer les conditions routières à venir, ou de laisser l'IA apprendre les règles de circulation des différentes régions. Cette scène est tellement excitante !

Le langage naturel présente donc un grand potentiel pour développer des voitures autonomes plus sûres et plus fiables.

Les références:

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)