Zhang Yaqin, académicien de l’Académie d’ingénierie: La pré-formation et les grands modèles génératifs apporteront de nouveaux changements dans le paradigme de la technologie de conduite autonome

Source de l’image : Généré par Unbounded AI

L’émergence de grands modèles génératifs représentés par GPT a fait un autre bond en avant dans la technologie de l’intelligence artificielle, et la technologie de l’IA subit un processus de changement de paradigme technique de discriminant à génératif. Avec l’introduction de technologies de grands modèles tels que la générative, la pré-formation et le multimodal, il offre également la possibilité à la technologie de conduite autonome de mûrir et sans pilote.

De l’Institut de recherche sur l’industrie intelligente de Tsinghua (AIR), la principale institution de recherche en intelligence artificielle au monde, et la principale société nationale de technologie d’IA de conduite autonome, Milli Zhixing a un jugement étonnamment cohérent sur la tendance technique et l’application des grands modèles. Dans le même temps, les deux parties ont également mené une exploration approfondie dans le sens de l’optimisation de la prise de décision basée sur les données, promu conjointement une coopération approfondie entre l’industrie, les universités et la recherche à plusieurs niveaux et accéléré l’application de la technologie de l’IA dans le domaine de la conduite autonome.

Le 11 octobre 2023, Zhang Yaqin, académicien de l’Académie chinoise d’ingénierie, professeur à l’Université Tsinghua et président de l’Institut de recherche sur l’industrie intelligente Tsinghua (AIR), a assisté à la 9e JOURNÉE HAOMO AI organisée par Milli Zhixing et a prononcé un discours liminaire intitulé « Nouveaux progrès de la conduite intelligente - Grand modèle, conduite générative et intelligente », partageant ses dernières réflexions sur l’application des grands modèles d’IA générative à la technologie de conduite autonome. et a présenté les dernières réalisations de Tsinghua AIR dans la construction de la plate-forme de modèle de base Real2Sim2Real et de la plate-forme de simulation de conduite autonome.

Voici le texte intégral du discours de l’académicien Zhang Yaqin :

Un si beau temps, un si bel endroit, je suis très heureux de participer à la JOURNÉE HAOMO AI, et je remercie également le président Zhang Kai et Weihao pour l’invitation.

Aujourd’hui, c’est la neuvième JOURNÉE HAOMO AI, tout d’abord, je voudrais féliciter Momo pour les grandes réalisations qu’il a accomplies en moins de 4 ans, en particulier en forgeant son propre chemin. J’ai l’impression que Momo a été le premier à sortir le grand modèle génératif DriveGPT en conduite autonome, et il a rapidement pris de l’ampleur, et il a pu devenir un leader dans le domaine de la conduite autonome en si peu de temps.

Aujourd’hui, je veux parler des nouveaux progrès de la conduite intelligente, j’ai utilisé le même sujet au fil des ans, mais chaque fois que je trouverai que le contenu est complètement différent, surtout après la sortie récente de l’IA générative, il y a eu une grande promotion de la conduite autonome.

Nous avons parlé des nouvelles « quatre modernisations » - réseau, intelligence, partage et électrification, dont les plus importantes sont les deux modernisations - électrification et intelligence. L’électrification peut être comprise comme une nouvelle énergie, et maintenant la Chine est déjà le marché de la nouvelle énergie le plus actif et le plus important au monde, que ce soit à l’échelle des utilisateurs ou à l’échelle de l’exportation, c’est le premier au monde, qui est la première moitié des nouvelles voitures. La chose la plus importante dans la seconde moitié est la conduite intelligente, et le point chaud et le sommet de la concurrence mondiale dans les 5 à 10 prochaines années est la conduite autonome. L’intelligence artificielle est la force motrice technologique de base de la conduite autonome, et depuis sa création, HAOMO AI DAY a été le moteur technologique de l’entreprise, donc HAOMO AI DAY est très important.

Pourquoi tant d’entreprises pratiquent-elles la conduite intelligente? Y compris les constructeurs automobiles traditionnels, les nouvelles forces, les entreprises de haute technologie entrent sur le marché de la conduite autonome? En fait, il existe de nombreux défis techniques, tout d’abord, du point de vue de l’IA, la conduite automatique est très complexe, nécessite beaucoup de puissance de calcul, de nouveaux algorithmes, est le problème de champ vertical de l’IA le plus difficile, deuxièmement, la conduite automatique est également l’intersection de l’intelligence concentrée, de l’intelligence de pointe et de l’intelligence autonome actuellement observée. Dans la vidéo de test tout à l’heure, vous pouvez voir que la conduite autonome fait face à tant de scénarios et de changements complexes, et il y a en effet de nombreux défis.

Cependant, je pense que la conduite autonome est tout à fait réalisable, et il y a des questions clés, dont certaines sont des facteurs de marché, et d’autres sont des forces non marchandes. Les facteurs du marché comprennent : La technologie est-elle réalisable? Les utilisateurs ont-ils de réels besoins ? Ecologie industrielle et modèle d’affaires. Les facteurs non marchands sont également très importants, nécessitant des percées technologiques dans l’industrie, ainsi que le soutien du gouvernement à l’industrie et des percées dans les politiques et les règlements.

En termes de technologie, au début, beaucoup de gens se demandaient si la conduite sans conducteur était faisable, en particulier si elle était faisable au-dessus de L4? Je pensais que c’était faisable dès le début. Récemment, j’ai vu des données selon lesquelles le sans conducteur est environ 10 fois plus sûr que la conduite avec équipage, et l’année dernière, je parlais environ 3 fois, et cette année, il a atteint 10 fois. Cela montre que la percée technologique est terminée. Dans la feuille de route de la commercialisation, il y a actuellement une variété de façons, certaines utilisent l’intelligence cycliste, d’autres sont la coordination routière, et il y a des routes graduelles, saute-mouton, open source, routes fermées, différentes entreprises explorent différentes feuilles de route, sans dire laquelle est tout à fait correcte, l’industrie essaie la conduite automatique de différentes manières. Je sais que Momo a choisi le progressif, et je pense que tout va bien, et les gens l’explorent de différentes manières.

Il y a eu beaucoup de nouvelles percées dans l’IA récemment. Nous voyons de nouveaux algorithmes, de nouveaux cadres, en particulier la pré-formation, l’apprentissage multimodal, multi-supervisé, et les grands modèles devenir courants. Avant Transformer, ResNeT était un framework d’algorithme de vision très largement utilisé, et la raison pour laquelle j’ai spécifiquement mentionné ResNeT, cet algorithme est en fait réalisé par de jeunes scientifiques chinois en Chine, donc les scientifiques chinois ont apporté de grandes contributions à l’intelligence artificielle. J’ai entendu beaucoup de déclarations selon lesquelles le cœur de l’IA vient principalement d’Europe, et la théorie de base vient de là, mais les scientifiques chinois ont également apporté beaucoup de contributions dans le domaine de l’intelligence artificielle.

Il est important pour les grands modèles de dépasser les limitations techniques. Au cours des six ou soixante-dix dernières années, il y a eu trois théories majeures: la loi de Moore, l’architecture de von Neumann, les trois lois de Shannon, et maintenant les trois théories sont brisées. S’il n’y a pas de percée, le grand modèle est impossible à réaliser, ce qui nécessite une nouvelle méthode de détection, une nouvelle méthode de perception, une percée dans la nouvelle architecture informatique, y compris un nouveau cadre de puces, etc., et maintenant les réseaux neuronaux convolutifs Transformer et CNN sont également différents. À l’heure actuelle, l’industrie de la technologie numérique est principalement basée sur l’informatique à base de plaquettes de silicium, et il pourrait y avoir des sciences biologiques, de l’informatique optique et de l’informatique quantique à l’avenir.

À l’heure actuelle, il est très important que les grands modèles apportent une IA générative, et dans le passé, l’IA parlait de classification, c’est-à-dire d’IA discriminante. Il est désormais possible de générer de nouvelles idées de contenu, des idées de données et de nombreuses nouvelles idées de scènes. Permettez-moi maintenant de parler un peu de mon travail dans ce domaine.

Les grands modèles vont dans une nouvelle direction. Le premier est la multimodalité, non seulement le langage naturel, les images, la vidéo, mais aussi les signaux de détection, le lidar et d’autres signaux de perception physique et biosensoriels émis par tous les véhicules. Vous voyez que le modèle GPT-4 est multimodal, sa fonction est très puissante, mais l’efficacité est très faible, environ 1000 fois inférieure à l’efficacité de calcul et de prise de décision du cerveau humain, donc il y a encore un besoin de nouveaux algorithmes, je pense qu’il y aura de nouveaux algorithmes dans 5 ans. Le second est l’intelligence autonome, qui peut accomplir automatiquement des tâches, y compris l’informatique de pointe, comment mettre de grands modèles très complexes à la périphérie des téléphones mobiles, des voitures, des robots, et l’intelligence incarnée et le monde physique ensemble, je pense que la conduite automatique est la scène intelligente incarnée la plus importante. L’avenir est l’étape de l’intelligence cerveau-ordinateur, et le grand modèle sera confronté à la façon d’utiliser le monde de la biologie, le monde de la vie, et comment mieux connecter les gens et les cerveaux.

Les nouvelles architectures technologiques utiliseront de grands modèles, tout comme le nouveau système d’exploitation IA, il y aura de nombreux modèles verticaux, y compris la conduite autonome ou d’autres modèles verticaux comme les sciences de la vie.

Je parlerai brièvement de Tsinghua Intelligent Industry Research Institute (AIR), qui est l’institut de recherche sur l’industrie de l’intelligence artificielle que j’ai fondé après avoir pris ma retraite de Baidu, qui s’est développé rapidement en 3 ans, et j’ai également la chance de trouver un groupe de scientifiques et de CTO d’entreprise avec des antécédents industriels profonds et des réalisations académiques approfondies. Maintenant, il y a environ 300 stagiaires postdoctoraux et étudiants, et la conduite autonome est l’une des directions, environ 100 personnes.

Chaque fois que je parle d’AIR Research, je pense à il y a 25 ans, lorsque je suis retourné en Chine pour fonder Microsoft Research Asia. Le mois prochain célébrera le 25e anniversaire de Microsoft Research Asia, qui a lui-même connu un certain succès. Le grand modèle dont je viens de parler a été développé chez Microsoft Research, dans l’espoir de construire un institut de recherche pour l’industrie chinoise.

Lorsque nous sommes engagés dans diverses recherches, nous espérons avoir un cadre large, tel que la conduite intelligente, nous devons d’abord déterminer quelques itinéraires techniques. Tout d’abord, je pense que la perception multimodale est très importante, et les données multi-échelles et multidimensionnelles de l’original sont très importantes. Parce que pour faire de la conduite sans pilote, de la conduite intelligente, l’avantage des robots est tout d’abord de nécessiter plus de données, cet avantage de données ne peut toujours pas être supprimé, donc je ne suis pas d’accord avec Musk a dit que n’utilisez que des caméras, nous devons utiliser plus de sources de données. Deuxièmement, de nombreuses conduites autonomes utiliseront désormais beaucoup de cartes haute définition, mais nous pensons que l’avenir est aux cartes légères et ne peut pas être complètement dépendant des cartes.

La conduite autonome pour atteindre l’étape finale sûre et fiable doit être réalisée de bout en bout, c’est également très difficile, il existe des facteurs techniques plus détaillés, notamment l’IA générative, l’apprentissage par renforcement, le grand modèle de langage, nous avons deux plates-formes: plate-forme de modèle de données à grande échelle, plate-forme de simulation.

AIR a également proposé son propre modèle de base de conduite autonome. Tout d’abord, le modèle propose comment obtenir différentes données, y compris des données du monde réel et des données de simulation. Les données sont nettoyées via un pipeline contrôlé, puis passent par deux grands modèles : modèle de perception, modèle de prise de décision, y compris la prise de décisions à certains endroits clés du cloud et du côté du véhicule, certains modules sont basés sur des informations, certains sont statistiques et certains sont des modules basés sur des règles.

J’y ai spécifiquement enlevé « l’apprentissage par renforcement », parce que l’apprentissage par renforcement que j’utilise depuis Baidu, mais il est difficile à utiliser. Parce que la sécurité de la conduite autonome est très importante, elle est assez difficile à utiliser, mais je pense que c’est la seule façon d’atteindre une plus grande sécurité, l’apprentissage par renforcement peut apprendre de nouvelles choses, et maintenant la méthode de généralisation dépend de l’apprentissage par renforcement pour apprendre, et il y a eu beaucoup de nouveaux développements récemment. Comment utiliser l’apprentissage par renforcement dans de nombreuses simulations et prises de décision, et l’utiliser dans le comportement de la conduite réelle. Le modèle à gauche est le big data vertical, comment utiliser l’apprentissage par renforcement pour ajuster le modèle.

En outre, comment l’IA générative peut-elle être utilisée dans la simulation et la prise de décision? Il y a un petit exemple ici, les grands modèles et l’apprentissage profond ont des problèmes de transparence, alors nous avons également fait cette recherche, pourquoi ai-je pris cette décision? Tournez à gauche, à droite, freinez, dites-moi ce que je vois et pourquoi je prends cette décision, et cela peut guider la façon de prendre la décision. Il s’agit d’utiliser des données réelles, des données de simulation, des modèles verticaux et de grands modèles pour générer des scènes de profondeur sémantique, y compris des informations sur la circulation et les piétons.

L’autre est la fusion du cerveau humain et de la machine, nous devons étudier comment les gens conduisent. Parfois, les gens prennent de bonnes décisions, parfois non, et collectent ces informations grâce à des capteurs. D’une part, pendant longtemps, les gens et les machines doivent conduire ensemble, et les personnes sans conducteur doivent lentement comprendre la conduite humaine. D’autre part, le modèle est utilisé dans l’algorithme pour améliorer l’efficacité de l’algorithme.

Enfin, nous sommes très heureux d’avoir une collaboration technique approfondie avec Milli sur la façon d’appliquer l’apprentissage par renforcement à la prise de décision cognitive. À l’heure actuelle, l’apprentissage par renforcement a de nombreux problèmes, en ligne ou hors ligne, y compris des problèmes de définition de fonction, l’ambiguïté de la politique, nous avons donc fait beaucoup de recherches de ce type. Au cours de la dernière année, de nombreux articles ont été publiés à l’International Top Conference, et il y a aussi des brevets, et le plus important est qu’il a commencé à être utilisé dans les voitures, et la voiture qui vient de voir la logistique a commencé à utiliser ces algorithmes.

Pour résumer, si vous regardez les différentes étapes de la conduite intelligente et de la conduite automatique, au début, elle est davantage pilotée par le lidar et le matériel, et plus est basée sur des règles artificielles. 2.0 est piloté par des logiciels et des algorithmes, et cette étape a plus de capteurs, s’appuyant également sur l’apprentissage automatique et les règles. Maintenant, à l’ère de la 3.0, il est piloté par de grands modèles, et à ce stade, il existe de nombreux capteurs qui utilisent des algorithmes de bout en bout, et l’apprentissage par renforcement sera également utilisé, ce qui peut atteindre la conduite automatique dans le monde réel dans une plus grande mesure.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)