Source originale : la seconde moitié de la conduite autonome
Source de l'image : générée par Unbounded AI
Nous sommes à la veille de l’intelligence artificielle générale. Si ChatGPT a suscité l’enthousiasme dans le monde entier, il a également déclenché la concurrence pour les grands modèles d’IA. Google a lancé Bard au benchmark, Amazon a également rejoint le champ de bataille, et Meta, qui misait beaucoup sur le métaverse, n'a pas été en reste et a lancé LLaMa et SAM. De ce côté-ci de l'océan, BAT, reconnu comme disposant du plus de ressources, s'est retrouvé sur le modèle génératif. Surfant sur la tendance des grands modèles, l’intelligence incarnée semble préparer un énorme changement.
Tout semble être revenu à il y a dix ans, avec l’émergence du boom entrepreneurial. ** Seulement cette fois, la singularité de l'intelligence artificielle générale est révélée par les grands modèles, et les données sont officiellement au centre de la scène. **
01. Quels sont les éléments clés du développement de grands modèles
La puissance de calcul fait des grands modèles un jeu de richesse
En termes simples, un grand modèle est un modèle comportant un grand nombre de paramètres. Comparé aux petits modèles précédents qui pouvaient fonctionner sur un seul GPU, il ne pouvait être réalisé qu'en s'appuyant sur l'énorme quantité de puissance de calcul accumulée par les grandes entreprises. Par exemple, OpenAI ChatGPT coûte actuellement jusqu'à un million de dollars américains par formation. La possibilité pour les petits laboratoires de participer à la vague de l'intelligence artificielle a été directement supprimée par les grands modèles, et seules les entreprises à forte accumulation peuvent la compléter.
Par conséquent, les seuls héros qui ont émergé dans la vague entrepreneuriale générale à grande échelle étaient ceux qui avaient eu des histoires merveilleuses dans la vague entrepreneuriale Internet, comme Wang Huiwen de Meituan, Kai-fu Lee de Sinovation Ventures et Wang Xiaochuan de Sogou. La loi des modèles de Moore est apparue, et des modèles plus grands ont apporté une meilleure compréhension du monde et des capacités de raisonnement. Avec une telle tendance, il n'y a pas de temps pour s'arrêter et hésiter.
1. Le modèle de développement centré sur le modèle d'algorithme est terminé
À l'heure actuelle, le modèle de développement des sociétés d'intelligence artificielle courantes reste le modèle de développement « traditionnel » centré sur le modèle, c'est-à-dire la fixation de l'ensemble de données puis l'itération du modèle. Les ingénieurs en algorithmes se concentrent généralement sur plusieurs ensembles de données de référence, puis conçoivent divers modèles pour améliorer la précision des prédictions.
Bien que les grands modèles poussent comme des champignons après la pluie, les algorithmes derrière la plupart des modèles ont tendance à être cohérents et aucun changement majeur n’a eu lieu. L'empilement du volume de données rend le modèle entraîné bien plus performant que le modèle avec de petites modifications. Par exemple, il y a quelques mois, le pionnier de l'intelligence artificielle Yann LeCun a publié un article affirmant que ChatGPT n'est techniquement pas nouveau, mais qu'il a atteint d'excellentes performances. Des changements soigneux d’algorithme ne peuvent pas produire de meilleurs résultats que l’ajout et l’itération de données. Par rapport aux performances du modèle formé sur un seul ensemble de données, les performances du modèle apportées par l'énorme quantité de données de haute qualité portent un coup dur à la réduction de la dimensionnalité. **
1. Les données deviennent l'élément central du développement de grands modèles
Le succès des grands modèles d'OpenAI vient de la conviction d'Ilya que les changements quantitatifs dans le Big Data et les grands modèles entraîneront des changements qualitatifs. Par exemple, ChatGPT utilise au moins 40 T de données à grande échelle pour la formation, et si la quantité de données efficaces continue d'augmenter, il peut obtenir de meilleures performances. Selon les recherches de Google sur les capacités émergentes des grands modèles linguistiques, à un certain point critique des paramètres du modèle, le modèle a soudainement acquis des capacités inattendues.
Afin de garantir qu’un si grand nombre de paramètres puissent être raisonnablement entraînés, des données de haute qualité sont devenues la clé. En prenant le développement de ChatGPT comme exemple, GPT-1 n'a utilisé que 4 629 Mo de données texte, tandis que GPT-2 a utilisé 40 Go de texte exploré et filtré à partir de Reddit, et GPT-3 a utilisé au moins 45 To de texte brut. Le processus de formation de -4 n'a pas été divulgué, mais étant donné que la vitesse d'inférence de GPT-4 est beaucoup plus lente que celle de GPT-3, on peut en déduire que le nombre de paramètres du modèle a également augmenté et que la formation correspondante les données nécessitent évidemment plus. Ces données de haute qualité sont une raison importante pour laquelle ChatGPT est apparu pour la première fois dans le monde anglais. Les textes de formation en anglais sont plus standardisés et plus riches que les textes de formation en chinois.
Yang Dong, doyen de l'Institut des sciences interdisciplinaires de l'Université Renmin de Chine, estime également que la raison fondamentale du succès de ChatGPT n'est pas seulement la technologie elle-même, mais aussi les graves problèmes de non-ouverture et de monopole des données en Chine. Quant au modèle de segmentation sémantique récemment publié Segment Anything Model de Meta, le modèle global supervisé ne présente aucune innovation évidente, mais l'utilisation de données massives dans le domaine de la segmentation sémantique rend les performances du modèle étonnantes. Les dizaines de millions d’images et les milliards de masques de segmentation n’ont jamais été vus dans le domaine de la segmentation sémantique des images.
**Le modèle de développement de l'IA passe d'un modèle centré à un modèle centré sur les données. **Où obtenez-vous les données ? Les données dans le monde sont-elles suffisamment volumineuses pour les modèles ?
02. Les données réelles seront épuisées par les grands modèles
Dans ce monde, les activités humaines se produisent en permanence, alors les traces de données laissées sur place ne devraient-elles pas continuer à croître ? Pourquoi est-il épuisé ?
Les données de haute qualité sont rares
Toutes les traces générées par les activités humaines ne peuvent pas être utilisées pour la formation de modèles. Seules les données de haute qualité entrant dans la formation de modèles peuvent produire les meilleurs résultats.
Dans le domaine du traitement du langage naturel, les données de haute qualité sont naturellement des livres et des articles scientifiques numérisés. Avoir une bonne relation logique peut également garantir une précision relative. Les données de mauvaise qualité, telles que les enregistrements de chat, les appels téléphoniques, etc., ont un effet relativement limité sur la formation en raison d'une mauvaise continuité des données. Il est mentionné dans la documentation de développement de ChatGPT 3 qu'après un filtrage de qualité effectué sur 45 To de texte brut, 570 Go de texte ont été obtenus, en utilisant seulement 1,27 % des données effectives.
Dans le domaine de la conduite autonome, des données de haute qualité sont générées à partir d’un grand nombre de scénarios différents. Par exemple, une route avec une courbure relativement faible peut apparaître très fréquemment, mais en fait, plus elle se produit souvent, moins elle est importante. Au contraire, pour certains scénarios non conventionnels (par exemple, le cas du coin), la qualité des données est supérieure et l'adaptation du scénario doit être effectuée séparément. Cependant, ces échantillons relativement petits ne représentent presque qu’une goutte d’eau dans l’océan face aux exigences paramétriques des grands modèles.
Limitations apportées par la sécurité et la confidentialité des données
Le développement de l’IA générative s’est accompagné de controverses sur la sécurité des données. Après que Stable Diffusion soit devenu disponible, il a suscité le mécontentement de nombreux artistes. Sous la pression, Stability AI a annoncé qu'il permettrait aux artistes de supprimer leurs œuvres de manière ciblée et de les empêcher d'entrer dans l'ensemble de formation.
Dans certains cas, les données accessibles au public peuvent contenir des informations sensibles telles que des informations personnelles identifiables, des informations financières ou des dossiers médicaux. Dans de nombreux secteurs et régions, les données contenant des informations sensibles sont très difficiles à obtenir, ce qui augmente la difficulté de la collecte de données et réduit le taux de croissance des ensembles de données correspondants. C’est devenu une contrainte pour les grands modèles industriels. Par exemple, dans le domaine médical, en raison de la particularité et de la confidentialité du domaine, il est impossible d'obtenir la quantité de données pouvant être utilisée pour la formation de grands modèles dans des conditions strictes de protection de la vie privée et de restrictions réglementaires.
Des données réelles de haute qualité peuvent ne pas suffire à prendre en charge la formation de grands modèles
L'article « Will we run out of data ? An Analysis of the limit of scaling datasets in Machine Learning » explore la possibilité d'une pénurie de données (la quantité de données n'est pas suffisante pour répondre aux besoins de formation de grands modèles). taux de croissance du modèle,* D'ici 2026 environ, les données PNL de haute qualité ne suffiront plus à soutenir la formation*. Les stocks de données pour les modèles de langage et de vision augmentent beaucoup plus lentement que la taille des ensembles de données de formation, donc si les tendances actuelles se poursuivent, les ensembles de données finiront par cesser de croître en raison de l'épuisement des données.
Avec la quantité croissante de données, la plupart des données collectées au moyen de méthodes de collecte de données incontrôlables n'ont plus de sens. Par exemple, dans les scénarios de conduite autonome, les véhicules collectent constamment de nouvelles données sur la route, mais seules très peu d’entre elles peuvent réellement être utilisées. Par conséquent, lors d’une récente conversation entre le PDG de Nvidia, Jensen Huang, et Ilya Sutskever, ils ont également évoqué la possibilité d’un épuisement des données.
03. Les données synthétiques peuvent répondre aux énormes besoins en données des grands modèles
Le modèle de développement centré sur les données fait des données la partie la plus importante. Les algorithmes de formation nécessitent des données, mais des données de haute qualité sont difficiles à obtenir. Comment répondre aux énormes besoins en données des grands modèles ?
Tout comme il existe de la viande synthétique dans les aliments, les données peuvent-elles être synthétisées artificiellement ? Les données synthétiques sont des données créées dans le monde numérique. La contrôlabilité des données synthétiques est meilleure que celle des données réelles.Elle peut refléter les propriétés des données réelles dans un sens mathématique et physique et peut produire des données de manière directionnelle pour assurer l'équilibre des données lors de la formation du modèle.
Les données synthétiques ont un delta d'informations
Apprenez la distribution des données dans les données réelles et produisez davantage de données basées sur cette distribution pour garantir qu'il y a suffisamment de données pour former de grands modèles dans divers scénarios. La combinaison de différents éléments donne lieu à des scènes différentes, et les changements de scènes entraînent également une augmentation des informations, garantissant ainsi l'efficacité des données synthétisées.
Selon les recherches d'OpenAI et de l'UC Berkeley en 2017, sur la base de la scène réelle, la position de la caméra, la couleur de l'objet, la forme, l'éclairage, etc. sont généralisées et une grande quantité de données synthétiques est générée pour la formation du modèle de détection d'objets. Étant donné qu'il n'utilise pas du tout de données réelles, l'erreur 3D du modèle de détection est maintenue à moins de 1,5 cm et il présente une très bonne robustesse.
Par exemple, dans le domaine de la conduite autonome, une scène réelle typique de la voiture qui précède peut être reproduite grâce à la météo et à l'éclairage généralisés à l'aide de données synthétiques. Une fois les données résultantes utilisées pour entraîner le modèle, celui-ci aura des performances plus robustes dans différentes conditions météorologiques et d'éclairage. Selon les recherches de Nvidia de 2018, utilisant des données synthétiques produites avec des positions et des textures aléatoires des véhicules pour entraîner le modèle, les performances du modèle de détection ont été considérablement améliorées. Cela est attribué à une répartition plus uniforme des données synthétiques sur l’emplacement des véhicules et à une répartition plus large des données produites.
La contrôlabilité des données synthétiques est meilleure que celle des données réelles.Elle peut refléter les propriétés des données réelles dans un sens mathématique et physique et peut produire des données de manière directionnelle pour assurer l'équilibre des données lors de la formation du modèle. Lors de la génération ciblée de données, il est possible de personnaliser les caractéristiques du grand modèle. Par exemple, on espère que le grand modèle de langage sera biaisé lors de la réponse à certaines questions et aura des styles et des éléments spéciaux lors de la génération de certaines images. . Tout cela peut être accompli grâce à des données synthétiques personnalisées.
Basé sur des données réelles, mais différent des données réelles. Cette caractéristique des données synthétiques les rend de plus en plus utilisées : elles ne sont pas seulement utilisées à des fins de tests, mais peuvent également être utilisées comme données d'entraînement pour rendre le modèle plus puissant.
L'avantage financier des données synthétiques est énorme
Le coût des données provient de la collecte et de l’étiquetage ; dans les deux cas, les données synthétiques présentent des avantages significatifs.
Par rapport à la collecte inefficace de données réelles, les données synthétiques peuvent générer des scénarios de manière ciblée, ce qui rend chaque octet de données précieux. Il n'est pas nécessaire d'avoir une grande équipe de collecte de données, ni un système de retour de données à grande échelle ni un système de filtrage des données. Les données synthétiques sont basées sur les besoins de formation du modèle dès le début de la production, et la plupart des résultats peuvent être utilisés directement. ce qui réduit le coût des données.
Dans le même temps, le coût de l'étiquetage des données synthétiques présente un énorme avantage par rapport aux données réelles. Selon les estimations de la plateforme de services de données Diffgram, pour l'étiquetage des images de conduite autonome, le prix moyen d'une boîte d'étiquetage est d'environ 0,03 $ US. et le coût global de l'étiquetage complet d'une image est d'environ 0,03,5,79 dollars américains, et pour les données synthétiques, le prix d'annotation est fondamentalement proche de zéro, et certains ne sont que des coûts de calcul de données, qui ne coûtent qu'environ 6 cents. En bref, les données synthétiques peuvent être utilisées pour former de grands modèles de manière plus contrôlable, efficace et moins coûteuse.
** Si la collecte de données réelles est encore à l'ère de l'agriculture sur brûlis et de l'élevage, alors la production de données synthétiques est entrée dans l'ère d'une industrie efficace et automatisée, fournissant des produits à grande échelle et de haute qualité à faible coût. **Selon le « MIT Technology Review », les données synthétiques sont classées parmi les dix technologies les plus révolutionnaires au monde en 2022. On pense que les données synthétiques peuvent résoudre le lent développement de l'intelligence artificielle dans des domaines où les ressources en données sont insuffisantes.
04. Quelles industries auront besoin de données synthétiques
**En fait, les données synthétiques ont été largement utilisées à l'étranger. Dans les domaines de la robotique, de la conduite autonome, du traitement du langage naturel, de la finance, des soins médicaux, etc., nous pouvons tous voir des données synthétiques. **
Dès 2018, OpenAI a utilisé un environnement de simulation pour entraîner les contrôleurs de robots. Le processus de formation randomisera la dynamique environnementale, puis appliquera le contrôleur directement au robot physique. De cette façon, le robot peut gérer des tâches simples lors de l'exécution de tâches simples. changements dans l’environnement extérieur.
Selon un rapport de JPMorgan Chase de 2019, l'entreprise a utilisé des données synthétiques pour former des modèles de détection de la fraude financière afin de surmonter le problème du très petit nombre de données sur la fraude financière.
L'Université de Stanford a également récemment publié son propre modèle de conversation à grande échelle Alpaca avec 7 milliards de paramètres. Ce qui est particulièrement intéressant est que l'ensemble des données impliquées dans la recherche a été généré par l'équipe à l'aide de l'API d'OpenAI. En d'autres termes, l'ensemble des données d'entraînement a été Complètement synthétisé.La composition des données et l'effet final sont comparables à GPT-3.5.
En prenant à nouveau la conduite autonome comme exemple, en tant qu'application importante de la vision par ordinateur, l'industrie de la conduite autonome a parcouru un long chemin dans l'utilisation de données synthétiques. Afin de réduire les coûts de test et d’améliorer l’efficacité des itérations, les moteurs de simulation sont largement utilisés dans l’industrie pour tester et vérifier les algorithmes de conduite autonome.
Les fonctions de conduite autonome basées sur la vision doivent collecter des quantités massives de données de scènes réelles pour former des modèles d'apprentissage en profondeur afin de compléter la perception du monde. Cependant, les données à longue traîne produites en masse sont souvent difficiles, voire impossibles, à collecter dans le monde réel. Dans le même temps, même l’apparence d’un même objet peut varier considérablement selon le moment et les conditions météorologiques, ce qui pose de grands défis à la perception visuelle.
Par rapport à la collecte de données réelles, le coût des données synthétiques est contrôlable et ne nécessite pas d'annotation manuelle, ce qui réduit considérablement les erreurs humaines causées par des processus de collecte et de flux de données incohérents et des normes humaines. Par conséquent, les données synthétiques sont considérées par l’industrie comme l’un des moyens efficaces de résoudre le problème de la longue traîne.
Cependant, pour mieux entraîner les systèmes de conduite autonome, la qualité de la plupart des données de simulation est loin d'être suffisante : elles ne peuvent pas refléter le monde réel et ne constituent qu'un haut degré d'abstraction du monde réel. C'est pourquoi de nombreuses entreprises du secteur ont investi massivement dans l'amélioration du réalisme des données. Par exemple, le logiciel de simulation de conduite autonome de Nvidia, DriveSim, utilise une technologie avancée de rendu physique pour améliorer le réalisme des données synthétiques.
Cruise et Waymo utilisent des technologies liées à NeRF pour générer des mondes jumeaux numériques, puis produire des données synthétiques. Nvidia a également proposé Instant NGP en 2022, ce qui a considérablement amélioré l'efficacité de la formation de NeRF.
Dès l'AIDay 2021, Telsa a entraîné le système de perception à l'aide de scènes d'une famille courant sur l'autoroute et de foules difficiles à étiqueter, ce qui était très impressionnant.
Dans le même temps, de nombreuses sociétés de données synthétiques ont commencé à émerger dans la Silicon Valley, à la pointe du secteur : Parallel Domain et Applied Intuition, qui servent la conduite autonome, Datagen, qui sert l'industrie générale de la vision industrielle, et Gretel AI, qui est ancré dans le traitement du langage naturel. Derrière ces entreprises se trouvent les principaux géants de l'industrie.
Gartner prédit qu'en 2024, 60 % des données d'entraînement seront remplacées par des données pour adultes, et qu'en 2030, les données synthétiques remplaceront complètement les données réelles et deviendront la principale source de données pour l'entraînement de l'IA.
Cependant, en Chine, il existe en réalité relativement peu d'applications de données synthétiques et, à l'heure actuelle, la plupart des entreprises utilisent encore des données réelles pour compléter la formation des modèles.
05. Limites des données synthétiques
Quels problèmes doivent encore être résolus avec les données synthétiques avant qu’elles puissent remplacer complètement les données réelles ? Ici, nous prenons la conduite autonome comme exemple pour en discuter.
Vérité
D'un point de vue perceptuel, l'authenticité est en effet le premier indice d'évaluation. Avant que ce lot de données n’entre dans le système de formation, peut-il passer une inspection visuelle humaine pour garantir qu’il semble réel ?
Concernant les inconvénients du réalisme, la réalité visible à l'œil nu ne représente pas l'efficacité réelle des données. La recherche aveugle du réalisme visuel des images peut ne pas avoir de signification pratique quantifiable. La norme quantitative pour évaluer l’authenticité des données synthétiques doit être basée sur l’amélioration des ensembles de données synthétiques par rapport aux ensembles de données réels pour les algorithmes formés sur des ensembles de données synthétiques. Actuellement, dans le secteur de la conduite autonome, qui a les exigences les plus élevées en matière d'authenticité des données synthétiques, il existe déjà des exemples de Cruise, Nvidia, Waymo, Tesla, etc. qui ont amélioré efficacement et considérablement les performances des algorithmes sur des routes réelles basées sur données synthétiques. Bien entendu, à mesure que les algorithmes s’améliorent, les exigences en matière d’authenticité des données synthétiques augmenteront également. Les récentes avancées continues dans le domaine de l’IA générative nous ont donné une bonne direction pratique pour améliorer le réalisme des données synthétiques.
Diversité des scènes
Construction de modèles mondiaux de données synthétiques, comme la construction de scénarios de conduite autonome. Nous devons créer un monde virtuel et simuler le fonctionnement du monde réel, afin que les données synthétiques coulent comme de l’eau de source. La méthode traditionnelle est basée sur la modélisation d'algorithmes artificiels. Par exemple, la méthode de construction des producteurs de données synthétiques traditionnels est purement basée sur des moteurs physiques, qui déterminent la vitesse de construction de la scène. L'ensemble du monde physique doit être construit manuellement par des ingénieurs d'actifs 3D. Chaque bâtiment et panneau de rue doit être construit manuellement, ce qui limite la vitesse de construction des scènes et limite considérablement la diversité des scènes. L'IA générative telle que Diffusion Model et Nerf offre la possibilité d'une modélisation automatisée et centrée sur les données pour la chaîne de production de données synthétiques.
Les scènes construites artificiellement limitent considérablement la généralisation des données synthétiques. Après tout, nous espérons que l’algorithme entraîné sera suffisamment robuste pour fonctionner suffisamment bien dans le monde réel.
Évidemment, la construction artificielle ne peut pas couvrir toutes les scènes du monde réel. Afin de créer suffisamment de données pour couvrir tout le monde réel, nous devons apprendre l'expression implicite du monde réel, puis produire des scènes suffisamment diverses. Cela doit s’appuyer sur l’IA générative.
Productivité
Afin de fournir rapidement de grands lots de données hautement généralisables, la production parallèle à grande échelle dans le cloud est la première priorité. Soutenir la production rapide de données avec une puissance de calcul élevée permet de synthétiser les données à une vitesse inégalée dans le monde réel.
06. L'IA générative permet aux données synthétiques de remplacer les données réelles à grande échelle
NVidia Huang Renxun estime que les réflexions et les rêves humains font partie de données synthétiques, ce qui équivaut à l'IA générant des données pour entraîner l'IA. Afin de répondre aux énormes besoins en données des grands modèles, nous devons automatiser complètement le lien de production de données synthétiques pour permettre à l'IA de former l'IA.
Grâce au récent développement rapide du modèle de diffusion et du NeRF, les données synthétiques d’IA de haute qualité ne sont plus un fantasme. Le processus mathématique sophistiqué de Diffusion Model basé sur les chaînes de Markov permet de créer des modèles de génération d'images plus grands et plus stables, et surmonte également le problème d'une formation trop difficile pour les réseaux de génération adverses. Le modèle de diffusion stable utilise une vaste collection d'images pour permettre aux gens de voir les possibilités infinies du modèle de diffusion, et l'introduction des réseaux liés à ControlNet rend également l'adaptation dans des domaines spécifiques plus pratique.
NeRF (Neural Radiance Fields) transforme la construction du monde 3D en un processus d'apprentissage de réseau neuronal. Il combine efficacement les champs neuronaux (Neural Field) et le rendu voxel pour reconstruire le monde 3D de manière très réaliste et est très prometteur pour remplacer le processus fastidieux. Le processus de construction du moteur physique. Waymo a développé BlockNeRF sur la base de cette technologie pour reconstruire efficacement San Francisco et y produire des données synthétiques. Le récent article CVPR Highlight, UniSim, a fait franchir un grand pas en avant à l’application du NeRF.
Sur la base de ces technologies, les licornes AIGC ont commencé à émerger. Une fois que StabilityAI (modèle de diffusion), Midjourney (modèle de diffusion) et LumaLab AI (NeRF) ont été entraînés avec de grands lots de données, l'authenticité des images ne peut plus être remise en question, et les effets artistiques et les nouvelles expressions de données qui en résultent nous permettent de voir Voici le brillant avenir de la généralisation sur les données synthétiques.
07, écrit à la fin
ChatGPT n'est qu'un point de départ, et les grands modèles dans le domaine du langage naturel ne sont que des étincelles. Bien que ChatGPT dispose déjà de capacités de base en matière d'intelligence artificielle, obtenues par l'apprentissage des données du langage naturel humain, en fait, la pensée cognitive humaine sur le monde ne se limite certainement pas au langage et au texte, mais est multimodale. (Images, texte, son, lumière, électricité, film...). Il n’est pas difficile d’en déduire qu’une véritable AGI doit être capable de traiter toutes les informations modales du monde aussi instantanément, efficacement, précisément et logiquement que les humains, et d’accomplir diverses tâches intermodales ou multimodales. L’engouement récent pour l’intelligence incarnée anticipe également l’émergence de nouvelles méthodes d’interaction multimodale.
Cela nécessite également des données multimodales, ce qui augmente encore la difficulté d'obtenir des données réelles, et les données réelles multimodales sont encore plus rares.
Par exemple, comparé aux données texte et aux données image que l’on peut trouver partout, il n’existe qu’une poignée d’ensembles de données 3D correspondants de haute qualité. Les ensembles de données d'images couramment utilisés pour la recherche scientifique contiennent généralement des centaines de millions d'images, voire plus, tandis que de nombreux ensembles de données 3D de meilleure qualité pouvant être utilisés pour la recherche scientifique ne contiennent que des milliers, voire des dizaines de milliers de modèles 3D. Si nous voulons que l’intelligence artificielle comprenne le monde 3D, nous aurons besoin d’une grande quantité de données multimodales contenant des modèles 3D. Cela peut également nécessiter des données synthétiques pour être résolu.
L'automatisation de la construction de modèles mondiaux, permettant à l'IA de générer de manière contrôlable des données multimodales et la formation de grands modèles plus intelligents, constituent la véritable voie vers l'intelligence artificielle générale.
Quelques références :
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Si les données sont épuisées par les grands modèles, verra-t-on encore de l’intelligence artificielle généralisée ?
Source originale : la seconde moitié de la conduite autonome
Nous sommes à la veille de l’intelligence artificielle générale. Si ChatGPT a suscité l’enthousiasme dans le monde entier, il a également déclenché la concurrence pour les grands modèles d’IA. Google a lancé Bard au benchmark, Amazon a également rejoint le champ de bataille, et Meta, qui misait beaucoup sur le métaverse, n'a pas été en reste et a lancé LLaMa et SAM. De ce côté-ci de l'océan, BAT, reconnu comme disposant du plus de ressources, s'est retrouvé sur le modèle génératif. Surfant sur la tendance des grands modèles, l’intelligence incarnée semble préparer un énorme changement.
Tout semble être revenu à il y a dix ans, avec l’émergence du boom entrepreneurial. ** Seulement cette fois, la singularité de l'intelligence artificielle générale est révélée par les grands modèles, et les données sont officiellement au centre de la scène. **
01. Quels sont les éléments clés du développement de grands modèles
En termes simples, un grand modèle est un modèle comportant un grand nombre de paramètres. Comparé aux petits modèles précédents qui pouvaient fonctionner sur un seul GPU, il ne pouvait être réalisé qu'en s'appuyant sur l'énorme quantité de puissance de calcul accumulée par les grandes entreprises. Par exemple, OpenAI ChatGPT coûte actuellement jusqu'à un million de dollars américains par formation. La possibilité pour les petits laboratoires de participer à la vague de l'intelligence artificielle a été directement supprimée par les grands modèles, et seules les entreprises à forte accumulation peuvent la compléter.
Par conséquent, les seuls héros qui ont émergé dans la vague entrepreneuriale générale à grande échelle étaient ceux qui avaient eu des histoires merveilleuses dans la vague entrepreneuriale Internet, comme Wang Huiwen de Meituan, Kai-fu Lee de Sinovation Ventures et Wang Xiaochuan de Sogou. La loi des modèles de Moore est apparue, et des modèles plus grands ont apporté une meilleure compréhension du monde et des capacités de raisonnement. Avec une telle tendance, il n'y a pas de temps pour s'arrêter et hésiter.
À l'heure actuelle, le modèle de développement des sociétés d'intelligence artificielle courantes reste le modèle de développement « traditionnel » centré sur le modèle, c'est-à-dire la fixation de l'ensemble de données puis l'itération du modèle. Les ingénieurs en algorithmes se concentrent généralement sur plusieurs ensembles de données de référence, puis conçoivent divers modèles pour améliorer la précision des prédictions.
Bien que les grands modèles poussent comme des champignons après la pluie, les algorithmes derrière la plupart des modèles ont tendance à être cohérents et aucun changement majeur n’a eu lieu. L'empilement du volume de données rend le modèle entraîné bien plus performant que le modèle avec de petites modifications. Par exemple, il y a quelques mois, le pionnier de l'intelligence artificielle Yann LeCun a publié un article affirmant que ChatGPT n'est techniquement pas nouveau, mais qu'il a atteint d'excellentes performances. Des changements soigneux d’algorithme ne peuvent pas produire de meilleurs résultats que l’ajout et l’itération de données. Par rapport aux performances du modèle formé sur un seul ensemble de données, les performances du modèle apportées par l'énorme quantité de données de haute qualité portent un coup dur à la réduction de la dimensionnalité. **
Le succès des grands modèles d'OpenAI vient de la conviction d'Ilya que les changements quantitatifs dans le Big Data et les grands modèles entraîneront des changements qualitatifs. Par exemple, ChatGPT utilise au moins 40 T de données à grande échelle pour la formation, et si la quantité de données efficaces continue d'augmenter, il peut obtenir de meilleures performances. Selon les recherches de Google sur les capacités émergentes des grands modèles linguistiques, à un certain point critique des paramètres du modèle, le modèle a soudainement acquis des capacités inattendues.
Yang Dong, doyen de l'Institut des sciences interdisciplinaires de l'Université Renmin de Chine, estime également que la raison fondamentale du succès de ChatGPT n'est pas seulement la technologie elle-même, mais aussi les graves problèmes de non-ouverture et de monopole des données en Chine. Quant au modèle de segmentation sémantique récemment publié Segment Anything Model de Meta, le modèle global supervisé ne présente aucune innovation évidente, mais l'utilisation de données massives dans le domaine de la segmentation sémantique rend les performances du modèle étonnantes. Les dizaines de millions d’images et les milliards de masques de segmentation n’ont jamais été vus dans le domaine de la segmentation sémantique des images.
02. Les données réelles seront épuisées par les grands modèles
Dans ce monde, les activités humaines se produisent en permanence, alors les traces de données laissées sur place ne devraient-elles pas continuer à croître ? Pourquoi est-il épuisé ?
Les données de haute qualité sont rares
Toutes les traces générées par les activités humaines ne peuvent pas être utilisées pour la formation de modèles. Seules les données de haute qualité entrant dans la formation de modèles peuvent produire les meilleurs résultats.
Dans le domaine du traitement du langage naturel, les données de haute qualité sont naturellement des livres et des articles scientifiques numérisés. Avoir une bonne relation logique peut également garantir une précision relative. Les données de mauvaise qualité, telles que les enregistrements de chat, les appels téléphoniques, etc., ont un effet relativement limité sur la formation en raison d'une mauvaise continuité des données. Il est mentionné dans la documentation de développement de ChatGPT 3 qu'après un filtrage de qualité effectué sur 45 To de texte brut, 570 Go de texte ont été obtenus, en utilisant seulement 1,27 % des données effectives.
Dans le domaine de la conduite autonome, des données de haute qualité sont générées à partir d’un grand nombre de scénarios différents. Par exemple, une route avec une courbure relativement faible peut apparaître très fréquemment, mais en fait, plus elle se produit souvent, moins elle est importante. Au contraire, pour certains scénarios non conventionnels (par exemple, le cas du coin), la qualité des données est supérieure et l'adaptation du scénario doit être effectuée séparément. Cependant, ces échantillons relativement petits ne représentent presque qu’une goutte d’eau dans l’océan face aux exigences paramétriques des grands modèles.
Limitations apportées par la sécurité et la confidentialité des données
Le développement de l’IA générative s’est accompagné de controverses sur la sécurité des données. Après que Stable Diffusion soit devenu disponible, il a suscité le mécontentement de nombreux artistes. Sous la pression, Stability AI a annoncé qu'il permettrait aux artistes de supprimer leurs œuvres de manière ciblée et de les empêcher d'entrer dans l'ensemble de formation.
Dans certains cas, les données accessibles au public peuvent contenir des informations sensibles telles que des informations personnelles identifiables, des informations financières ou des dossiers médicaux. Dans de nombreux secteurs et régions, les données contenant des informations sensibles sont très difficiles à obtenir, ce qui augmente la difficulté de la collecte de données et réduit le taux de croissance des ensembles de données correspondants. C’est devenu une contrainte pour les grands modèles industriels. Par exemple, dans le domaine médical, en raison de la particularité et de la confidentialité du domaine, il est impossible d'obtenir la quantité de données pouvant être utilisée pour la formation de grands modèles dans des conditions strictes de protection de la vie privée et de restrictions réglementaires.
Des données réelles de haute qualité peuvent ne pas suffire à prendre en charge la formation de grands modèles
L'article « Will we run out of data ? An Analysis of the limit of scaling datasets in Machine Learning » explore la possibilité d'une pénurie de données (la quantité de données n'est pas suffisante pour répondre aux besoins de formation de grands modèles). taux de croissance du modèle,* D'ici 2026 environ, les données PNL de haute qualité ne suffiront plus à soutenir la formation*. Les stocks de données pour les modèles de langage et de vision augmentent beaucoup plus lentement que la taille des ensembles de données de formation, donc si les tendances actuelles se poursuivent, les ensembles de données finiront par cesser de croître en raison de l'épuisement des données.
Avec la quantité croissante de données, la plupart des données collectées au moyen de méthodes de collecte de données incontrôlables n'ont plus de sens. Par exemple, dans les scénarios de conduite autonome, les véhicules collectent constamment de nouvelles données sur la route, mais seules très peu d’entre elles peuvent réellement être utilisées. Par conséquent, lors d’une récente conversation entre le PDG de Nvidia, Jensen Huang, et Ilya Sutskever, ils ont également évoqué la possibilité d’un épuisement des données.
03. Les données synthétiques peuvent répondre aux énormes besoins en données des grands modèles
Le modèle de développement centré sur les données fait des données la partie la plus importante. Les algorithmes de formation nécessitent des données, mais des données de haute qualité sont difficiles à obtenir. Comment répondre aux énormes besoins en données des grands modèles ?
Tout comme il existe de la viande synthétique dans les aliments, les données peuvent-elles être synthétisées artificiellement ? Les données synthétiques sont des données créées dans le monde numérique. La contrôlabilité des données synthétiques est meilleure que celle des données réelles.Elle peut refléter les propriétés des données réelles dans un sens mathématique et physique et peut produire des données de manière directionnelle pour assurer l'équilibre des données lors de la formation du modèle.
Les données synthétiques ont un delta d'informations
Apprenez la distribution des données dans les données réelles et produisez davantage de données basées sur cette distribution pour garantir qu'il y a suffisamment de données pour former de grands modèles dans divers scénarios. La combinaison de différents éléments donne lieu à des scènes différentes, et les changements de scènes entraînent également une augmentation des informations, garantissant ainsi l'efficacité des données synthétisées.
Selon les recherches d'OpenAI et de l'UC Berkeley en 2017, sur la base de la scène réelle, la position de la caméra, la couleur de l'objet, la forme, l'éclairage, etc. sont généralisées et une grande quantité de données synthétiques est générée pour la formation du modèle de détection d'objets. Étant donné qu'il n'utilise pas du tout de données réelles, l'erreur 3D du modèle de détection est maintenue à moins de 1,5 cm et il présente une très bonne robustesse.
Basé sur des données réelles, mais différent des données réelles. Cette caractéristique des données synthétiques les rend de plus en plus utilisées : elles ne sont pas seulement utilisées à des fins de tests, mais peuvent également être utilisées comme données d'entraînement pour rendre le modèle plus puissant.
L'avantage financier des données synthétiques est énorme
Le coût des données provient de la collecte et de l’étiquetage ; dans les deux cas, les données synthétiques présentent des avantages significatifs.
Par rapport à la collecte inefficace de données réelles, les données synthétiques peuvent générer des scénarios de manière ciblée, ce qui rend chaque octet de données précieux. Il n'est pas nécessaire d'avoir une grande équipe de collecte de données, ni un système de retour de données à grande échelle ni un système de filtrage des données. Les données synthétiques sont basées sur les besoins de formation du modèle dès le début de la production, et la plupart des résultats peuvent être utilisés directement. ce qui réduit le coût des données.
Dans le même temps, le coût de l'étiquetage des données synthétiques présente un énorme avantage par rapport aux données réelles. Selon les estimations de la plateforme de services de données Diffgram, pour l'étiquetage des images de conduite autonome, le prix moyen d'une boîte d'étiquetage est d'environ 0,03 $ US. et le coût global de l'étiquetage complet d'une image est d'environ 0,03,5,79 dollars américains, et pour les données synthétiques, le prix d'annotation est fondamentalement proche de zéro, et certains ne sont que des coûts de calcul de données, qui ne coûtent qu'environ 6 cents. En bref, les données synthétiques peuvent être utilisées pour former de grands modèles de manière plus contrôlable, efficace et moins coûteuse.
** Si la collecte de données réelles est encore à l'ère de l'agriculture sur brûlis et de l'élevage, alors la production de données synthétiques est entrée dans l'ère d'une industrie efficace et automatisée, fournissant des produits à grande échelle et de haute qualité à faible coût. **Selon le « MIT Technology Review », les données synthétiques sont classées parmi les dix technologies les plus révolutionnaires au monde en 2022. On pense que les données synthétiques peuvent résoudre le lent développement de l'intelligence artificielle dans des domaines où les ressources en données sont insuffisantes.
04. Quelles industries auront besoin de données synthétiques
**En fait, les données synthétiques ont été largement utilisées à l'étranger. Dans les domaines de la robotique, de la conduite autonome, du traitement du langage naturel, de la finance, des soins médicaux, etc., nous pouvons tous voir des données synthétiques. **
Dès 2018, OpenAI a utilisé un environnement de simulation pour entraîner les contrôleurs de robots. Le processus de formation randomisera la dynamique environnementale, puis appliquera le contrôleur directement au robot physique. De cette façon, le robot peut gérer des tâches simples lors de l'exécution de tâches simples. changements dans l’environnement extérieur.
L'Université de Stanford a également récemment publié son propre modèle de conversation à grande échelle Alpaca avec 7 milliards de paramètres. Ce qui est particulièrement intéressant est que l'ensemble des données impliquées dans la recherche a été généré par l'équipe à l'aide de l'API d'OpenAI. En d'autres termes, l'ensemble des données d'entraînement a été Complètement synthétisé.La composition des données et l'effet final sont comparables à GPT-3.5.
En prenant à nouveau la conduite autonome comme exemple, en tant qu'application importante de la vision par ordinateur, l'industrie de la conduite autonome a parcouru un long chemin dans l'utilisation de données synthétiques. Afin de réduire les coûts de test et d’améliorer l’efficacité des itérations, les moteurs de simulation sont largement utilisés dans l’industrie pour tester et vérifier les algorithmes de conduite autonome.
Les fonctions de conduite autonome basées sur la vision doivent collecter des quantités massives de données de scènes réelles pour former des modèles d'apprentissage en profondeur afin de compléter la perception du monde. Cependant, les données à longue traîne produites en masse sont souvent difficiles, voire impossibles, à collecter dans le monde réel. Dans le même temps, même l’apparence d’un même objet peut varier considérablement selon le moment et les conditions météorologiques, ce qui pose de grands défis à la perception visuelle.
Par rapport à la collecte de données réelles, le coût des données synthétiques est contrôlable et ne nécessite pas d'annotation manuelle, ce qui réduit considérablement les erreurs humaines causées par des processus de collecte et de flux de données incohérents et des normes humaines. Par conséquent, les données synthétiques sont considérées par l’industrie comme l’un des moyens efficaces de résoudre le problème de la longue traîne.
Cependant, pour mieux entraîner les systèmes de conduite autonome, la qualité de la plupart des données de simulation est loin d'être suffisante : elles ne peuvent pas refléter le monde réel et ne constituent qu'un haut degré d'abstraction du monde réel. C'est pourquoi de nombreuses entreprises du secteur ont investi massivement dans l'amélioration du réalisme des données. Par exemple, le logiciel de simulation de conduite autonome de Nvidia, DriveSim, utilise une technologie avancée de rendu physique pour améliorer le réalisme des données synthétiques.
Gartner prédit qu'en 2024, 60 % des données d'entraînement seront remplacées par des données pour adultes, et qu'en 2030, les données synthétiques remplaceront complètement les données réelles et deviendront la principale source de données pour l'entraînement de l'IA.
Cependant, en Chine, il existe en réalité relativement peu d'applications de données synthétiques et, à l'heure actuelle, la plupart des entreprises utilisent encore des données réelles pour compléter la formation des modèles.
05. Limites des données synthétiques
Quels problèmes doivent encore être résolus avec les données synthétiques avant qu’elles puissent remplacer complètement les données réelles ? Ici, nous prenons la conduite autonome comme exemple pour en discuter.
Vérité
D'un point de vue perceptuel, l'authenticité est en effet le premier indice d'évaluation. Avant que ce lot de données n’entre dans le système de formation, peut-il passer une inspection visuelle humaine pour garantir qu’il semble réel ?
Concernant les inconvénients du réalisme, la réalité visible à l'œil nu ne représente pas l'efficacité réelle des données. La recherche aveugle du réalisme visuel des images peut ne pas avoir de signification pratique quantifiable. La norme quantitative pour évaluer l’authenticité des données synthétiques doit être basée sur l’amélioration des ensembles de données synthétiques par rapport aux ensembles de données réels pour les algorithmes formés sur des ensembles de données synthétiques. Actuellement, dans le secteur de la conduite autonome, qui a les exigences les plus élevées en matière d'authenticité des données synthétiques, il existe déjà des exemples de Cruise, Nvidia, Waymo, Tesla, etc. qui ont amélioré efficacement et considérablement les performances des algorithmes sur des routes réelles basées sur données synthétiques. Bien entendu, à mesure que les algorithmes s’améliorent, les exigences en matière d’authenticité des données synthétiques augmenteront également. Les récentes avancées continues dans le domaine de l’IA générative nous ont donné une bonne direction pratique pour améliorer le réalisme des données synthétiques.
Diversité des scènes
Construction de modèles mondiaux de données synthétiques, comme la construction de scénarios de conduite autonome. Nous devons créer un monde virtuel et simuler le fonctionnement du monde réel, afin que les données synthétiques coulent comme de l’eau de source. La méthode traditionnelle est basée sur la modélisation d'algorithmes artificiels. Par exemple, la méthode de construction des producteurs de données synthétiques traditionnels est purement basée sur des moteurs physiques, qui déterminent la vitesse de construction de la scène. L'ensemble du monde physique doit être construit manuellement par des ingénieurs d'actifs 3D. Chaque bâtiment et panneau de rue doit être construit manuellement, ce qui limite la vitesse de construction des scènes et limite considérablement la diversité des scènes. L'IA générative telle que Diffusion Model et Nerf offre la possibilité d'une modélisation automatisée et centrée sur les données pour la chaîne de production de données synthétiques.
Les scènes construites artificiellement limitent considérablement la généralisation des données synthétiques. Après tout, nous espérons que l’algorithme entraîné sera suffisamment robuste pour fonctionner suffisamment bien dans le monde réel.
Évidemment, la construction artificielle ne peut pas couvrir toutes les scènes du monde réel. Afin de créer suffisamment de données pour couvrir tout le monde réel, nous devons apprendre l'expression implicite du monde réel, puis produire des scènes suffisamment diverses. Cela doit s’appuyer sur l’IA générative.
Productivité
Afin de fournir rapidement de grands lots de données hautement généralisables, la production parallèle à grande échelle dans le cloud est la première priorité. Soutenir la production rapide de données avec une puissance de calcul élevée permet de synthétiser les données à une vitesse inégalée dans le monde réel.
06. L'IA générative permet aux données synthétiques de remplacer les données réelles à grande échelle
NVidia Huang Renxun estime que les réflexions et les rêves humains font partie de données synthétiques, ce qui équivaut à l'IA générant des données pour entraîner l'IA. Afin de répondre aux énormes besoins en données des grands modèles, nous devons automatiser complètement le lien de production de données synthétiques pour permettre à l'IA de former l'IA.
Grâce au récent développement rapide du modèle de diffusion et du NeRF, les données synthétiques d’IA de haute qualité ne sont plus un fantasme. Le processus mathématique sophistiqué de Diffusion Model basé sur les chaînes de Markov permet de créer des modèles de génération d'images plus grands et plus stables, et surmonte également le problème d'une formation trop difficile pour les réseaux de génération adverses. Le modèle de diffusion stable utilise une vaste collection d'images pour permettre aux gens de voir les possibilités infinies du modèle de diffusion, et l'introduction des réseaux liés à ControlNet rend également l'adaptation dans des domaines spécifiques plus pratique.
Sur la base de ces technologies, les licornes AIGC ont commencé à émerger. Une fois que StabilityAI (modèle de diffusion), Midjourney (modèle de diffusion) et LumaLab AI (NeRF) ont été entraînés avec de grands lots de données, l'authenticité des images ne peut plus être remise en question, et les effets artistiques et les nouvelles expressions de données qui en résultent nous permettent de voir Voici le brillant avenir de la généralisation sur les données synthétiques.
07, écrit à la fin
ChatGPT n'est qu'un point de départ, et les grands modèles dans le domaine du langage naturel ne sont que des étincelles. Bien que ChatGPT dispose déjà de capacités de base en matière d'intelligence artificielle, obtenues par l'apprentissage des données du langage naturel humain, en fait, la pensée cognitive humaine sur le monde ne se limite certainement pas au langage et au texte, mais est multimodale. (Images, texte, son, lumière, électricité, film...). Il n’est pas difficile d’en déduire qu’une véritable AGI doit être capable de traiter toutes les informations modales du monde aussi instantanément, efficacement, précisément et logiquement que les humains, et d’accomplir diverses tâches intermodales ou multimodales. L’engouement récent pour l’intelligence incarnée anticipe également l’émergence de nouvelles méthodes d’interaction multimodale.
Cela nécessite également des données multimodales, ce qui augmente encore la difficulté d'obtenir des données réelles, et les données réelles multimodales sont encore plus rares.
Par exemple, comparé aux données texte et aux données image que l’on peut trouver partout, il n’existe qu’une poignée d’ensembles de données 3D correspondants de haute qualité. Les ensembles de données d'images couramment utilisés pour la recherche scientifique contiennent généralement des centaines de millions d'images, voire plus, tandis que de nombreux ensembles de données 3D de meilleure qualité pouvant être utilisés pour la recherche scientifique ne contiennent que des milliers, voire des dizaines de milliers de modèles 3D. Si nous voulons que l’intelligence artificielle comprenne le monde 3D, nous aurons besoin d’une grande quantité de données multimodales contenant des modèles 3D. Cela peut également nécessiter des données synthétiques pour être résolu.
L'automatisation de la construction de modèles mondiaux, permettant à l'IA de générer de manière contrôlable des données multimodales et la formation de grands modèles plus intelligents, constituent la véritable voie vers l'intelligence artificielle générale.
Quelques références :