Source originale : intelligence du cône de lumière
Auteur : Yao Yue
Source de l'image : générée par l'IA illimitée
« Pas d'art, que de la physique ! La physique rend heureux, n'est-ce pas ?
Récemment, lors de la conférence mondiale d'infographie SIGGRAPH 2023, le fondateur et PDG de Nvidia, Huang Renxun, a annoncé que lorsqu'il a combiné l'IA générative avec la plateforme de simulation Omniverse, il était aussi excité qu'il a annoncé que "AIGC est le moment iPhone".
** A la différence des grands modèles de langage qui ne peuvent être appliqués qu'au graphisme et au texte, avec une plateforme de simulation basée sur des lois physiques, l'IA générative peut être directement utilisée dans le monde réel. **
En plus de Huang Renxun, l'équipe de Li Feifei à l'Université de Stanford aux États-Unis a également récemment intégré de grands modèles dans des robots, ce qui permet non seulement aux robots d'interagir efficacement avec l'environnement, mais également d'accomplir diverses tâches sans données ni formation supplémentaires.
** "L'IA générative basée sur la simulation du monde physique est l'IA générative 2.0", Jia Kui, le fondateur de Kuawei Intelligence et professeur à l'Université de technologie de Chine du Sud, a déclaré à Light Cone Intelligence que la combinaison de l'IA générative et l'intelligence incarnée jouera un rôle important effet plus déterministe. **
Avec l'amélioration des capacités générales, l'IA devrait également briser la "malédiction" de la commercialisation.
Quand l'IA générative apprend la physique
Combiner l'IA générative avec le monde physique n'est pas simple et la chaîne technique impliquée est très longue.
**Tout d'abord, il est nécessaire de maîtriser les lois fondamentales du monde physique afin de modéliser le monde réel à la plateforme de simulation. **
La plate-forme de simulation peut non seulement simuler des scènes physiques, mais également simuler l'interaction, le mouvement et la déformation d'objets dans le monde réel.
L'ajout de l'IA générative permettra à la plate-forme de simulation d'avoir la capacité de "prévisualiser".
« Les humains connaissent la connaissance physique depuis l'enfance, mais l'IA ne la connaît pas. » Huang Renxun a déclaré : « La combinaison de l'IA générative et de la plateforme de simulation doit permettre à l'avenir de l'IA de prendre racine dans la physique.
Huang Renxun a en outre expliqué que laisser l'IA apprendre à percevoir l'environnement dans le monde virtuel et comprendre l'impact et les conséquences du comportement physique grâce à l'apprentissage par renforcement, afin que l'IA puisse atteindre des objectifs spécifiques.
** Cela nécessite l'utilisation de l'IA générative pour prédire des dizaines de millions, voire des centaines de millions de possibilités dans le monde physique afin de former des données synthétiques précieuses. **
Par exemple, le bras robotique doit utiliser les "yeux" de la vision 3D pour saisir avec précision, mais comment éliminer l'interférence des changements environnementaux et reconnaître les objets à saisir (comme les pièces en usine) ?
Grâce à la plateforme de simulation, nous avons maîtrisé les lois physiques telles que "la réflexion et la réfraction de la lumière sur l'objet de la scène", et l'IA générative peut prédire et simuler une bouteille avec différents degrés de réflexion sous différents éclairages de scène ; sous le même éclairage , métal, L'état de surface d'objets constitués de différents matériaux tels que les plastiques et les produits du bois ; un tas de clous, tous les états dispersés possibles...
** Encore une fois, toutes les données doivent être exécutées sur la plate-forme de simulation avec IA. **
Cette étape consiste à former le grand modèle visuel 3D. Différent des grands modèles de langage, les grands modèles visuels 3D sont cruciaux pour comprendre et raisonner sur les caractéristiques de composition des scènes visuelles, et doivent traiter des relations complexes entre les objets, les positions et les changements dans l'environnement réel.
** Enfin, il doit être connecté à un matériel intelligent tel qu'un bras robotique, afin qu'il puisse apprendre un fonctionnement intelligent. **
On peut voir que toute la chaîne technique de la combinaison de l'IA générative et du monde physique implique non seulement la physique, le graphisme, la vision par ordinateur et la robotique multidisciplinaire, mais aussi les jumeaux numériques, l'apprentissage profond géométrique, les calculs cinématiques, l'intelligence hybride et l'intelligence intelligente. Matériel informatique et autres technologies de pointe multidimensionnelles.
En conséquence, la chaîne de l'ensemble de l'industrie est également relativement complexe, des données aux modèles, puis des modèles au déploiement.
Dans ces liens, il y a un nœud qui est très différent du chemin AI précédent, et c'est la "génération de données synthétiques".
L'utilisation de données synthétisées par l'IA générative basée sur des lois physiques pour former de grands modèles apportera une révolution par saute-mouton à l'industrie physique.
Sans image réelle,
Formation Visuel 3D grand modèle
Pourquoi ne pas former de grands modèles directement sur des données réelles ?
À l'heure actuelle, la plupart des bras robotiques basés sur la vision 3D dans l'industrie utilisent des données réelles pour l'apprentissage des algorithmes de leurs systèmes de contrôle. En raison de problèmes tels que la confidentialité commerciale, ces données réelles sont difficiles à obtenir dans les données générales et sont essentiellement collectées par les entreprises elles-mêmes.
**Cependant, les données réelles auto-collectées, tout d'abord, la performance des coûts est très faible en termes "d'efficacité et de coût", les deux indicateurs clés de fonctionnement. **
En effet, les scénarios d'application du terminal sont fragmentés et les données ne peuvent pas du tout être utilisées de manière universelle. Pour collecter des données réelles, les entreprises ont besoin d'une collecte "tapis" de chaque industrie, de chaque usine et de chaque scène. De plus, les données collectées ne sont pas exploitables directement et une série de traitements est nécessaire.
Dans ce processus, il y a même un "paradoxe de l'intelligence artificielle".
"En collectant des données réelles, plus de la moitié du coût de la technologie de l'IA est le coût des données, et le traitement de la collecte, du nettoyage, de l'étiquetage et de l'amélioration des données est souvent le résultat d'une grande accumulation de main-d'œuvre." Certains analystes ont souligné, L'essence de l'intelligence artificielle est de remplacer l'intelligence artificielle. "L'ironie est qu'une telle IA a des caractéristiques industrielles à forte intensité de main-d'œuvre évidentes."
Et les données synthétiques ?
** "En utilisant les données réelles accumulées en cinq ou six ans et des milliers de cas, il peut être complété en quelques jours et quelques semaines grâce à des données synthétiques." Jia Kui a déclaré à Light Cone Intelligence que par rapport à la collecte manuelle et à l'étiquetage des données , le coût des données synthétiques Une réduction de plusieurs ordres de grandeur peut être obtenue. **
**Le plus important est qu'en termes d'effet d'entraînement, les données synthétiques peuvent être meilleures que les données réelles. **
Puisqu'elles sont synthétisées sur la base de lois physiques, les données synthétiques naissent avec des annotations absolument précises, ce qui signifie que l'apprentissage de l'IA est très efficace.
De plus, la « complétude » des données synthétiques est inégalée par les données réelles. « L'IA générative 2.0 peut créer d'innombrables mondes et faire évoluer ce monde rapidement », a déclaré Jia Kui.
**En ce qui concerne l'industrie de la vision 3D, le bras robotique est comme la "main de Dieu", qui peut tout contrôler dans le passé et l'avenir. **
"Bien sûr, cela ne peut pas être en dehors des lois du monde physique", a souligné Jia Kui.
« À l'heure actuelle, nous pouvons compléter la formation du modèle visuel 3D du bras robotique pour les opérations de scène complexes sans utiliser une image réelle. » Jia Kui a déclaré à Lightcone Intelligence que le fonctionnement flexible du bras robotique peut être guidé par le modèle formé entièrement avec du synthétique. données, qui peuvent réaliser sur place Plus de 99,9% d'adhérence stable.
C'est précisément pour cette raison que **les données synthétiques sont appelées la "machine à mouvement perpétuel des données" des grands modèles. **
À l'heure actuelle, outre le domaine de la vision 3D, de nombreux domaines essaient également d'utiliser des données synthétiques en raison de problèmes tels que le manque de données générales et le bruit élevé. Cependant, il existe également de forts doutes sur les données synthétiques, affirmant que si elles ne sont pas soigneusement déboguées et utilisées de manière intensive pendant la formation, cela entraînera le plantage du modèle et provoquera des défauts irréversibles.
Du point de vue de l'évolution technologique, les données synthétiques ne seront pas la seule solution aux grands modèles.
Cependant, a souligné Jia Kui, "Avant de trouver un meilleur moyen, les données synthétiques sont le meilleur moyen de résoudre les problèmes pratiques à l'heure actuelle. Si les données réelles entassées par l'homme sont encore utilisées, dans de nombreux domaines dont la vision 3D, l'IAG (Intelligence Artificielle Générale ) intelligence) ne sera jamais possible.
Briser la "malédiction" de la commercialisation de l'IA
Dans le domaine de la vision artificielle, la demande de données synthétiques est plus forte, et la valeur que l'IA générative 2.0 peut débloquer sera encore plus grande.
En tant que méthode de perception très importante de la vision industrielle, la vision 3D a un besoin urgent de données synthétiques.
"Trouvez la différence" parmi un tas de pièces similaires, et changez le matériau et la couleur de l'objet, et vous devez ajuster les paramètres." Un praticien de la vision 3D a déclaré que les différents besoins des différents champs rendaient la scène d'atterrissage trop fragmentée. Terminez un projet, puis re-personnalisez un autre projet.
Cela signifie qu'il est difficile pour les entreprises de former des produits standardisés en se concentrant sur la résolution d'une ou plusieurs exigences du projet. Il est également impossible d'entrer et d'étendre le marché et de rechercher une échelle de profit grâce à une réplication rapide.
**Le coût marginal est difficile à réduire, ce qui transformera une entreprise technologique en une entreprise de projet et finira par l'entraîner vers le bas. **
Le diable est dans les détails.
Quelle est la fragilité de la perception visuelle 3D traditionnelle ? Jia Kui a décrit à Light Cone Intelligence : "Pendant le processus de préhension du bras robotique, si quelqu'un passe et change la lumière, la tâche peut échouer."
Cela est dû au principe d'imagerie de la caméra 3D matérielle. L'imagerie de la caméra 3D est facilement affectée par l'environnement, la forme de l'objet, le matériau, la couleur, le milieu de diffusion, etc., et ce problème est difficile à résoudre en peu de temps.
"Cela peut prendre une centaine d'étapes pour résoudre un problème, mais l'effort de la dernière étape peut être le même que la somme des 99 étapes précédentes." Yang Fan, co-fondateur de SenseTime, a dit un jour que la majeure partie de l'énergie de l'entreprise doit être utilisée pour traiter de petites pièces Problème de longue queue.
Mais maintenant, ** "L'IA générative 2.0 avec une forte polyvalence peut résoudre le problème de la longue traîne, ce qui est très important pour la normalisation des produits", a déclaré Jia Kui. **
Par rapport au modèle de développement personnalisé traditionnel de l'industrie, basé sur l'IA générative 2.0, les entreprises peuvent utiliser le modèle général à grande échelle pour réaliser le développement modulaire de produits, réaliser un déploiement prêt à l'emploi, puis réaliser une expansion directe dans le même secteur. , et différentes industries peuvent également Réutilisation efficace. Le problème de commercialisation de l'industrie de la vision 3D sera facilement résolu.
Dans le même temps, le coût des données, du développement, du déploiement, du matériel et de l'expansion de l'industrie a également fortement chuté dans chaque lien.
Sous la catalyse de l'IA générative 2.0, une fois que la vision 3D explosera, cela signifie que les scènes verticales qui reposent fortement sur la technologie de vision 3D telles que les bras robotiques, les robots, les véhicules sans pilote et les métaverses accéléreront la consommation du dividende de l'IA.
De nombreuses données ont confirmé ce point. Dans des domaines tels que l'étiquetage des données, les données synthétiques, les robots industriels et la vision artificielle, la taille du marché mondial croît à grande vitesse, en particulier le taux de croissance annuel composé des données synthétiques dépasse même 30 % .
Derrière cela se cache en fait la valeur stratégique de l'IA générative 2.0, qui a été très appréciée par la technologie et de nombreux géants de la fabrication.
Des entreprises manufacturières établies telles que Siemens et Ford aux géants de la technologie tels que Nvidia, Tesla, Google et des start-up vedettes telles que Waabi, ils ont tous commencé à travailler dans de nombreux domaines tels que l'industrie, la robotique, la conduite sans pilote, les soins médicaux. , et la vente au détail. Explorez les plus grandes possibilités de l'IA générative 2.0.
Dans le même temps, l'enthousiasme du capital s'est également fortement mobilisé. Selon des statistiques incomplètes, ces dernières années, le financement étranger lié aux données synthétiques a accumulé près de 800 millions de dollars américains.
En Chine, les entreprises liées aux données synthétiques ont également attiré l'attention du capital. En juin 2022, Kuowei Smart a annoncé la clôture du tour de financement pré-A, avec un montant de financement de dizaines de millions de yuans, et un financement cumulé de près de 100 millions de yuans en moins d'un an depuis sa création ; en juillet, ce année, Guanglun Smart a également annoncé l'achèvement du cycle de financement angel +.Le montant cumulé du financement est de dizaines de millions de yuans.
** On peut dire que de la capacité à composer de la poésie à l'apprentissage de la physique, l'IA générative 2.0 ouvre un grand avenir à la numérisation industrielle. **
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
L'AIGC lance la "magie physique", la vision 3D franchit la "limite de précision"
Source originale : intelligence du cône de lumière
Auteur : Yao Yue
« Pas d'art, que de la physique ! La physique rend heureux, n'est-ce pas ?
Récemment, lors de la conférence mondiale d'infographie SIGGRAPH 2023, le fondateur et PDG de Nvidia, Huang Renxun, a annoncé que lorsqu'il a combiné l'IA générative avec la plateforme de simulation Omniverse, il était aussi excité qu'il a annoncé que "AIGC est le moment iPhone".
** A la différence des grands modèles de langage qui ne peuvent être appliqués qu'au graphisme et au texte, avec une plateforme de simulation basée sur des lois physiques, l'IA générative peut être directement utilisée dans le monde réel. **
Avec l'amélioration des capacités générales, l'IA devrait également briser la "malédiction" de la commercialisation.
Quand l'IA générative apprend la physique
Combiner l'IA générative avec le monde physique n'est pas simple et la chaîne technique impliquée est très longue.
**Tout d'abord, il est nécessaire de maîtriser les lois fondamentales du monde physique afin de modéliser le monde réel à la plateforme de simulation. **
La plate-forme de simulation peut non seulement simuler des scènes physiques, mais également simuler l'interaction, le mouvement et la déformation d'objets dans le monde réel.
L'ajout de l'IA générative permettra à la plate-forme de simulation d'avoir la capacité de "prévisualiser".
« Les humains connaissent la connaissance physique depuis l'enfance, mais l'IA ne la connaît pas. » Huang Renxun a déclaré : « La combinaison de l'IA générative et de la plateforme de simulation doit permettre à l'avenir de l'IA de prendre racine dans la physique.
Huang Renxun a en outre expliqué que laisser l'IA apprendre à percevoir l'environnement dans le monde virtuel et comprendre l'impact et les conséquences du comportement physique grâce à l'apprentissage par renforcement, afin que l'IA puisse atteindre des objectifs spécifiques.
** Cela nécessite l'utilisation de l'IA générative pour prédire des dizaines de millions, voire des centaines de millions de possibilités dans le monde physique afin de former des données synthétiques précieuses. **
Par exemple, le bras robotique doit utiliser les "yeux" de la vision 3D pour saisir avec précision, mais comment éliminer l'interférence des changements environnementaux et reconnaître les objets à saisir (comme les pièces en usine) ?
Grâce à la plateforme de simulation, nous avons maîtrisé les lois physiques telles que "la réflexion et la réfraction de la lumière sur l'objet de la scène", et l'IA générative peut prédire et simuler une bouteille avec différents degrés de réflexion sous différents éclairages de scène ; sous le même éclairage , métal, L'état de surface d'objets constitués de différents matériaux tels que les plastiques et les produits du bois ; un tas de clous, tous les états dispersés possibles...
Cette étape consiste à former le grand modèle visuel 3D. Différent des grands modèles de langage, les grands modèles visuels 3D sont cruciaux pour comprendre et raisonner sur les caractéristiques de composition des scènes visuelles, et doivent traiter des relations complexes entre les objets, les positions et les changements dans l'environnement réel.
On peut voir que toute la chaîne technique de la combinaison de l'IA générative et du monde physique implique non seulement la physique, le graphisme, la vision par ordinateur et la robotique multidisciplinaire, mais aussi les jumeaux numériques, l'apprentissage profond géométrique, les calculs cinématiques, l'intelligence hybride et l'intelligence intelligente. Matériel informatique et autres technologies de pointe multidimensionnelles.
En conséquence, la chaîne de l'ensemble de l'industrie est également relativement complexe, des données aux modèles, puis des modèles au déploiement.
L'utilisation de données synthétisées par l'IA générative basée sur des lois physiques pour former de grands modèles apportera une révolution par saute-mouton à l'industrie physique.
Sans image réelle,
Formation Visuel 3D grand modèle
Pourquoi ne pas former de grands modèles directement sur des données réelles ?
À l'heure actuelle, la plupart des bras robotiques basés sur la vision 3D dans l'industrie utilisent des données réelles pour l'apprentissage des algorithmes de leurs systèmes de contrôle. En raison de problèmes tels que la confidentialité commerciale, ces données réelles sont difficiles à obtenir dans les données générales et sont essentiellement collectées par les entreprises elles-mêmes.
**Cependant, les données réelles auto-collectées, tout d'abord, la performance des coûts est très faible en termes "d'efficacité et de coût", les deux indicateurs clés de fonctionnement. **
En effet, les scénarios d'application du terminal sont fragmentés et les données ne peuvent pas du tout être utilisées de manière universelle. Pour collecter des données réelles, les entreprises ont besoin d'une collecte "tapis" de chaque industrie, de chaque usine et de chaque scène. De plus, les données collectées ne sont pas exploitables directement et une série de traitements est nécessaire.
Dans ce processus, il y a même un "paradoxe de l'intelligence artificielle".
"En collectant des données réelles, plus de la moitié du coût de la technologie de l'IA est le coût des données, et le traitement de la collecte, du nettoyage, de l'étiquetage et de l'amélioration des données est souvent le résultat d'une grande accumulation de main-d'œuvre." Certains analystes ont souligné, L'essence de l'intelligence artificielle est de remplacer l'intelligence artificielle. "L'ironie est qu'une telle IA a des caractéristiques industrielles à forte intensité de main-d'œuvre évidentes."
Et les données synthétiques ?
** "En utilisant les données réelles accumulées en cinq ou six ans et des milliers de cas, il peut être complété en quelques jours et quelques semaines grâce à des données synthétiques." Jia Kui a déclaré à Light Cone Intelligence que par rapport à la collecte manuelle et à l'étiquetage des données , le coût des données synthétiques Une réduction de plusieurs ordres de grandeur peut être obtenue. **
**Le plus important est qu'en termes d'effet d'entraînement, les données synthétiques peuvent être meilleures que les données réelles. **
Puisqu'elles sont synthétisées sur la base de lois physiques, les données synthétiques naissent avec des annotations absolument précises, ce qui signifie que l'apprentissage de l'IA est très efficace.
De plus, la « complétude » des données synthétiques est inégalée par les données réelles. « L'IA générative 2.0 peut créer d'innombrables mondes et faire évoluer ce monde rapidement », a déclaré Jia Kui.
**En ce qui concerne l'industrie de la vision 3D, le bras robotique est comme la "main de Dieu", qui peut tout contrôler dans le passé et l'avenir. **
"Bien sûr, cela ne peut pas être en dehors des lois du monde physique", a souligné Jia Kui.
C'est précisément pour cette raison que **les données synthétiques sont appelées la "machine à mouvement perpétuel des données" des grands modèles. **
À l'heure actuelle, outre le domaine de la vision 3D, de nombreux domaines essaient également d'utiliser des données synthétiques en raison de problèmes tels que le manque de données générales et le bruit élevé. Cependant, il existe également de forts doutes sur les données synthétiques, affirmant que si elles ne sont pas soigneusement déboguées et utilisées de manière intensive pendant la formation, cela entraînera le plantage du modèle et provoquera des défauts irréversibles.
Du point de vue de l'évolution technologique, les données synthétiques ne seront pas la seule solution aux grands modèles.
Cependant, a souligné Jia Kui, "Avant de trouver un meilleur moyen, les données synthétiques sont le meilleur moyen de résoudre les problèmes pratiques à l'heure actuelle. Si les données réelles entassées par l'homme sont encore utilisées, dans de nombreux domaines dont la vision 3D, l'IAG (Intelligence Artificielle Générale ) intelligence) ne sera jamais possible.
Briser la "malédiction" de la commercialisation de l'IA
Dans le domaine de la vision artificielle, la demande de données synthétiques est plus forte, et la valeur que l'IA générative 2.0 peut débloquer sera encore plus grande.
En tant que méthode de perception très importante de la vision industrielle, la vision 3D a un besoin urgent de données synthétiques.
"Trouvez la différence" parmi un tas de pièces similaires, et changez le matériau et la couleur de l'objet, et vous devez ajuster les paramètres." Un praticien de la vision 3D a déclaré que les différents besoins des différents champs rendaient la scène d'atterrissage trop fragmentée. Terminez un projet, puis re-personnalisez un autre projet.
**Le coût marginal est difficile à réduire, ce qui transformera une entreprise technologique en une entreprise de projet et finira par l'entraîner vers le bas. **
Le diable est dans les détails.
Quelle est la fragilité de la perception visuelle 3D traditionnelle ? Jia Kui a décrit à Light Cone Intelligence : "Pendant le processus de préhension du bras robotique, si quelqu'un passe et change la lumière, la tâche peut échouer."
Cela est dû au principe d'imagerie de la caméra 3D matérielle. L'imagerie de la caméra 3D est facilement affectée par l'environnement, la forme de l'objet, le matériau, la couleur, le milieu de diffusion, etc., et ce problème est difficile à résoudre en peu de temps.
"Cela peut prendre une centaine d'étapes pour résoudre un problème, mais l'effort de la dernière étape peut être le même que la somme des 99 étapes précédentes." Yang Fan, co-fondateur de SenseTime, a dit un jour que la majeure partie de l'énergie de l'entreprise doit être utilisée pour traiter de petites pièces Problème de longue queue.
Mais maintenant, ** "L'IA générative 2.0 avec une forte polyvalence peut résoudre le problème de la longue traîne, ce qui est très important pour la normalisation des produits", a déclaré Jia Kui. **
Dans le même temps, le coût des données, du développement, du déploiement, du matériel et de l'expansion de l'industrie a également fortement chuté dans chaque lien.
Sous la catalyse de l'IA générative 2.0, une fois que la vision 3D explosera, cela signifie que les scènes verticales qui reposent fortement sur la technologie de vision 3D telles que les bras robotiques, les robots, les véhicules sans pilote et les métaverses accéléreront la consommation du dividende de l'IA.
Des entreprises manufacturières établies telles que Siemens et Ford aux géants de la technologie tels que Nvidia, Tesla, Google et des start-up vedettes telles que Waabi, ils ont tous commencé à travailler dans de nombreux domaines tels que l'industrie, la robotique, la conduite sans pilote, les soins médicaux. , et la vente au détail. Explorez les plus grandes possibilités de l'IA générative 2.0.
Dans le même temps, l'enthousiasme du capital s'est également fortement mobilisé. Selon des statistiques incomplètes, ces dernières années, le financement étranger lié aux données synthétiques a accumulé près de 800 millions de dollars américains.
En Chine, les entreprises liées aux données synthétiques ont également attiré l'attention du capital. En juin 2022, Kuowei Smart a annoncé la clôture du tour de financement pré-A, avec un montant de financement de dizaines de millions de yuans, et un financement cumulé de près de 100 millions de yuans en moins d'un an depuis sa création ; en juillet, ce année, Guanglun Smart a également annoncé l'achèvement du cycle de financement angel +.Le montant cumulé du financement est de dizaines de millions de yuans.
** On peut dire que de la capacité à composer de la poésie à l'apprentissage de la physique, l'IA générative 2.0 ouvre un grand avenir à la numérisation industrielle. **