Google et NVIDIA développent tous deux une technologie de génération de texte-CAO. Comment l'optimiser ?

Écrit par : Reggie Raye

Source : Le Dégradé

Source de l'image : générée par l'outil Unbounded AI

La poussière n’est pas encore retombée sur la technologie de génération de texte en image basée sur l’IA. Mais le résultat est déjà clair : un flot de mauvaises images. Bien sûr, il existe des images de haute qualité, mais cela ne suffit pas à compenser la perte de rapport signal/bruit : pour chaque artiste bénéficiant des pochettes d'album générées par Midjourney, cinquante autres bénéficient des pochettes d'album générées par Midjourney. Trompé par les images deepfake générées. Dans un monde où la réduction du rapport signal/bruit est à l’origine de nombreux maux (pensez à la recherche scientifique, au journalisme, à la responsabilité des gouvernements), ce n’est pas une bonne chose.

Il faut désormais considérer toutes les images avec des pincettes. (C’est vrai, c’est le cas depuis longtemps, mais à mesure que les incidents de deepfakes augmentent, la vigilance des gens devrait également augmenter, ce qui, en plus d’être désagréable, peut être éprouvant sur le plan cognitif.) Une suspicion constante – ou des erreurs d’orientation fréquentes – semble être un prix élevé à payer pour un gadget numérique dont personne ne se soucie et qui n’a jusqu’à présent apporté que peu d’avantages. Espérons – ou, plus exactement, prions – que le rapport coût/bénéfice revienne bientôt à un état raisonnable.

Mais en même temps, nous devrions prêter attention à un nouveau phénomène dans le domaine de l’intelligence artificielle générative : la génération de texte vers CAO basée sur l’intelligence artificielle. Le principe est similaire à un programme de conversion texte-image, sauf qu'au lieu d'une image, le programme renvoie un modèle CAO 3D.

Demandez à l'IA une image de "Mona Lisa, mais portant Balenciaga" et l'IA la convertira en une image 3D

Voici quelques définitions. Premièrement, la conception assistée par ordinateur (CAO) fait référence à des outils logiciels permettant aux utilisateurs de créer des modèles numériques d'objets physiques tels que des tasses, des voitures et des ponts. (Les modèles dans le contexte de la CAO n'ont rien à voir avec les modèles d'apprentissage profond ; Toyota Camry ≠ Réseaux de neurones récurrents.) Mais la CAO est également importante ; essayez de penser à la dernière fois où vous avez vu un objet qui n'avait pas été conçu en CAO.

Cela dit, jetons maintenant un coup d'œil aux grands acteurs qui souhaitent entrer dans le monde de la CAO texte : Autodesk (CLIP-Forge), Google (DreamFusion), OpenAI (Point-E) et NVIDIA (Magic3D). Voici des exemples de chaque entreprise :

Les principaux acteurs n’ont pas empêché l’émergence de startups au rythme de près d’une par mois début 2023, CSM et Sloyd étant peut-être les plus prometteuses.

De plus, il existe des outils fantastiques que l'on peut appeler 2,5 D car leur sortie se situe entre la 2D et la 3D. Le principe de ces outils est que les utilisateurs téléchargent une image, puis l'intelligence artificielle peut deviner à quoi ressemblera l'image dans un espace tridimensionnel.

Cette Greedy Cup utilise l'IA pour transformer l'image de SBF (Sam Bankman-Fried, représenté comme un loup déguisé en mouton et un joueur de cornemuse) en relief (Crédit photo : Reggie Raye/TOMO)

Il ne fait aucun doute que la plateforme open source d’animation et de modélisation Blender est leader dans ce domaine. Le logiciel de modélisation CAO Rhino dispose désormais également de plug-ins tels que SurfaceRelief et Ambrosinus Toolkit, qui peuvent très bien générer des cartes de profondeur 3D à partir d'images ordinaires.

Il faut dire d’emblée que tout cela est passionnant. En tant que concepteur CAO, j’attends avec impatience ces avantages potentiels. Les ingénieurs, les passionnés d’impression 3D et les concepteurs de jeux vidéo sont également parmi tant d’autres qui en bénéficieront.

Cependant, la conversion texte-vers-CAO présente de nombreux inconvénients, dont beaucoup sont graves. Une brève liste est la suivante :

  • Ouvrir la porte à la production massive d'armes, de matériel raciste ou autre matériel répréhensible
  • Déclenchez une vague de modèles indésirables, polluant ainsi la bibliothèque de modèles
  • Enfreint les droits des créateurs de contenu protégés par le droit d'auteur

Quoi qu'il en soit, le texte vers CAD arrive, que nous le voulions ou non. Heureusement, les techniciens peuvent prendre certaines mesures pour améliorer le résultat du programme et réduire ses effets négatifs. Nous avons identifié trois domaines clés dans lesquels de tels programmes peuvent s'améliorer : la conservation des ensembles de données, les langages de modèles d'utilisabilité et le filtrage.

À notre connaissance, ces domaines ont été largement inexplorés dans le contexte du text-to-CAD. L'idée d'un langage de modèles d'utilisabilité recevra une attention particulière car elle a le potentiel d'améliorer considérablement le rendement. Notamment, ce potentiel ne se limite pas à la CAO ; il pourrait améliorer les résultats dans la plupart des domaines de l’IA générative, tels que le texte et les images.

Gestion des ensembles de données

Collection passive

Bien que toutes les méthodes de conversion texte-CAO ne reposent pas sur un ensemble d'entraînement de modèles 3D (DreamFusion de Google est une exception), les ensembles de données de modèles organisés restent l'approche la plus courante. Inutile de dire que la clé ici est de constituer un bon ensemble de modèles sur lesquels s’entraîner.

La clé pour y parvenir est double. Premièrement, les techniciens doivent éviter les sources évidentes de modèles : Thingiverse, Cults3 D, MyMiniFactory. Bien qu’il existe des modèles de haute qualité, la grande majorité sont des déchets. (Le fil Reddit « Pourquoi Thingiverse est-il si mauvais ? » illustre ce problème). Deuxièmement, vous devez rechercher des bibliothèques de modèles de très haute qualité. (Scan the World est probablement le meilleur au monde).

Deuxièmement, les sources des modèles peuvent être pondérées en fonction de leur qualité. Les étudiants en maîtrise ès arts (MFA) sauteraient probablement sur l’occasion de faire un tel travail d’annotation – et étant donné l’injustice du marché du travail, ils n’auraient à payer que très peu.

Planification active

La conservation peut et doit jouer un rôle plus actif. De nombreux musées, collections privées et entreprises de design sont heureux de numériser en 3D leurs collections de design industriel. De plus, en plus de générer un corpus riche, la numérisation crée un enregistrement puissant de notre culture fragile.

La raison pour laquelle les Français ont pu reconstruire la cathédrale Notre-Dame après l'incendie était entièrement due à la technologie de numérisation 3D d'un Américain. Crédit photo : Andrew Tallon/Vassar College

Données riches

Lors du processus de création d’un corpus de haute qualité, les techniciens doivent réfléchir soigneusement à ce qu’ils souhaitent que les données fassent. À première vue, le principal cas d'utilisation pourrait être de « permettre aux responsables des entreprises de matériel informatique de déplacer quelques curseurs, de produire le plan de produit souhaité, puis de passer à la production ». Cependant, si l’on en croit l’historique des échecs de la personnalisation de masse, cette approche est susceptible d’échouer.

Nous pensons qu'un cas d'utilisation plus efficace consiste à « donner aux experts du domaine – tels que les concepteurs industriels d'une entreprise de conception de produits – les moyens d'inviter les ingénieurs jusqu'à ce qu'ils obtiennent un résultat approprié, puis de l'affiner et de le finaliser ».

Un cas d’utilisation comme celui-ci nécessite quelque chose qui n’est peut-être pas évident à première vue. Par exemple, les experts du domaine doivent être capables de télécharger des images de produits de référence, comme dans Midjourney, puis de les étiqueter en fonction de leurs attributs cibles : style, matériaux, dynamique, etc. Dans ce cas, il peut être tentant d’adopter une approche à facettes, dans laquelle les experts peuvent sélectionner le type de style, le type de matériau, etc. dans des menus déroulants. Mais l’expérience montre qu’il n’est pas conseillé d’enrichir l’ensemble de données pour créer des compartiments d’attributs. Le service de streaming musical Pandora a utilisé cette approche manuelle, mais a finalement été battu par Spotify, qui s'est appuyé sur les réseaux de neurones.

récompense

Peu de travaux ont été réalisés dans le domaine strict de la curation des ensembles de données (à quelques exceptions près), nous avons donc beaucoup à gagner. Cela devrait être l’objectif principal des entreprises et des entrepreneurs cherchant un avantage concurrentiel dans la guerre du texte vers la CAO. Un ensemble de données vaste et riche est difficile à créer et difficile à imiter. C'est le meilleur « mote ».

D’un point de vue moins professionnel, une conservation réfléchie des ensembles de données est un moyen idéal pour favoriser la création de beaux produits. Jusqu’à présent, les outils d’IA générative reflètent les priorités de leurs créateurs mais n’ont pas grand-chose à voir avec le goût. Nous devrions prendre position sur l’importance de la beauté. Nous devons nous soucier de savoir si ce que nous mettons au monde fascinera les utilisateurs et résistera à l’épreuve du temps. Nous devrions nous opposer à l’accumulation de produits médiocres sur une vague de médiocrité.

Si certains pensent que la beauté n’est pas une fin en soi, alors peut-être seront-ils convaincus par deux statistiques : la durabilité et le profit.

Les produits les plus emblématiques du siècle dernier - la chaise Eames, l'appareil photo Leica, le scooter Vespa - sont chéris par leurs propriétaires. Des passionnés énergiques les restaurent, les vendent et continuent de les utiliser. Peut-être que leur conception complexe les obligeait à émettre 20 % d’émissions de plus que leurs concurrents de l’époque. Cela n'a pas d'importance. Leur durée de vie se mesure en quarts de siècle plutôt qu’en années, ce qui signifie que leur consommation et leurs émissions sont en réalité moindres.

La Vespa GS 160 de 1963 se vend 13 000 $ en 2023

Quant aux bénéfices, ce n’est un secret pour personne que les beaux produits ont une prime. . Les spécifications de l'iPhone n'ont jamais été comparables à celles de Samsung. Cependant, Apple facture 25 % de plus que Samsung. La jolie sous-compacte Fiat 500 n’a pas une consommation d’essence aussi bonne que la F-150. Mais peu importe, Fiat parie juste, les yuppies sont prêts à payer 5 000 $ de plus pour être mignons.

Langage de modèle d'utilisabilité

Aperçu

Les langages de modèles ont été lancés par le généraliste Christopher Alexander dans les années 1970. Il est défini comme un ensemble de modèles qui se renforcent mutuellement, chacun décrivant un problème de conception et sa solution. Bien que le premier langage de modèles d'Alexander soit destiné à la conception architecturale, il a été utilisé avec succès dans de nombreux domaines (notamment la programmation) et est au moins tout aussi utile dans le domaine de la conception générative.

Dans Text-to-CAD, le langage de motifs se compose d'une séquence de motifs ; par exemple, un motif pour les pièces mobiles, un motif pour les charnières (un sous-ensemble de pièces mobiles, et donc une abstraction de niveau inférieur) et un motif pour la friction. charnières (Un niveau d'abstraction supplémentaire). Le format d’un modèle de charnière à friction est le suivant :

Comme le langage naturel, un langage de modèles comprend un vocabulaire (un ensemble de solutions de conception), une construction (l'emplacement des solutions dans le langage) et une syntaxe (les règles par lesquelles les modèles peuvent résoudre des problèmes). Notez que le modèle ci-dessus « charnière à friction » est un nœud dans un réseau hiérarchique et peut être visualisé visuellement avec un diagramme de réseau orienté.

Ces modèles incarnent les principes fondamentaux du design : les meilleures pratiques en matière de facteurs humains, de fonctionnalité, d’esthétique, etc. Par conséquent, le résultat de ces modes sera plus utilisable, plus facile à comprendre (en évitant les problèmes de boîte noire) et plus facile à affiner.

L’essentiel est qu’à moins qu’un programme de conversion texte-CAO ne prenne en compte les principes fondamentaux de la conception, le résultat sera nul. Ne rien faire est mieux qu'un ordinateur portable qui génère du texte en CAO, mais l'écran ne peut pas rester droit.

Parmi tous ces éléments fondamentaux, le plus important et le plus difficile à prendre en compte est peut-être la conception des facteurs humains. Les facteurs humains à prendre en compte pour concevoir des produits utiles sont presque infinis. L’IA doit identifier et concevoir des problèmes tels que les points de pincement, le pincement des doigts, les arêtes vives mal placées, les proportions ergonomiques, etc.

Pratique

Regardons un exemple pratique. Supposons que Jane soit designer industrielle chez ABC Design Studio, qui a été chargée de concevoir un ordinateur portable de jeu futuriste. Avec la technologie actuelle, Jane pourrait utiliser un programme de CAO comme Fusion 360, accéder à l'espace de travail de conception générative de Fusion et passer une semaine (ou un mois) à travailler avec son équipe pour spécifier toutes les contraintes pertinentes : charges, conditions, cibles, propriétés des matériaux, etc.

Mais quelle que soit la puissance de l'espace de travail de conception générative de Fusion, il ne peut contourner un fait clé : les utilisateurs doivent disposer d'une expertise considérable dans le domaine, de capacités de CAO et de temps.

Une expérience utilisateur plus agréable consiste simplement à insérer du texte dans le programme de CAO jusqu'à ce que le résultat réponde aux exigences de l'utilisateur. Un tel workflow centré sur la conception de schéma pourrait ressembler à ceci :

Jane lance son programme de synthèse texte-CAO : "Montrez-moi quelques exemples de futurs ordinateurs portables de jeu. Inspiré par la forme du support pour ordinateur portable TOMO et la texture de la surface du King Cobra."

*Réaliser complètement la conversion du texte en CAO, qui réalisera la boucle fermée des images aux produits manufacturables. *

Le programme produira six dessins conceptuels, chacun contenant des modèles tels que « disposition du clavier », « structure des charnières » et « disposition des ports des produits électroniques grand public ».

Jane pourrait répondre : "Donnez-moi quelques variantes de l'image 2. Rendre l'écran plus rétracté et le clavier plus texturé."

Jane : « J'aime le troisième, quels sont les paramètres ?

Le système répertorie 20 paramètres – longueur, largeur, hauteur du moniteur, densité des touches, etc. – en fonction du champ « solution » pour le modèle qu'il juge le plus pertinent.

Jane remarque que le type de charnière n'est pas spécifié et saisit « Ajouter un paramètre de type de charnière pour répertorier et exporter le modèle CAO ».

Elle a ouvert le modèle dans Fusion 360 et a été ravie de constater que les charnières à friction appropriées avaient été ajoutées. Parallèlement au paramétrage des charnières, elle a augmenté le paramètre de largeur car elle savait que les clients de Studio ABC souhaitaient que l'écran puisse résister à une utilisation intensive.

Jane a continué à faire des ajustements jusqu'à ce qu'elle soit entièrement satisfaite de la forme et de la fonction. De cette façon, elle pourra le donner à son collègue Joe, un ingénieur en mécanique, qui le vérifiera et verra quelles pièces personnalisées peuvent être remplacées par des versions d'origine.

Enfin, la direction du Studio ABC sera contente car le processus de conception d'un ordinateur portable a été raccourci d'une moyenne de 6 mois à 1 mois. Pour leur plus grand plaisir, grâce à la technologie paramétrique, toutes les modifications demandées par les clients peuvent être rapidement prises en compte sans nécessiter de refonte.

Filtrage approfondi

Comme l’a souligné l’éthicienne de l’IA Irene Solaiman dans une récente interview, l’IA générative a besoin de toute urgence de garanties approfondies. Même avec une approche en langage de modèles, l’IA générative ne peut à elle seule empêcher les mauvais résultats. C’est là qu’interviennent les garde-corps.

Nous devons être en mesure de détecter et de rejeter les invites concernant les armes, les contenus sanglants, les contenus pédopornographiques (CSAM) et autres contenus répréhensibles. Les technologues qui craignent des poursuites pourraient ajouter des produits protégés par le droit d'auteur à cette liste. Cependant, si nous parlons d’expérience, les invites répréhensibles peuvent représenter une part importante des requêtes.

Bon nombre de ces exigences seront satisfaites une fois que le modèle texte-CAO sera open source ou aura fait l'objet d'une fuite. (Si la saga Defence Distributed nous a appris quelque chose, c'est que le génie ne retourne jamais dans la bouteille ; grâce à une récente décision du Texas, les Américains peuvent désormais légalement télécharger l'AR-15, l'imprimer en 3D et, s'il se sent menacé. -- peut l'utiliser pour tirer sur quelqu'un).

De plus, nous avons besoin de critères de performance largement partagés, similaires à ceux qui émergent autour des LLM. Après tout, si vous ne pouvez pas le mesurer, vous ne pouvez pas l’améliorer.

____

En résumé, l’émergence d’une technologie de génération de texte en CAO basée sur l’IA comporte à la fois des risques et des opportunités, le rapport entre les deux étant encore incertain. La prolifération de modèles CAO de mauvaise qualité et de contenus toxiques ne sont que quelques-uns des problèmes qui nécessitent une attention immédiate.

Les techniciens peuvent également prêter une attention utile à certains domaines négligés. La conservation de l'ensemble de données est cruciale : nous devons retracer des modèles de haute qualité à partir de sources de haute qualité et explorer d'autres méthodes, telles que la numérisation de collections de dessins industriels. Un langage de modèles d’utilisabilité peut fournir un cadre puissant pour intégrer les meilleures pratiques de conception. De plus, le langage de modèles fournira un cadre puissant pour la génération de paramètres de modèle CAO, qui pourront être ajustés jusqu'à ce que le modèle réponde aux exigences de son utilisation. Enfin, des technologies de filtrage complètes doivent être développées pour empêcher la génération de contenus dangereux.

Nous espérons que les idées présentées dans cet article aideront les technologues à éviter les pièges qui ont tourmenté l'IA générative jusqu'à présent et à améliorer les capacités de conversion texte-to-CAO pour fournir de bons modèles qui profiteront aux nombreuses personnes qui les utiliseront.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)