Google y NVIDIA están desarrollando tecnología de generación de CAD de texto, ¿cómo se debe optimizar?

Question

Escrito por: Reggie RayeFuente: El gradiente![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-87ac08824b-dd1a6f-6d2ef1) *Fuente de la imagen: generada por la herramienta Unbounded AI*El polvo aún no se ha asentado en la tecnología de generación de texto a imagen impulsada por IA. Sin embargo, los resultados ya son claros: una avalancha de malas imágenes. Claro, hay algunas imágenes de alta calidad, pero eso no es suficiente para compensar la pérdida en la relación señal-ruido: por cada artista que se beneficia de las portadas de álbumes generadas por Midjourney, hay otros cincuenta que se benefician de las carátulas de álbumes generadas por Midjourney. Engañado por imágenes deepfake generadas. En un mundo donde la reducción de la relación señal-ruido es la raíz de muchos males (pensemos en la investigación científica, el periodismo, la responsabilidad gubernamental), eso no es algo bueno.Ahora es necesario ver todas las imágenes con cautela. (Por supuesto, este ha sido el caso durante mucho tiempo, pero a medida que aumentan los incidentes de deepfakes, también debería hacerlo la vigilancia de la gente, que, además de ser desagradable, puede ser cognitivamente agotadora). La sospecha constante (o la frecuente mala dirección) parece un alto precio a pagar por un dispositivo digital que a nadie le importa y que hasta ahora ha brindado pocos beneficios. Es de esperar (o, más apropiadamente, rezar) que la relación costo-beneficio pronto llegue a un estado sensato.Pero al mismo tiempo, debemos prestar atención a un nuevo fenómeno en el campo de la inteligencia artificial generativa: la generación de texto a CAD impulsada por inteligencia artificial. La premisa es similar a un programa de conversión de texto a imagen, excepto que en lugar de una imagen, el programa devuelve un modelo CAD 3D.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7f802bc7e6-dd1a6f-6d2ef1) *Pídele a la IA una imagen de "Mona Lisa, pero con Balenciaga" y la IA la convertirá en una imagen 3D*A continuación se muestran algunas definiciones. En primer lugar, el diseño asistido por computadora (CAD) se refiere a herramientas de software que permiten a los usuarios crear modelos digitales de objetos físicos como tazas, automóviles y puentes. (Los modelos en el contexto de CAD no tienen nada que ver con los modelos de aprendizaje profundo; Toyota Camry ≠ Redes neuronales recurrentes.) Pero el CAD también es importante; trate de pensar en la última vez que vio un objeto que no fue diseñado en CAD.Una vez dichas las definiciones, echemos un vistazo a los grandes actores que quieren ingresar al mundo de la conversión de texto a CAD: Autodesk (CLIP-Forge), Google (DreamFusion), OpenAI (Point-E) y NVIDIA (Magic3D). A continuación se muestran ejemplos de cada empresa:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7c24eff168-dd1a6f-6d2ef1) Los principales actores no han impedido que surjan nuevas empresas a un ritmo de casi una por mes a principios de 2023, siendo CSM y Sloyd quizás los más prometedores.Además, hay algunas herramientas fantásticas que pueden denominarse 2,5 D porque su salida está entre 2-D y 3-D. El principio de estas herramientas es que los usuarios cargan una imagen y luego la inteligencia artificial puede adivinar cómo se verá la imagen en un espacio tridimensional.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fe9b9357cd-dd1a6f-6d2ef1) *Esta Greedy Cup utiliza IA para convertir la imagen de SBF (Sam Bankman-Fried, representado como un lobo con piel de oveja y un flautista) en un relieve (Crédito de la foto: Reggie Raye/TOMO)*No hay duda de que la plataforma de modelado y animación de código abierto Blender es líder en este campo. El software de modelado CAD Rhino ahora también tiene complementos como SurfaceRelief y Ambrosinus Toolkit, que pueden generar muy bien mapas de profundidad 3D a partir de imágenes normales.Hay que decir desde el principio que todo esto es apasionante. Como diseñador CAD, anticipo con impaciencia estos beneficios potenciales. Ingenieros, entusiastas de la impresión 3D y diseñadores de videojuegos se encuentran entre muchos otros que también se beneficiarán.Sin embargo, la conversión de texto a CAD tiene muchas desventajas, muchas de las cuales son graves. Una breve lista es la siguiente:* Abrir la puerta a la producción masiva de armas, material racista u otro material objetable.* Desencadenar una ola de modelos basura, contaminando así la biblioteca de modelos.* Infringe los derechos de los creadores de contenido con derechos de autor.De todos modos, el texto a CAD llegará, lo queramos o no. Afortunadamente, hay medidas que los técnicos pueden tomar para mejorar el resultado del programa y reducir sus efectos negativos. Hemos identificado tres áreas clave donde dichos programas pueden mejorar: conservación de conjuntos de datos, lenguajes de patrones de usabilidad y filtrado.Hasta donde sabemos, estas áreas han estado en gran medida inexploradas en el contexto de texto a CAD. La idea de un lenguaje de patrones de usabilidad recibirá especial atención porque tiene el potencial de mejorar significativamente el resultado. En particular, este potencial no se limita al CAD; podría mejorar los resultados en la mayoría de las áreas de la IA generativa, como el texto y las imágenes.## **Gestión de conjuntos de datos**### **Colección pasiva**Si bien no todos los métodos de conversión de texto a CAD se basan en un conjunto de entrenamiento de modelos 3D (DreamFusion de Google es una excepción), los conjuntos de datos de modelos seleccionados siguen siendo el enfoque más común. No hace falta decir que la clave aquí es seleccionar un buen conjunto de modelos sobre los que entrenar.La clave para lograrlo es doble. Primero, los técnicos deberían evitar las fuentes obvias de modelos: Thingiverse, Cults3 D, MyMiniFactory. Si bien existen modelos de alta calidad, la gran mayoría son basura. (El hilo de Reddit “¿Por qué Thingiverse es tan malo?” ilustra este problema). En segundo lugar, debes buscar bibliotecas de modelos de altísima calidad. (Scan the World es probablemente el mejor del mundo).En segundo lugar, las fuentes modelo pueden ponderarse según su calidad. Los estudiantes de Maestría en Artes probablemente aprovecharían la oportunidad de realizar ese trabajo de anotación y, dada la injusticia del mercado laboral, tendrían que pagar muy poco.### **Planificación activa**La curación puede y debe asumir un papel más activo. Muchos museos, colecciones privadas y empresas de diseño están felices de escanear en 3D sus colecciones de diseño industrial. Además, además de generar un corpus rico, el escaneo crea un registro poderoso de nuestra frágil cultura.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b022eb5c2a-dd1a6f-6d2ef1) *La razón por la que los franceses pudieron reconstruir la Catedral de Notre Dame después del incendio se debió enteramente a la tecnología de escaneo 3D de un estadounidense. Crédito de la foto: Andrew Tallon/Vassar College*### **Datos enriquecidos**En el proceso de creación de un corpus de alta calidad, los técnicos deben pensar detenidamente qué quieren que hagan los datos. A primera vista, el caso de uso principal podría ser "capacitar a los gerentes de las empresas de hardware para que muevan algunos controles deslizantes, generen el plano del producto deseado y luego continúen con la producción". Sin embargo, si el historial de fallos masivos de personalización sirve de indicación, es probable que este enfoque fracase.Creemos que un caso de uso más eficaz es "capacitar a los expertos en el campo, como los diseñadores industriales de una empresa de diseño de productos, para que impulsen a los ingenieros hasta que obtengan un resultado adecuado, y luego lo ajusten y finalicen".Un caso de uso como este requiere algo que puede no ser obvio a primera vista. Por ejemplo, los expertos en el dominio deben poder cargar imágenes de productos de referencia, como en Midjourney, y luego etiquetarlas según sus atributos objetivo: estilo, materiales, dinámica, etc. En este caso, podría resultar tentador adoptar un enfoque por facetas, en el que los expertos puedan seleccionar el tipo de estilo, el tipo de material, etc. en menús desplegables. Pero la experiencia demuestra que no es aconsejable enriquecer el conjunto de datos para crear grupos de atributos. El servicio de transmisión de música Pandora utilizó este enfoque manual, pero finalmente fue derrotado por Spotify, que dependía de redes neuronales.### **premio**Se ha trabajado poco en el área estricta de conservación de conjuntos de datos (con algunas excepciones), por lo que tenemos mucho que ganar con ello. Este debería ser el objetivo principal de las empresas y emprendedores que buscan una ventaja competitiva en la guerra de texto a CAD. Un conjunto de datos grande y rico es difícil de crear y de imitar, esta es la mejor "mota".Desde una perspectiva menos corporativa, la curación cuidadosa de conjuntos de datos es una forma ideal de impulsar la creación de productos atractivos. Hasta la fecha, las herramientas de IA generativa han reflejado las prioridades de sus creadores pero tienen poco que ver con el gusto. Deberíamos defender la importancia de la belleza. Deberíamos preocuparnos de si lo que traemos al mundo fascinará a los usuarios y resistirá la prueba del tiempo. Deberíamos estar en contra de amontonar productos mediocres sobre una ola de mediocridad.Si algunas personas creen que la belleza no es un fin en sí misma, quizás dos estadísticas las convenzan: la sostenibilidad y el beneficio.Los productos más emblemáticos del siglo pasado (la silla Eames, la cámara Leica, la scooter Vespa) son atesorados por sus propietarios. Los entusiastas energéticos los restauran, los venden y continúan usándolos. Quizás su complejo diseño les exigía emitir un 20% más de emisiones que sus competidores en aquel momento. No importa. Su vida útil se mide en cuartos de siglo en lugar de años, lo que significa que su consumo y sus emisiones son en realidad menores.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-701b056d61-dd1a6f-6d2ef1) *Vespa GS 160 1963 se venderá por 13.000 dólares en 2023*En cuanto a las ganancias, no es ningún secreto que los productos bellos tienen un precio elevado. . Las especificaciones del iPhone nunca han sido comparables a las de Samsung. Sin embargo, Apple cobra un 25% más que Samsung. El lindo subcompacto Fiat 500 no obtiene un rendimiento de gasolina tan bueno como el F-150. Pero no importa, Fiat apuesta bien: los yuppies están dispuestos a pagar 5.000 dólares extra por algo lindo.## **Lenguaje de patrones de usabilidad**### **Descripción general**Los lenguajes de patrones fueron iniciados por el generalista Christopher Alexander en la década de 1970. Se define como un conjunto de patrones que se refuerzan mutuamente, cada uno de los cuales describe un problema de diseño y su solución. Aunque el primer lenguaje de patrones de Alexander estaba destinado al diseño arquitectónico, se ha utilizado con éxito en muchos campos (sobre todo en programación) y es al menos igualmente útil en el campo del diseño generativo.En la conversión de texto a CAD, el lenguaje de patrones consta de una secuencia de patrones; por ejemplo, un patrón para piezas móviles, un patrón para bisagras (un subconjunto de piezas móviles y, por lo tanto, un nivel de abstracción inferior) y un patrón para fricción. bisagras (Un nivel más de abstracción). El formato de un patrón de bisagra de fricción es el siguiente:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b84c05dfa0-dd1a6f-6d2ef1) Al igual que el lenguaje natural, un lenguaje de patrones incluye vocabulario (un conjunto de soluciones de diseño), construcción (la ubicación de las soluciones en el lenguaje) y sintaxis (las reglas mediante las cuales los patrones pueden resolver problemas). Tenga en cuenta que el patrón anterior "bisagra de fricción" es un nodo en una red jerárquica y se puede visualizar visualmente con un diagrama de red dirigido.Estos patrones encarnan los fundamentos del diseño: mejores prácticas en factores humanos, funcionalidad, estética y más. Por lo tanto, la salida de estos modos será más utilizable, más fácil de entender (evitando problemas de caja negra) y más fácil de ajustar.La conclusión es que, a menos que un programa de conversión de texto a CAD tenga en cuenta los fundamentos del diseño, el resultado será basura. No hacer nada es mejor que una computadora portátil que genera texto a CAD pero la pantalla no puede permanecer en posición vertical.De todos estos elementos fundamentales, quizás el más importante y difícil de considerar sea el diseño de factores humanos. Los factores humanos que deben considerarse para diseñar productos útiles son casi infinitos. La IA debe identificar y diseñar problemas como puntos de pellizco, pellizcos en los dedos, bordes afilados fuera de lugar, proporciones ergonómicas y más.### **Práctica**Veamos un ejemplo práctico. Supongamos que Jane es diseñadora industrial en ABC Design Studio, a quien se le ha encargado diseñar una computadora portátil para juegos futurista. Con la tecnología actual, Jane podría usar un programa CAD como Fusion 360, ingresar al espacio de trabajo de diseño generativo de Fusion y pasar una semana (o un mes) trabajando con su equipo para especificar todas las restricciones relevantes: cargas, condiciones, objetivos, propiedades de los materiales, etc.Pero no importa cuán poderoso sea el espacio de trabajo de diseño generativo de Fusion, no puede eludir un hecho clave: los usuarios deben tener experiencia en el dominio, capacidades de CAD y tiempo considerables.Una experiencia de usuario más agradable es simplemente introducir texto en el programa CAD hasta que su resultado cumpla con los requisitos del usuario. Un flujo de trabajo centrado en el diseño de esquemas podría verse así:Jane solicita su programa de conversión de texto a CAD: "Muéstreme algunos ejemplos de futuras computadoras portátiles para juegos. Inspirándose en la forma del soporte para computadora portátil TOMO y la textura de la superficie del King Cobra".![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b456a111b2-dd1a6f-6d2ef1) * Realizar completamente la conversión de texto a CAD, lo que realizará el ciclo cerrado de imágenes a productos fabricables. *El programa generará seis dibujos conceptuales, cada uno de los cuales contiene patrones como "diseño de teclado", "estructura de bisagra" y "diseño de puertos de productos electrónicos de consumo".Jane podría responder: "Dame algunas variaciones de la imagen 2. Haz que la pantalla esté más retraída y el teclado tenga más textura".Jane: "Me gusta el tercero, ¿cuáles son los parámetros?"El sistema enumera 20 parámetros (largo, ancho, alto del monitor, densidad de claves, etc.) según el campo "solución" para el patrón que considera más relevante.Jane nota que el tipo de bisagra no está especificado y ingresa "Agregar parámetro de tipo de bisagra a la lista y exportar modelo CAD".Abrió el modelo en Fusion 360 y le complació ver que se habían agregado las bisagras de fricción adecuadas. Junto con la parametrización de las bisagras, aumentó el parámetro del ancho porque sabía que los clientes de Studio ABC querían que la pantalla pudiera soportar un uso intensivo.Jane continuó haciendo ajustes hasta que estuvo completamente satisfecha con la forma y función. De esa manera, podrá dárselo a su colega Joe, un ingeniero mecánico, quien lo revisará y verá qué piezas personalizadas se pueden reemplazar con versiones originales.Finalmente, la dirección de Studio ABC estará contenta porque el proceso de diseño del portátil se ha acortado de una media de 6 meses a 1 mes. Para su deleite, gracias a la tecnología paramétrica, cualquier modificación solicitada por los clientes se puede realizar rápidamente sin necesidad de rediseñar.## **Filtrado exhaustivo**Como señaló la especialista en ética de la IA Irene Solaiman en una entrevista reciente, la IA generativa necesita urgentemente salvaguardias exhaustivas. Incluso con un enfoque de lenguaje de patrones, la IA generativa por sí sola no puede prevenir malos resultados. Aquí es donde entran las barandillas.Necesitamos ser capaces de detectar y rechazar solicitudes de armas, sangre, material de abuso sexual infantil (CSAM) y otro contenido objetable. Los tecnólogos que temen demandas podrían agregar productos protegidos por derechos de autor a esa lista. Sin embargo, si hablamos por experiencia, las indicaciones objetables pueden representar una parte importante de las consultas.Muchos de estos requisitos se cumplirán una vez que el modelo de texto a CAD sea de código abierto o se filtre. (Si algo nos ha enseñado la saga Defense Distributed es que el genio nunca vuelve a la botella; gracias a un fallo reciente en Texas, los estadounidenses ahora pueden descargar legalmente AR-15, imprimirlo en 3D y, si se siente amenazado -- puede usarlo para dispararle a alguien).Además, necesitamos puntos de referencia de desempeño ampliamente compartidos, similares a los que surgen en torno a los LLM. Después de todo, si no puedes medirlo, no puedes mejorarlo.\_\_\_\_En resumen, el surgimiento de la tecnología de generación de texto a CAD impulsada por IA trae consigo riesgos y oportunidades, y la relación entre ambos aún es incierta. La proliferación de modelos CAD de baja calidad y el contenido tóxico son sólo algunos de los problemas que requieren atención inmediata.Los técnicos también pueden prestar atención útil a algunas áreas desatendidas. La conservación del conjunto de datos es crucial: necesitamos rastrear modelos de alta calidad a partir de fuentes de alta calidad y explorar otros métodos, como escanear colecciones de diseños industriales. Un lenguaje de patrones de usabilidad puede proporcionar un marco poderoso para incorporar las mejores prácticas de diseño. Además, el lenguaje de patrones proporcionará un marco poderoso para la generación de parámetros del modelo CAD, que se pueden ajustar hasta que el modelo cumpla con los requisitos para su uso. Por último, es necesario desarrollar tecnologías de filtrado integrales para evitar la generación de contenidos peligrosos.Esperamos que las ideas presentadas en este artículo ayuden a los tecnólogos a evitar los obstáculos que han afectado a la IA generativa hasta la fecha y mejorar las capacidades de texto a CAD para ofrecer buenos modelos que beneficiarán a muchas personas que los utilizarán.