Google e NVIDIA estão desenvolvendo tecnologia de geração de CAD de texto. Como ela deve ser otimizada?

Question

Escrito por: Reggie RayeFonte: O Gradiente![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-87ac08824b-dd1a6f-6d2ef1) *Fonte da imagem: gerada pela ferramenta Unbounded AI*A poeira ainda não baixou na tecnologia de geração de texto para imagem baseada em IA. Porém, os resultados já são claros: uma enxurrada de imagens ruins. Claro, existem algumas imagens de alta qualidade, mas isso não é suficiente para compensar a perda na relação sinal-ruído - para cada artista que se beneficia das capas de álbuns geradas pelo Midjourney, há cinquenta outros que se beneficiam da arte do álbum gerada pelo Midjourney. Enganado por imagens deepfake geradas. Num mundo onde a redução da relação sinal-ruído é a raiz de muitos males (pense na investigação científica, no jornalismo, na responsabilização governamental), isso não é uma coisa boa.Agora é necessário visualizar todas as imagens com cautela. (É verdade que este tem sido o caso há muito tempo, mas à medida que aumentam os incidentes de deepfakes, também deve aumentar a vigilância das pessoas, que, além de ser desagradável, pode ser cognitivamente desgastante.) A suspeita constante – ou o desvio frequente de orientação – parece ser um preço elevado a pagar por um dispositivo digital com o qual ninguém se preocupa e que até agora trouxe poucos benefícios. Esperemos - ou, mais apropriadamente, rezamos - que a relação custo-benefício chegue em breve a um estado sensato.Mas, ao mesmo tempo, devemos prestar atenção a um novo fenómeno no campo da inteligência artificial generativa: a geração de texto para CAD orientada pela inteligência artificial. A premissa é semelhante a um programa de texto para imagem, exceto que em vez de uma imagem, o programa retorna um modelo CAD 3D.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7f802bc7e6-dd1a6f-6d2ef1) *Peça à IA uma imagem de "Mona Lisa, mas usando Balenciaga" e a IA irá convertê-la em uma imagem 3D*Aqui estão algumas definições. Primeiro, o design auxiliado por computador (CAD) refere-se a ferramentas de software que permitem aos usuários criar modelos digitais de objetos físicos, como copos, carros e pontes. (Os modelos no contexto do CAD não têm nada a ver com modelos de aprendizagem profunda; Toyota Camry ≠ Redes Neurais Recorrentes.) Mas o CAD também é importante; tente pensar na última vez em que viu um objeto que não foi projetado em CAD.Ditas as definições, agora vamos dar uma olhada nos grandes players que desejam entrar no mundo do texto para CAD: Autodesk (CLIP-Forge), Google (DreamFusion), OpenAI (Point-E) e NVIDIA (Magic3D). Aqui estão exemplos de cada empresa:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7c24eff168-dd1a6f-6d2ef1) Os principais players não impediram o surgimento de startups a uma taxa de quase uma por mês no início de 2023, sendo CSM e Sloyd talvez os mais promissores.Além disso, existem algumas ferramentas fantásticas que podem ser chamadas de 2,5 D porque sua saída está em algum lugar entre 2D e 3D. O princípio dessas ferramentas é que os usuários carreguem uma imagem e então a inteligência artificial poderá adivinhar como a imagem ficará no espaço tridimensional.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fe9b9357cd-dd1a6f-6d2ef1) *Esta Greedy Cup usa IA para transformar a imagem de SBF (Sam Bankman-Fried, retratado como um lobo em pele de cordeiro e um flautista) em um relevo (Foto: Reggie Raye/TOMO)*Não há dúvida de que a plataforma de animação e modelagem de código aberto Blender é líder neste campo. O software de modelagem CAD Rhino agora também possui plug-ins como SurfaceRelief e Ambrosinus Toolkit, que podem gerar muito bem mapas de profundidade 3D a partir de imagens comuns.Deve-se dizer desde o início que tudo isso é emocionante. Como designer de CAD, antecipo ansiosamente esses benefícios potenciais. Engenheiros, entusiastas da impressão 3D e designers de videogames estão entre muitos outros que também serão beneficiados.No entanto, o texto para CAD tem muitas desvantagens, muitas das quais são graves. Uma breve lista é a seguinte:* Abrindo a porta para a produção em massa de armas, materiais racistas ou outros materiais censuráveis* Desencadeia uma onda de modelos inúteis, poluindo assim a biblioteca de modelos* Viola os direitos dos criadores de conteúdo protegido por direitos autoraisDe qualquer forma, o texto para CAD está chegando, queiramos ou não. Felizmente, existem medidas que os técnicos podem tomar para melhorar os resultados do programa e reduzir os seus efeitos negativos. Identificamos três áreas principais onde esses programas podem melhorar: curadoria de conjuntos de dados, linguagens de padrões de usabilidade e filtragem.Até onde sabemos, essas áreas têm sido amplamente inexploradas no contexto de texto para CAD. A ideia de uma linguagem de padrões de usabilidade receberá atenção especial porque tem o potencial de melhorar significativamente o resultado. Notavelmente, este potencial não se limita ao CAD; poderia melhorar os resultados na maioria das áreas da IA generativa, tais como texto e imagens.## **Gerenciamento de conjunto de dados**### **Coleta passiva**Embora nem todos os métodos de conversão de texto em CAD dependam de um conjunto de treinamento de modelos 3D (o DreamFusion do Google é uma exceção), os conjuntos de dados de modelos selecionados continuam sendo a abordagem mais comum. Escusado será dizer que a chave aqui é selecionar um bom conjunto de modelos para treinar.A chave para conseguir isso é dupla. Primeiro, os técnicos devem evitar as fontes óbvias de modelos: Thingiverse, Cults3 D, MyMiniFactory. Embora existam modelos de alta qualidade por aí, a grande maioria é lixo. (O tópico do Reddit “Por que o Thingiverse é tão ruim?” ilustra esse problema). Em segundo lugar, você deve procurar bibliotecas de modelos de altíssima qualidade. (Scan the World é provavelmente o melhor do mundo).Em segundo lugar, as fontes do modelo podem ser ponderadas de acordo com a qualidade. Os estudantes do Mestrado em Artes (MFA) provavelmente aproveitariam a oportunidade para fazer esse tipo de trabalho de anotação – e dada a injustiça do mercado de trabalho, teriam de pagar muito pouco.### **Planejamento ativo**A curadoria pode e deve assumir um papel mais ativo. Muitos museus, coleções particulares e empresas de design ficam felizes em digitalizar em 3D suas coleções de design industrial. Além disso, além de gerar um corpus rico, a digitalização cria um registro poderoso da nossa frágil cultura.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b022eb5c2a-dd1a6f-6d2ef1) *A razão pela qual os franceses conseguiram reconstruir a Catedral de Notre Dame após o incêndio foi inteiramente devido à tecnologia de digitalização 3D de um americano. Crédito da foto: Andrew Tallon/Vassar College*### **Dados ricos**No processo de criação de um corpus de alta qualidade, os técnicos devem pensar cuidadosamente sobre o que desejam que os dados façam. À primeira vista, o principal caso de uso pode ser “capacitar os gerentes de uma empresa de hardware para mover alguns controles deslizantes, gerar o modelo do produto desejado e, em seguida, prosseguir para a produção”. No entanto, se o histórico de falhas na customização em massa servir de indicação, essa abordagem provavelmente falhará.Acreditamos que um caso de uso mais eficaz é 'capacitar especialistas do domínio - como designers industriais em uma empresa de design de produto - para alertar os engenheiros até que obtenham um resultado adequado e, em seguida, fazer o ajuste fino e finalizar'.Um caso de uso como este requer algo que pode não ser óbvio à primeira vista. Por exemplo, os especialistas do domínio precisam ser capazes de fazer upload de imagens de produtos de referência, como no Midjourney, e depois marcá-los com base nos atributos alvo – estilo, materiais, dinâmica, etc. Neste caso, pode ser tentador adotar uma abordagem facetada, onde os especialistas podem selecionar o tipo de estilo, tipo de material, etc. em menus suspensos. Mas a experiência mostra que não é aconselhável enriquecer o conjunto de dados para criar grupos de atributos. O serviço de streaming de música Pandora usou essa abordagem manual, mas acabou sendo derrotado pelo Spotify, que dependia de redes neurais.### **recompensa**Pouco trabalho tem sido feito na área estrita de curadoria de conjuntos de dados (com algumas exceções), então temos muito a ganhar com isso. Este deveria ser o objetivo principal para empresas e empreendedores que buscam uma vantagem competitiva na guerra do texto para CAD. Um conjunto de dados grande e rico é difícil de criar e imitar. Este é o melhor "mote".De uma perspectiva menos corporativa, a curadoria criteriosa de conjuntos de dados é uma maneira ideal de impulsionar a criação de produtos bonitos. Até à data, as ferramentas generativas de IA reflectiram as prioridades dos seus criadores, mas têm pouco a ver com gosto. Deveríamos defender a importância da beleza. Devemos nos preocupar se o que trazemos ao mundo irá fascinar os usuários e resistir ao teste do tempo. Deveríamos ser contra o empilhamento de produtos medíocres numa onda de mediocridade.Se algumas pessoas acreditam que a beleza não é um fim em si mesma, então talvez sejam convencidas por duas estatísticas: sustentabilidade e lucro.Os produtos mais icónicos do século passado – a cadeira Eames, a câmara Leica, a scooter Vespa – são apreciados pelos seus proprietários. Entusiastas energéticos os restauram, vendem e continuam a usá-los. Talvez o seu design complexo exigisse que emitiam 20% mais emissões do que os seus concorrentes na altura. Não importa. A sua esperança de vida é medida em quartos de século e não em anos, o que significa que o seu consumo e emissões são, na verdade, menores.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-701b056d61-dd1a6f-6d2ef1) *1963 Vespa GS 160 é vendida por US$ 13.000 em 2023*Quanto aos lucros, não é segredo que produtos bonitos têm um valor elevado. . As especificações do iPhone nunca foram comparáveis às da Samsung. No entanto, a Apple cobra 25% mais que a Samsung. O lindo subcompacto Fiat 500 não consegue um consumo de combustível tão bom quanto o F-150. Mas não importa, a Fiat aposta certo, os yuppies estão dispostos a pagar US$ 5.000 extras por fofura.## **Linguagem de padrão de usabilidade**### **Visão geral**As linguagens de padrões foram iniciadas pelo generalista Christopher Alexander na década de 1970. É definido como um conjunto de padrões que se reforçam mutuamente, cada um descrevendo um problema de design e sua solução. Embora a primeira linguagem de padrões de Alexander tenha sido destinada ao projeto arquitetônico, ela tem sido usada com sucesso em muitos campos (principalmente na programação) e é pelo menos igualmente útil no campo do projeto generativo.No texto para CAD, a linguagem de padrões consiste em uma sequência de padrões; por exemplo, um padrão para peças móveis, um padrão para dobradiças (um subconjunto de peças móveis e, portanto, um nível de abstração inferior) e um padrão para fricção. dobradiças (mais um nível de abstração). O formato de um padrão de dobradiça de fricção é o seguinte:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b84c05dfa0-dd1a6f-6d2ef1) Assim como a linguagem natural, uma linguagem de padrões inclui vocabulário (um conjunto de soluções de design), construção (a localização das soluções na linguagem) e sintaxe (as regras pelas quais os padrões podem resolver problemas). Observe que o padrão "dobradiça de fricção" acima é um nó em uma rede hierárquica e pode ser visualizado visualmente com um diagrama de rede direcionado.Esses padrões incorporam os fundamentos do design – melhores práticas em fatores humanos, funcionalidade, estética e muito mais. Portanto, a saída desses modos será mais utilizável, mais fácil de entender (evitando problemas de caixa preta) e mais fácil de ajustar.O resultado final é que, a menos que um programa de texto para CAD leve em consideração os fundamentos do design, a saída será um lixo. Não fazer nada é melhor do que um laptop que gera texto para CAD, mas a tela não consegue ficar na posição vertical.De todos estes elementos fundamentais, talvez o mais importante e mais difícil de considerar seja o design dos factores humanos. Os fatores humanos que precisam ser considerados para projetar produtos úteis são quase infinitos. A IA deve identificar e projetar problemas como pontos de esmagamento, pinçamento de dedos, bordas afiadas mal posicionadas, proporções ergonômicas e muito mais.### **Prática**Vejamos um exemplo prático. Suponha que Jane seja uma designer industrial do ABC Design Studio, que foi contratada para projetar um laptop futurista para jogos. Com a tecnologia atual, Jane poderia usar um programa CAD como o Fusion 360, entrar no espaço de trabalho de design generativo do Fusion e passar uma semana (ou um mês) trabalhando com sua equipe para especificar todas as restrições relevantes: cargas, condições, metas, propriedades do material, etc.Mas não importa o quão poderoso seja o espaço de trabalho de design generativo do Fusion, ele não pode contornar um fato importante: os usuários devem ter considerável experiência no domínio, recursos de CAD e tempo.Uma experiência de usuário mais agradável é simplesmente inserir texto no programa CAD até que sua saída atenda aos requisitos do usuário. Esse fluxo de trabalho centrado no design de esquema pode ser assim:Jane solicita seu programa de texto para CAD: "Mostre-me alguns exemplos de futuros laptops para jogos. Inspirados no formato do suporte para laptop TOMO e na textura da superfície do King Cobra."![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b456a111b2-dd1a6f-6d2ef1) *Realize completamente a conversão de texto em CAD, que realizará o ciclo fechado de imagens a produtos manufaturados. *O programa produzirá seis desenhos conceituais, cada um contendo padrões como “layout do teclado”, “estrutura da dobradiça” e “layout da porta de produtos eletrônicos de consumo”.Jane poderia responder: "Dê-me algumas variações da imagem 2. Deixe a tela mais retraída e o teclado mais texturizado."Jane: “Gosto do terceiro, quais são os parâmetros?”O sistema lista 20 parâmetros – comprimento, largura, altura do monitor, densidade de teclas, etc. – com base no campo “solução” do padrão que considera mais relevante.Jane percebe que o tipo de dobradiça não está especificado e insere "Adicionar parâmetro de tipo de dobradiça para listar e exportar modelo CAD".Ela abriu o modelo no Fusion 360 e ficou satisfeita ao ver que as dobradiças de fricção apropriadas foram adicionadas. Junto com a parametrização da dobradiça, ela aumentou o parâmetro de largura porque sabia que os clientes do Studio ABC queriam que a tela fosse capaz de suportar uso intenso.Jane continuou a fazer ajustes até ficar completamente satisfeita com a forma e a função. Dessa forma, ela poderá entregá-lo ao colega Joe, engenheiro mecânico, que verificará e verá quais peças personalizadas podem ser substituídas por versões de estoque.Finalmente, a administração do Studio ABC ficará feliz porque o processo de design do laptop foi reduzido de uma média de 6 meses para 1 mês. Para sua alegria, graças à tecnologia paramétrica, quaisquer modificações solicitadas pelos clientes podem ser rapidamente acomodadas sem a necessidade de redesenho.## **Filtragem completa**Como salientou a especialista em ética da IA, Irene Solaiman, numa entrevista recente, a IA generativa precisa urgentemente de salvaguardas completas. Mesmo com uma abordagem de linguagem de padrões, a IA generativa por si só não pode evitar resultados ruins. É aqui que entram os guarda-corpos.Precisamos ser capazes de detectar e rejeitar solicitações de armas, sangue coagulado, material de abuso sexual infantil (CSAM) e outros conteúdos questionáveis. Os tecnólogos que temem processos judiciais podem adicionar produtos protegidos por direitos autorais a esta lista. No entanto, se falarmos por experiência própria, solicitações questionáveis podem ser responsáveis por uma parcela significativa das consultas.Muitos desses requisitos serão atendidos quando o modelo de texto para CAD for de código aberto ou vazar. (Se a saga da Defense Distributed nos ensinou alguma coisa, é que o gênio nunca volta para a garrafa; graças a uma decisão recente no Texas, os americanos agora podem baixar legalmente o AR-15, imprimi-lo em 3D e - se ele se sentir ameaçado - pode usá-lo para atirar em alguém).Além disso, precisamos de benchmarks de desempenho amplamente partilhados, semelhantes aos emergentes em torno dos LLMs. Afinal, se você não consegue medir, não consegue melhorar.\_\_\_\_Em resumo, o surgimento da tecnologia de geração de texto para CAD baseada em IA traz riscos e oportunidades, sendo a relação entre os dois ainda incerta. A proliferação de modelos CAD de baixa qualidade e conteúdo tóxico são apenas alguns dos problemas que requerem atenção imediata.Os técnicos também podem prestar atenção útil a algumas áreas negligenciadas. A curadoria do conjunto de dados é crucial: precisamos rastrear modelos de alta qualidade a partir de fontes de alta qualidade e explorar outros métodos, como a digitalização de coleções de desenhos industriais. Uma linguagem de padrões de usabilidade pode fornecer uma estrutura poderosa para incorporar as melhores práticas de design. Além disso, a linguagem de padrões fornecerá uma estrutura poderosa para a geração de parâmetros de modelos CAD, que podem ser ajustados até que o modelo atenda aos requisitos para seu uso. Finalmente, devem ser desenvolvidas tecnologias de filtragem abrangentes para evitar a geração de conteúdos perigosos.Esperamos que as ideias apresentadas neste artigo ajudem os tecnólogos a evitar as armadilhas que têm atormentado a IA generativa até o momento e a melhorar os recursos de texto para CAD para fornecer bons modelos que beneficiarão as muitas pessoas que os utilizarão.