Google і NVIDIA розробляють технологію створення текстових САПР. Як її оптимізувати?

Question

Автор: Реджі РейДжерело: The Gradient![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-87ac08824b-dd1a6f-6d2ef1) *Джерело зображення: створено інструментом Unbounded AI*Пил ще не влягся на технологію генерації тексту в зображення на основі штучного інтелекту. Однак результати вже очевидні: потік поганих зображень. Звичайно, є кілька високоякісних зображень, але цього недостатньо, щоб переважити втрату у співвідношенні сигнал/шум — на кожного виконавця, який отримує користь від обкладинок альбомів, створених Midjourney, є п’ятдесят інших, які отримують користь від обкладинок альбомів, створених Midjourney. Введені в оману згенерованими зображеннями deepfake. У світі, де низьке співвідношення сигнал/шум є причиною багатьох бід (згадайте наукові дослідження, журналістику, підзвітність уряду), це недобре.Тепер необхідно дивитися на всі зображення з недовірою. (Звичайно, це було так протягом тривалого часу, але в міру того, як кількість випадків дипфейків зростає, пильність людей також повинна проявлятися, що, окрім того, що це неприємно, може завдати шкоди когнітивним функціям.) Постійні підозри — або часті неправильні орієнтири — здаються високою ціною за цифровий гаджет, який нікому не цікавий, і поки що приніс мало користі. Сподіваємось — або, точніше, молимось — співвідношення витрат і вигоди незабаром прийде в нормальний стан.Але в той же час слід звернути увагу на нове явище в області генеративного штучного інтелекту: генерацію тексту в CAD на основі штучного інтелекту. Передумови подібні до програми перетворення тексту в зображення, за винятком того, що замість зображення програма повертає 3D-модель CAD.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7f802bc7e6-dd1a6f-6d2ef1) *Попросіть ШІ зображення «Мони Лізи, але в Balenciaga», і ШІ перетворить його на 3D-зображення*Ось деякі визначення. По-перше, автоматизоване проектування (САПР) відноситься до програмних засобів, які дозволяють користувачам створювати цифрові моделі фізичних об’єктів, таких як чашки, автомобілі та мости. (Моделі в контексті CAD не мають нічого спільного з моделями глибокого навчання; Toyota Camry ≠ Recurrent Neural Networks.) Але CAD також важлива; спробуйте згадати, коли востаннє ви бачили об’єкт, який не був розроблений у CAD.Сказавши визначення, тепер давайте подивимося на великих гравців, які хочуть увійти у світ тексту в CAD: Autodesk (CLIP-Forge), Google (DreamFusion), OpenAI (Point-E) і NVIDIA (Magic3D). Ось приклади від кожної компанії:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7c24eff168-dd1a6f-6d2ef1) Основні гравці не зупиняли появу майже одного стартапу на місяць на початку 2023 року, з CSM і Sloyd, мабуть, найбільш перспективними.Крім того, є кілька фантастичних інструментів, які можна назвати 2,5 D, тому що їхній результат знаходиться десь між 2-D і 3-D. Принцип цих інструментів полягає в тому, що користувачі завантажують зображення, а потім штучний інтелект може вгадати, як зображення виглядатиме в тривимірному просторі.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fe9b9357cd-dd1a6f-6d2ef1) *Цей Greedy Cup використовує штучний інтелект, щоб перетворити зображення SBF (Сем Бенкман-Фрід, зображений у вигляді вовка в овечій шкурі та сопілкаря) на рельєф (автор фото: Реджі Рей/TOMO)*Немає сумніву, що платформа анімації та моделювання з відкритим кодом Blender є лідером у цій галузі. Програмне забезпечення для моделювання САПР Rhino тепер також має плагіни, такі як SurfaceRelief і Ambrosinus Toolkit, які можуть дуже добре генерувати 3D-карти глибини зі звичайних зображень.З самого початку варто сказати, що все це захоплююче. Як дизайнер САПР, я з нетерпінням очікую цих потенційних переваг. Інженери, ентузіасти 3D-друку та дизайнери відеоігор також отримають користь.Однак текст у CAD має багато недоліків, багато з яких серйозні. Короткий список виглядає наступним чином:* Відкриття дверей для масового виробництва зброї, расистських чи інших неприйнятних матеріалів* Викликати хвилю сміттєвих моделей, тим самим забруднюючи бібліотеку моделей* Порушує права творців захищеного авторським правом вмістуУ будь-якому разі текст до CAD надходить незалежно від того, хочемо ми цього чи ні. На щастя, є кроки, які технічні спеціалісти можуть вжити, щоб покращити продуктивність програми та зменшити її негативні наслідки. Ми визначили три ключові області, де такі програми можуть покращитися: контроль наборів даних, мови шаблонів зручності використання та фільтрація.Наскільки нам відомо, ці області були майже не досліджені в контексті перетворення тексту в САПР. Ідея мови шаблонів зручності використання приверне особливу увагу, оскільки вона має потенціал для значного покращення результату. Примітно, що цей потенціал не обмежується САПР; він може покращити результати в більшості областей генеративного ШІ, таких як текст і зображення.## **Керування набором даних**### **Пасивна колекція**Хоча не всі методи перетворення тексту в САПР покладаються на навчальний набір 3D-моделей (виняток становить DreamFusion від Google), найпоширенішим підходом залишаються підібрані набори даних моделей. Зайве говорити, що ключовим тут є вибір хорошого набору моделей для тренувань.Ключ до досягнення цього подвійний. По-перше, технікам слід уникати очевидних джерел моделей: Thingiverse, Cults3 D, MyMiniFactory. Хоча існують високоякісні моделі, переважна більшість — сміття. (Поділ Reddit «Чому Thingiverse такий поганий?» ілюструє цю проблему). По-друге, вам слід шукати бібліотеки моделей надвисокої якості. (Scan the World, мабуть, найкращий у світі).По-друге, джерела моделей можуть бути зважені відповідно до якості. Студенти магістра мистецтв (MFA), швидше за все, скористалися б нагодою зробити таку анотаційну роботу – і, враховуючи несправедливість ринку праці, їм доведеться платити дуже мало.### **Активне планування**Кураторство може і має відігравати більш активну роль. Багато музеїв, приватних колекцій і дизайнерських компаній із задоволенням виконують 3D-сканування своїх колекцій промислового дизайну. Крім того, окрім створення багатого корпусу, сканування створює потужний запис нашої крихкої культури.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b022eb5c2a-dd1a6f-6d2ef1) *Причина, чому французи змогли відновити собор Паризької Богоматері після пожежі, полягала виключно в технології 3D-сканування американця. Фото: Ендрю Таллон/Коледж Вассар*### **Багаті дані**У процесі створення високоякісного корпусу техніці повинні ретельно продумати, що вони хочуть робити з даними. На перший погляд, основний варіант використання може полягати в тому, щоб «надати менеджерам апаратної компанії можливість перемістити кілька повзунків, вивести бажаний проект продукту, а потім приступити до виробництва». Однак, якщо історія масових невдач налаштування є будь-яким свідченням, цей підхід, швидше за все, не вдасться.Ми вважаємо, що більш ефективним варіантом використання є «розширення можливостей експертів у галузі — наприклад, промислових дизайнерів у компанії з розробки продуктів — підказувати інженерам, доки вони не отримають відповідний результат, а потім налаштовувати та завершувати».Такий варіант використання вимагає чогось, що може бути неочевидним на перший погляд. Наприклад, експерти домену повинні мати можливість завантажувати зображення еталонних продуктів, як у Midjourney, а потім позначати їх тегами на основі їхніх цільових атрибутів — стилю, матеріалів, динаміки тощо. У цьому випадку може виникнути спокуса застосувати фасетний підхід, коли експерти можуть вибрати тип стилю, тип матеріалу тощо в спадних меню. Але досвід показує, що збагачувати набір даних для створення сегментів атрибутів недоцільно. Сервіс потокової передачі музики Pandora використовував цей ручний підхід, але в кінцевому підсумку був побитий Spotify, який покладався на нейронні мережі.### **нагорода**Було зроблено небагато роботи в суворій сфері контролю наборів даних (за кількома винятками), тому ми можемо багато отримати від цього. Це має бути основною метою для компаній і підприємців, які прагнуть отримати конкурентну перевагу у війні тексту в CAD. Великий і насичений набір даних складно створити і важко імітувати. Це найкращий "мот".З менш корпоративної точки зору продумане курування наборів даних є ідеальним способом стимулювати створення красивих продуктів. На сьогодні генеративні інструменти штучного інтелекту відображають пріоритети їхніх творців, але мають мало спільного зі смаком. Ми повинні відстоювати важливість краси. Нам слід дбати про те, чи захопить те, що ми приносимо у світ, користувачів і витримає випробування часом. Ми повинні бути проти накопичення посередніх продуктів на хвилі посередності.Якщо деякі люди вважають, що краса не є самоціллю, то, можливо, їх переконають дві статистики: стійкість і прибуток.Найбільш культові продукти минулого століття - крісло Eames, фотоапарат Leica, скутер Vespa - цінуються їх власниками. Енергійні ентузіасти їх реставрують, продають і продовжують використовувати. Можливо, їхня складна конструкція вимагала від них викидів на 20% більше, ніж їхні конкуренти на той час. Це неважливо. Їхній термін служби вимірюється чвертями століття, а не роками, що означає, що їх споживання та викиди фактично менші.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-701b056d61-dd1a6f-6d2ef1) *1963 Vespa GS 160 продається за $13 000 у 2023 році*Що стосується прибутку, то ні для кого не секрет, що красиві продукти мають високу ціну. . Специфікації iPhone ніколи не можна було порівнювати з характеристиками Samsung. Однак Apple бере на 25% більше, ніж Samsung. Симпатичний малолітражний Fiat 500 не має такого гарного витрати бензину, як F-150. Але нічого, Fiat робить правильну ставку, яппі готові заплатити додаткові 5000 доларів за миловидність.## **Мова шаблонів юзабіліті**### **Огляд**Мови шаблонів були започатковані універсалом Крістофером Александром у 1970-х роках. Він визначається як набір взаємно підсилювальних шаблонів, кожен з яких описує проблему проектування та її рішення. Незважаючи на те, що перша мова шаблонів Олександра була спрямована на архітектурне проектування, вона успішно використовувалася в багатьох сферах (зокрема, програмування) і принаймні настільки ж корисна в галузі генеративного проектування.У тексті в САПР мова шаблонів складається з послідовності шаблонів; наприклад, один шаблон для рухомих частин, один шаблон для петель (підмножина рухомих частин і, отже, абстракція на один рівень нижче), і один шаблон для тертя петлі (Ще один рівень абстракції). Формат шаблону фрикційного шарніра такий:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b84c05dfa0-dd1a6f-6d2ef1) Як і природна мова, мова шаблонів включає лексику (набір проектних рішень), конструкцію (розташування рішень у мові) і синтаксис (правила, за якими шаблони можуть вирішувати проблеми). Зауважте, що наведений вище шаблон «шарнір тертя» є вузлом в ієрархічній мережі, і його можна візуалізувати візуально за допомогою діаграми спрямованої мережі.Ці шаблони втілюють основи дизайну — найкращі практики щодо людського фактору, функціональності, естетики тощо. Таким чином, вихід цих режимів буде більш зручним, легшим для розуміння (уникнення проблем із чорним ящиком) і легшим для точного налаштування.Суть полягає в тому, що якщо програма перетворення тексту в САПР не враховує основи проектування, результат буде сміттям. Нічого не робити краще, ніж ноутбук, який генерує текст у CAD, але екран не може залишатися вертикальним.З усіх цих фундаментальних елементів, мабуть, найважливішим і найскладнішим для розгляду є проектування людського фактора. Людські фактори, які необхідно враховувати для розробки корисних продуктів, майже нескінченні. ШІ має виявляти та проектувати такі проблеми, як точки защемлення, защемлення пальців, неправильні гострі краї, ергономічні пропорції тощо.### **Практика**Розглянемо практичний приклад. Припустімо, що Джейн — промисловий дизайнер у ABC Design Studio, якій доручили розробити футуристичний ігровий ноутбук. З наявними технологіями Джейн могла б використовувати програму САПР, як-от Fusion 360, зайти в робочий простір генеративного проектування Fusion і витратити тиждень (або місяць), працюючи зі своєю командою, щоб визначити всі відповідні обмеження: навантаження, умови, цілі, властивості матеріалів, тощоАле яким би потужним не був робочий простір генеративного проектування Fusion, він не може обійти один ключовий факт: користувачі повинні мати значні знання в області, можливості САПР і час.Більш приємним для користувача є просто введення тексту в програму САПР, доки його результат не відповідатиме вимогам користувача. Такий робочий процес, орієнтований на дизайн схеми, може виглядати так:Джейн підказує своїй програмі перетворення тексту в САПР: «Покажи мені декілька прикладів майбутніх ігрових ноутбуків. Натхненний формою підставки для ноутбука TOMO та текстурою поверхні King Cobra».![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b456a111b2-dd1a6f-6d2ef1) * Повністю реалізувати перетворення тексту в САПР, що реалізує замкнутий цикл від зображень до готових виробів. *Програма виведе шість концептуальних малюнків, кожен з яких містить шаблони, такі як «розкладка клавіатури», «структура шарнірів» і «схема портів побутової електроніки».Джейн могла відповісти: «Дайте мені кілька варіантів зображення 2. Зробіть екран більш втягнутим, а клавіатуру більш текстурованою».Джейн: "Мені подобається третій, які параметри?"Система перераховує 20 параметрів — довжину, ширину, висоту монітора, щільність клавіш тощо — на основі поля «рішення» для шаблону, який вона вважає найбільш відповідним.Джейн помічає, що тип петлі не вказано, і вводить «Додати параметр типу петлі до списку та експортувати модель CAD».Вона відкрила модель у Fusion 360 і із задоволенням побачила, що додано відповідні фрикційні петлі. Разом із налаштуванням шарнірів вона збільшила параметр ширини, оскільки знала, що клієнти Studio ABC хочуть, щоб екран міг витримувати інтенсивне використання.Джейн продовжувала коригувати, доки не була повністю задоволена формою та функціями. Таким чином вона може передати його своєму колезі Джо, інженеру-механіку, який перевірить його та побачить, які нестандартні деталі можна замінити стандартними версіями.Нарешті, керівництво Studio ABC буде задоволене, тому що процес проектування ноутбука скорочено в середньому з 6 місяців до 1 місяця. На їхню радість, завдяки параметричній технології будь-які модифікації, які вимагають клієнти, можуть бути швидко внесені без необхідності перепроектування.## **Ретельна фільтрація**Як зазначила в нещодавньому інтерв’ю фахівець зі штучного інтелекту Ірен Солайман, генеративний штучний інтелект терміново потребує ґрунтовних гарантій. Навіть за допомогою підходу на основі мови шаблонів лише генеративний штучний інтелект не може запобігти поганому результату. Тут на допомогу приходять огорожі.Ми повинні мати можливість виявляти та відхиляти підказки про зброю, кров, матеріали сексуального насильства над дітьми (CSAM) та інший неприйнятний вміст. Технологи, які бояться судових позовів, можуть додати до цього списку продукти, захищені авторським правом. Однак, якщо говорити з досвіду, небажані підказки можуть становити значну частину запитів.Багато з цих вимог будуть виконані, коли модель Text-to-CAD стане відкритим кодом або стане доступною. (Якщо сага про Defense Distributed чогось навчила нас, так це тому, що джин ніколи не повертається в пляшку; завдяки нещодавньому рішенню в Техасі американці тепер можуть легально завантажити AR-15, роздрукувати його на 3D-роздруківці та - якщо він відчує загрозу -- можна використовувати його, щоб застрелити когось).Крім того, нам потрібні загальнодоступні тести продуктивності, подібні до тих, що виникають навколо LLM. Зрештою, якщо ви не можете це виміряти, ви не можете покращити це.\_\_\_\_Підводячи підсумок, можна сказати, що поява технології генерації тексту в САПР на основі штучного інтелекту несе як ризики, так і можливості, причому співвідношення між цими двома все ще невизначено. Поширення низькоякісних CAD-моделей і токсичний вміст — це лише деякі з проблем, які потребують негайної уваги.Техніки також можуть приділити увагу деяким занедбаним ділянкам. Керування набором даних має вирішальне значення: нам потрібно відстежувати високоякісні моделі з високоякісних джерел і вивчати інші методи, такі як сканування колекцій промислових зразків. Мова шаблонів зручності використання може надати потужну структуру для включення найкращих практик проектування. Крім того, мова шаблонів забезпечить потужну структуру для генерації параметрів моделі САПР, які можна точно налаштовувати, поки модель не відповідатиме вимогам для її використання. Нарешті, необхідно розробити комплексні технології фільтрації, щоб запобігти створенню небезпечного вмісту.Ми сподіваємося, що ідеї, представлені в цій статті, допоможуть технологам уникнути пасток, які досі переслідували генеративний штучний інтелект, і покращити можливості перетворення тексту в САПР, щоб створити хороші моделі, які принесуть користь багатьом людям, які ними користуватимуться.