Google и NVIDIA разрабатывают технологию генерации текстовых САПР. Как ее следует оптимизировать?

Question

Сценарист: Реджи РэйИсточник: Градиент![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-87ac08824b-dd1a6f-6d2ef1) *Источник изображения: создан с помощью инструмента Unbounded AI*Технология преобразования текста в изображение на основе искусственного интеллекта еще не осела. Однако результат уже очевиден: поток плохих изображений. Конечно, есть некоторые высококачественные изображения, но этого недостаточно, чтобы перевесить потерю в соотношении сигнал/шум: на каждого артиста, которому выгодны обложки альбомов, созданные Midjourney, приходится пятьдесят других, которым выгодны обложки альбомов, созданные Midjourney. Обманут сгенерированными дипфейковыми изображениями. В мире, где пониженное соотношение сигнал/шум является корнем многих бед (например, научных исследований, журналистики, подотчетности правительства), это нехорошо.Теперь необходимо просматривать все изображения с недоверием. (Конечно, так было уже давно, но по мере увеличения количества случаев дипфейков должна расти и бдительность людей, которая, помимо того, что неприятна, может быть утомительной для когнитивных функций.) Постоянные подозрения – или частые неверные указания – кажутся высокой ценой за цифровой гаджет, который никому не нужен, и который до сих пор не принес особой пользы. Будем надеяться – или, точнее, молиться – соотношение затрат и выгод вскоре придет в нормальное состояние.Но в то же время нам следует обратить внимание на новый феномен в области генеративного искусственного интеллекта: генерацию текста в САПР с помощью искусственного интеллекта. Идея аналогична программе преобразования текста в изображение, за исключением того, что вместо изображения программа возвращает 3D-модель CAD.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7f802bc7e6-dd1a6f-6d2ef1) *Попросите у ИИ изображение «Моны Лизы, но в Balenciaga», и ИИ преобразует его в 3D-изображение*Вот некоторые определения. Во-первых, компьютерное проектирование (САПР) относится к программным инструментам, которые позволяют пользователям создавать цифровые модели физических объектов, таких как чашки, автомобили и мосты. (Модели в контексте САПР не имеют ничего общего с моделями глубокого обучения; Toyota Camry ≠ Рекуррентные нейронные сети.) Но САПР тоже важен; попробуйте вспомнить, когда вы в последний раз видели объект, который не был спроектирован в САПР.Сказав определения, теперь давайте посмотрим на крупных игроков, которые хотят войти в мир преобразования текста в САПР: Autodesk (CLIP-Forge), Google (DreamFusion), OpenAI (Point-E) и NVIDIA (Magic3D). Вот примеры от каждой компании:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7c24eff168-dd1a6f-6d2ef1) Крупнейшие игроки не помешали появлению стартапов со скоростью почти один в месяц по состоянию на начало 2023 года, причем CSM и Sloyd, пожалуй, наиболее многообещающие.Кроме того, есть несколько фантастических инструментов, которые можно назвать 2,5D, потому что их результат находится где-то между 2D и 3D. Принцип этих инструментов заключается в том, что пользователи загружают изображение, а затем искусственный интеллект может угадать, как изображение будет выглядеть в трехмерном пространстве.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fe9b9357cd-dd1a6f-6d2ef1) *В этом Greedy Cup используется искусственный интеллект, чтобы превратить изображение SBF (Сэм Бэнкман-Фрид, изображенный в виде волка в овечьей шкуре и волынщика) в рельеф (Фото: Реджи Рэй/TOMO)*Нет сомнений в том, что платформа анимации и моделирования с открытым исходным кодом Blender является лидером в этой области. Программное обеспечение для CAD-моделирования Rhino теперь также имеет плагины, такие как SurfaceRelief и Ambrosinus Toolkit, которые могут очень хорошо создавать 3D-карты глубины из обычных изображений.Сразу стоит сказать, что все это интересно. Как дизайнер САПР, я с нетерпением жду этих потенциальных преимуществ. Инженеры, энтузиасты 3D-печати и дизайнеры видеоигр — среди многих других, кто также получит пользу.Однако преобразование текста в САПР имеет множество недостатков, многие из которых являются серьезными. Краткий список выглядит следующим образом:* Открытие двери для массового производства оружия, расистских или других нежелательных материалов.* Вызывает волну ненужных моделей, тем самым загрязняя библиотеку моделей.* Нарушает права создателей контента, защищенного авторским правом.В любом случае, текст в CAD придет, хотим мы этого или нет. К счастью, технические специалисты могут предпринять шаги для улучшения результатов программы и уменьшения ее негативных последствий. Мы определили три ключевые области, в которых такие программы могут улучшиться: курирование наборов данных, языки шаблонов удобства использования и фильтрация.Насколько нам известно, эти области практически не исследованы в контексте преобразования текста в САПР. Идее языка шаблонов юзабилити будет уделяться особое внимание, поскольку он потенциально может значительно улучшить результаты. Примечательно, что этот потенциал не ограничивается САПР; он может улучшить результаты в большинстве областей генеративного ИИ, таких как текст и изображения.## **Управление наборами данных**### **Пассивный сбор**Хотя не все методы преобразования текста в САПР основаны на обучающем наборе 3D-моделей (исключением является Google DreamFusion), наиболее распространенным подходом остаются тщательно подобранные наборы данных моделей. Излишне говорить, что ключевым моментом здесь является создание хорошего набора моделей для обучения.Ключ к достижению этого двойной. Во-первых, техническим специалистам следует избегать очевидных источников моделей: Thingiverse, Cults3 D, MyMiniFactory. Несмотря на то, что существуют высококачественные модели, подавляющее большинство из них — мусор. (Тема Reddit «Почему Thingiverse так плоха?» иллюстрирует эту проблему). Во-вторых, вам следует искать библиотеки моделей сверхвысокого качества. (Scan the World, вероятно, лучший в мире).Во-вторых, источники моделей могут быть взвешены по качеству. Студенты магистратуры гуманитарных наук (MFA), скорее всего, воспользуются возможностью выполнить такую работу по аннотированию - и, учитывая несправедливость рынка труда, им придется платить очень мало.### **Активное планирование**Кураторство может и должно играть более активную роль. Многие музеи, частные коллекции и дизайнерские компании с радостью сканируют свои коллекции промышленного дизайна в 3D. Более того, помимо создания богатого корпуса, сканирование создает мощную запись нашей хрупкой культуры.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b022eb5c2a-dd1a6f-6d2ef1) *Причина, по которой французы смогли восстановить собор Парижской Богоматери после пожара, целиком и полностью связана с технологией 3D-сканирования, разработанной американцем. Фото предоставлено: Эндрю Таллон/Колледж Вассар*### **Большие данные**В процессе создания высококачественного корпуса технические специалисты должны тщательно продумать, какое действие они хотят от данных. На первый взгляд, основной вариант использования может заключаться в том, чтобы «дать возможность менеджерам компаний-производителей оборудования переместить несколько ползунков, вывести желаемый проект продукта, а затем приступить к производству». Однако, если история неудач массовой настройки является каким-либо показателем, этот подход, скорее всего, потерпит неудачу.Мы считаем, что более эффективный вариант использования — «дать возможность экспертам в предметной области, например, промышленным дизайнерам в компании, занимающейся разработкой продуктов, подсказывать инженерам, пока они не получат подходящий результат, а затем провести точную настройку и доработку».Подобный вариант использования требует чего-то, что может быть неочевидно на первый взгляд. Например, эксперты в предметной области должны иметь возможность загружать изображения эталонных продуктов, как в Midjourney, а затем помечать их на основе их целевых атрибутов — стиля, материалов, динамики и т. д. В этом случае может возникнуть соблазн применить фасетный подход, при котором эксперты могут выбирать тип стиля, тип материала и т. д. в раскрывающихся меню. Однако опыт показывает, что обогащение набора данных для создания сегментов атрибутов нецелесообразно. Сервис потоковой передачи музыки Pandora использовал этот ручной подход, но в конечном итоге уступил Spotify, который полагался на нейронные сети.### **награда**В строгой области курирования наборов данных было проделано мало работы (за некоторыми исключениями), поэтому мы можем много от этого выиграть. Это должно быть основной целью для компаний и предпринимателей, стремящихся получить конкурентное преимущество в войне преобразования текста в САПР. Большой и богатый набор данных сложно создать и сложно имитировать.Это лучшая «соринка».С менее корпоративной точки зрения, продуманное управление наборами данных — идеальный способ стимулировать создание красивых продуктов. На сегодняшний день инструменты генеративного ИИ отражают приоритеты своих создателей, но имеют мало общего со вкусом. Мы должны отстаивать важность красоты. Мы должны заботиться о том, очарует ли то, что мы привносим в мир, пользователей и выдержит ли испытание временем. Мы должны быть против нагромождения посредственных продуктов на волну посредственности.Если некоторые люди считают, что красота не является самоцелью, то, возможно, их убедят две статистики: экологичность и прибыль.Самые знаковые товары прошлого века — кресло Eames, фотоаппарат Leica, скутер Vespa — бережно хранятся их владельцами. Энергетики-энтузиасты их восстанавливают, продают и продолжают использовать. Возможно, их сложная конструкция требовала от них выбросов на 20% больше, чем от их конкурентов в то время. Это не имеет значения. Продолжительность их жизни измеряется четвертями века, а не годами, а это означает, что их потребление и выбросы на самом деле меньше.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-701b056d61-dd1a6f-6d2ef1) *Vespa GS 160 1963 года будет продана за 13 000 долларов в 2023 году*Что касается прибыли, то ни для кого не секрет, что красивые товары стоят дороже. . Технические характеристики iPhone никогда не были сравнимы с техническими характеристиками Samsung. Однако Apple взимает на 25% больше, чем Samsung. Симпатичный малолитражный Fiat 500 не имеет такого хорошего расхода бензина, как F-150. Но неважно, Fiat делает ставку правильно: яппи готовы заплатить дополнительно 5000 долларов за привлекательность.## **Язык шаблонов юзабилити**### **Обзор**Языки шаблонов были впервые изобретены специалистом широкого профиля Кристофером Александром в 1970-х годах. Он определяется как набор взаимодополняющих шаблонов, каждый из которых описывает проблему проектирования и ее решение. Хотя первый язык шаблонов Александра был нацелен на архитектурное проектирование, он успешно использовался во многих областях (особенно в программировании) и, по крайней мере, в равной степени полезен в области генеративного проектирования.При преобразовании текста в САПР язык шаблонов состоит из последовательности шаблонов; например, один шаблон для движущихся частей, один шаблон для шарниров (подмножество движущихся частей и, следовательно, один уровень абстракции нижнего уровня) и один шаблон для трения. петли (еще один уровень абстракции). Формат рисунка фрикционного шарнира следующий:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b84c05dfa0-dd1a6f-6d2ef1) Как и естественный язык, язык шаблонов включает словарь (набор проектных решений), конструкцию (расположение решений в языке) и синтаксис (правила, по которым шаблоны могут решать проблемы). Обратите внимание, что приведенный выше шаблон «шарнир трения» является узлом в иерархической сети и может быть визуализирован визуально с помощью направленной сетевой диаграммы.Эти шаблоны воплощают основы дизайна — лучшие практики в области человеческого фактора, функциональности, эстетики и многого другого. Таким образом, результаты этих режимов будут более удобными для использования, более простыми для понимания (избегая проблем с черным ящиком) и более простыми для точной настройки.Суть в том, что если программа преобразования текста в САПР не примет во внимание основы проектирования, результат будет мусором. Ничего не делать лучше, чем ноутбук, который преобразует текст в CAD, но экран не может оставаться в вертикальном положении.Из всех этих фундаментальных элементов, пожалуй, самым важным и трудным для рассмотрения является проектирование человеческого фактора. Человеческий фактор, который необходимо учитывать при разработке полезных продуктов, практически безграничен. ИИ должен выявлять и проектировать такие проблемы, как точки защемления, защемление пальцев, неправильное расположение острых краев, эргономические пропорции и многое другое.### **Упражняться**Давайте рассмотрим практический пример. Предположим, Джейн — промышленный дизайнер в студии ABC Design, которой было поручено разработать футуристический игровой ноутбук. Используя современные технологии, Джейн могла бы использовать программу САПР, такую как Fusion 360, войти в рабочую область генеративного проектирования Fusion и потратить неделю (или месяц), работая со своей командой, чтобы указать все соответствующие ограничения: нагрузки, условия, целевые значения, свойства материала, и т. д.Но какой бы мощной ни была рабочая среда генеративного проектирования Fusion, она не может обойти один ключевой факт: пользователи должны обладать значительными знаниями в предметной области, возможностями САПР и временем.Более приятный пользовательский опыт — просто вводить текст в программу САПР до тех пор, пока его выходные данные не будут соответствовать требованиям пользователя. Такой рабочий процесс, ориентированный на проектирование схемы, может выглядеть следующим образом:Джейн предлагает свою программу преобразования текста в CAD: «Покажите мне несколько примеров игровых ноутбуков будущего. Вдохновением послужила форма подставки для ноутбука TOMO и текстура поверхности королевской кобры».![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b456a111b2-dd1a6f-6d2ef1) *Полностью реализовать преобразование текста в САПР, что позволит реализовать замкнутый цикл от изображений к технологической продукции. *Программа выведет шесть концептуальных рисунков, каждый из которых содержит такие шаблоны, как «раскладка клавиатуры», «структура шарниров» и «схема портов бытовой электроники».Джейн могла бы ответить: «Дайте мне несколько вариантов изображения 2. Сделайте экран более втянутым, а клавиатуру более текстурированной».Джейн: «Мне нравится третий, какие параметры?»Система перечисляет 20 параметров — длину, ширину, высоту монитора, плотность клавиш и т. д. — на основе поля «решение» для шаблона, который она считает наиболее подходящим.Джейн замечает, что тип петли не указан, и вводит «Добавить параметр типа петли в список и экспортировать модель САПР».Она открыла модель в Fusion 360 и была рада видеть, что были добавлены соответствующие фрикционные петли. Наряду с параметризацией шарнира она увеличила параметр ширины, поскольку знала, что клиенты Studio ABC хотят, чтобы экран выдерживал интенсивное использование.Джейн продолжала вносить коррективы, пока не осталась полностью удовлетворена формой и функциями. Таким образом, она сможет передать его своему коллеге Джо, инженеру-механику, который проверит его и увидит, какие нестандартные детали можно заменить стандартными версиями.Наконец, руководство Studio ABC будет радо тому, что процесс проектирования ноутбуков сократился в среднем с 6 месяцев до 1 месяца. К их большому удовольствию, благодаря параметрической технологии любые модификации, запрошенные клиентами, могут быть быстро внесены без необходимости перепроектирования.## **Тщательная фильтрация**Как отметила в недавнем интервью специалист по этике ИИ Ирен Сулейман, генеративный ИИ срочно нуждается в тщательной защите. Даже при использовании подхода на языке шаблонов генеративный ИИ сам по себе не может предотвратить плохой результат. Здесь на помощь приходят ограждения.Мы должны иметь возможность обнаруживать и отклонять запросы об оружии, запекшейся крови, материалах о сексуальном насилии над детьми (CSAM) и другом нежелательном контенте. Технологи, опасающиеся судебных исков, могут добавить в этот список продукты, защищенные авторским правом. Однако, если говорить по опыту, нежелательные подсказки могут составлять значительную часть запросов.Многие из этих требований будут выполнены, как только исходный код модели преобразования текста в САПР станет открытым или произойдет утечка информации. (Если сага Defense Distributed нас чему-то научила, так это тому, что джинн никогда не возвращается в бутылку; благодаря недавнему постановлению в Техасе американцы теперь могут легально загрузить AR-15, распечатать его в 3D-формате и — если он почувствует угрозу -- можно использовать его, чтобы застрелить кого-нибудь).Кроме того, нам нужны широко распространенные критерии эффективности, аналогичные тем, которые возникают в рамках LLM. В конце концов, если вы не можете это измерить, вы не сможете это улучшить.\_\_\_\_Подводя итог, можно сказать, что появление технологии преобразования текста в САПР на основе искусственного интеллекта несет в себе как риски, так и возможности, причем соотношение между ними все еще неясно. Распространение некачественных CAD-моделей и токсичного контента — это лишь некоторые из проблем, требующих немедленного внимания.Технические специалисты также могут уделить полезное внимание некоторым игнорируемым областям. Контроль набора данных имеет решающее значение: нам необходимо отслеживать высококачественные модели из высококачественных источников и изучать другие методы, такие как сканирование коллекций промышленных образцов. Язык шаблонов юзабилити может обеспечить мощную основу для внедрения лучших практик проектирования. Кроме того, язык шаблонов предоставит мощную основу для генерации параметров модели САПР, которые можно будет точно настраивать до тех пор, пока модель не будет соответствовать требованиям для ее использования. Наконец, необходимо разработать комплексные технологии фильтрации, чтобы предотвратить создание опасного контента.Мы надеемся, что идеи, представленные в этой статье, помогут технологам избежать ловушек, с которыми до сих пор сталкивался генеративный ИИ, и улучшить возможности преобразования текста в САПР для создания хороших моделей, которые принесут пользу многим людям, которые будут их использовать.