谷歌、英偉達都在卷的文本-CAD 生成技術,應該如何優化?

撰文:Reggie Raye

來源:The Gradient

圖片來源:由無界AI工俱生成

人工智能驅動的文本到圖像生成技術尚未塵埃落定。然而,結果已經顯而易見:一大波糟糕的圖像如潮水般湧來。當然,這其中也有一些高質量的圖片,但這並不足以蓋過信噪比所造成的損失-- 每有一位從Midjourney 生成的專輯封面中獲益的藝術家,就有五十個人會被Midjourney生成的深度偽造圖片所欺騙。在這個世界上,信噪比下降是許多弊病的根源(想想科學研究、新聞業、政府問責制),這可不是什麼好事。

現在有必要對所有圖像都抱有懷疑的態度。 (誠然,這種情況由來已久,但隨著深度偽造事件的日益增多,人們的警惕性也應相應提高,而這除了令人不快之外,還會給認知造成負擔)。不斷猜疑-- 或者說經常誤導-- 似乎是為一個無人問津的數字小玩意付出的高昂代價,而且迄今為止還沒有帶來什麼好處。希望-- 或者更恰當地說,祈禱-- 成本與效益之比能很快進入理智狀態。

但與此同時,我們應該注意到生成式人工智能領域的一個新現象:人工智能驅動的文本到CAD 生成。其前提與文本到圖像程序類似,只是程序返回的不是圖像,而是三維CAD 模型。

要求人工智能給出“蒙娜麗莎,但穿的是Balenciaga”的圖像,人工智能會將其轉換為3D 圖像

這裡有一些定義。首先,計算機輔助設計(CAD)是指用戶創建物理對象(例如杯子、汽車和橋樑等)的數字模型的軟件工具。 (CAD 背景下的模型與深度學習模型無關;豐田凱美瑞≠ 循環神經網絡。)但CAD 也很重要;試著想想你上一次沒有看到CAD 設計的物體是什麼時候。

說完了定義,現在讓我們來看看想要進入文本轉CAD 世界的大玩家:歐特克(CLIP-Forge)、谷歌(DreamFusion)、OpenAI(Point-E)和英偉達(Magic3D)。以下是各公司的示例:

截至2023 年初,主要參與者並沒有阻止初創公司以近每月一家的速度湧現,其中CSM 和Sloyd 可能是最有前途的。

此外,還有一些奇妙的工具可以稱為2.5 D,因為它們的輸出介於2-D 和3-D 之間。這些工具的原理是,用戶上傳一張圖片,然後人工智能就能猜測出這張圖片在三維空間中的效果。

這個貪婪杯通過AI 將SBF(Sam Bankman-Fried,被描繪成披著羊皮的狼和吹笛人)的形像變成了浮雕(圖片來源:Reggie Raye/TOMO)

毫無疑問,開源動畫和建模平台Blender 是這一領域的佼佼者。而CAD 建模軟件Rhino 現在也有SurfaceRelief 和Ambrosinus Toolkit 等插件,可以很好地從普通圖像生成3D 深度圖。

首先應該說,所有這些都令人興奮。作為一名CAD 設計師,我熱切地期待著這些潛在的好處。工程師、3 D 打印愛好者和視頻遊戲設計師等許多人同樣會從中受益。

不過,文本到CAD 也有很多缺點,其中許多都很嚴重。簡單列舉如下:

  • 為大規模製造武器、種族主義或其他不良材料敞開大門
  • 引發垃圾模型浪潮,進而污染模型庫
  • 侵犯受版權保護的內容創作者的權利

無論如何,不管我們願不願意,文本到CAD 都將到來。但值得慶幸的是,技術人員可以採取一些措施來改進程序的輸出,減少其負面影響。我們已經確定了此類程序可以提升水平的三個關鍵領域:數據集整理、可用性模式語言和過濾。

据我们所知,这些领域在文本到 CAD 的背景下基本上还没有被探索过。可用性模式语言的想法将受到特别关注,因为它有可能显著提高产出。值得注意的是,这种潜力并不局限于 CAD;它可以改善大多数生成式人工智能领域(如文本和图像)的结果。

數據集管理

被動收集

雖然並非所有文本到CAD 的方法都依賴於三維模型的訓練集(谷歌的DreamFusion 是一個例外),但策劃模型數據集仍然是最常見的方法。毋庸贅言,這裡的關鍵在於要策劃出一套出色的模型來進行訓練。

而做到這一點的關鍵有兩個方面。首先,技術人員應避免使用顯而易見的模型來源:Thingiverse、Cults3 D、MyMiniFactory。雖然那裡也有高質量的模型,但絕大多數都是垃圾。 (Reddit 上的thread“Thingiverse 為何如此糟糕?”就是說明了這一問題)。其次,應該尋找超高質量的模型庫。 (Scan the World 可能是世界上最好的)。

其次,可以根據質量對模型來源進行加權。藝術碩士(MFA)很可能會抓住機會來做這樣的標註工作-- 而且由於勞動力市場的不公平,他們只需要花很少的錢。

主動策劃

策展可以而且應該發揮更積極的作用。許多博物館、私人收藏和設計公司都很樂意對其工業設計藏品進行3 D 掃描。此外,掃描除了能產生豐富的語料庫外,還能為我們脆弱不堪的文化創造一個強大的記錄。

法國人之所以能在聖母院大火後重建聖母院,全靠一個美國人的3D 掃描技術。圖片來源:Andrew Tallon/Vassar College

豐富數據

在創建高質量語料庫的過程中,技術人員必須認真思考他們希望數據做什麼。乍一看,主要用例可能是“授權硬件公司的經理們移動幾個滑塊,輸出所需的產品藍圖,然後就可以進行生產”。然而,如果從大規模定制失敗的歷史來看,這種方法很可能會失敗。

我們認為,更有效的用例是'授權領域專家-- 比如產品設計公司的工業設計師-- 提示工程師,直到他們獲得合適的輸出,然後再進行微調,最終完成'。

這樣的用例需要一些乍一看可能並不顯眼的東西。例如,領域專家需要能夠上傳參考產品的圖片,就像在Midjourney 中一樣,然後根據其目標屬性-- 風格、材料、動力學等-- 對其進行標記。在這種情況下,採用分面方法可能會很有吸引力,專家們可以在下拉菜單中選擇樣式類型、材料類型等。但經驗表明,通過豐富數據集來創建屬性桶的做法並不可取。音樂流媒體服務潘多拉(Pandora)就採用了這種人工方法,但最終被依靠神經網絡的Spotify 擊敗。

收穫

在嚴格的數據集整理領域(除少數例外),幾乎沒有人做過什麼工作,因此,我們可以從中獲益良多。這應該成為在文本到CAD 的戰爭中尋求競爭優勢的公司和企業家的首要目標。一個龐大而豐富的數據集很難製造,也很難模仿,這是最好的”微塵“。

從不那麼公司化的角度來看,深思熟慮的數據集策劃是推動創造精美產品的理想方式。迄今為止,生成式人工智能工具反映了其創造者的優先考慮事項,但與品味無關。我們應該為美的重要性表明立場。我們應該關心我們帶到這個世界上的東西是否會讓用戶著迷,是否經得起時間的考驗。我們應該反對將平庸的產品堆砌在平庸的浪潮中。

如果有些人認為美本身並不是目的,那麼也許他們會被兩個數據所說服:可持續性和利潤。

過去一百年中最具標誌性的產品-- 伊姆斯(Eames)座椅、萊卡(Leica)相機、偉士帕(Vespa)踏板車-- 都被其使用者視若珍寶。充滿活力的愛好者們修復它們、出售它們,並繼續使用它們。也許它們的複雜設計需要比當時的競爭對手多排放20% 的廢氣。沒關係。它們的壽命是以四分之一個世紀而不是以年來計算的,這意味著它們的消耗和排放其實更少。

1963 年的Vespa GS 160 在2023 年的售價為13000 美元

至於利潤,漂亮的產品溢價已不是什麼秘密。 。 iPhone 的規格從來都無法與三星相比。然而蘋果的收費卻比三星高出25%。可愛的菲亞特500 超小型汽車的油耗比不上F-150。但沒關係,菲亞特賭對了,雅皮士們願意為可愛多付5000 美元。

可用性模式語言

概述

模式語言由多面手克里斯托弗- 亞歷山大(Christopher Alexander)於20 世紀70 年代首創。它被定義為一組相互促進的模式,每個模式都描述了一個設計問題及其解決方案。雖然亞歷山大的第一種模式語言是針對建築設計的,但它已被成功應用於許多領域(最著名的是編程),並且至少在生成設計領域同樣有用。

在文本到CAD 中,模式語言由一系列模式組成;例如,一個模式用於運動部件,一個模式用於鉸鏈(運動部件的一個子集,因此向下抽像一層),一個模式用於摩擦鉸鏈(再向下抽像一層)。摩擦鉸鏈圖案的格式如下:

與自然語言一樣,模式語言包括詞彙(設計方案集)、語構(方案在語言中的位置)和語法(模式可以解決問題的規則)。請注意,上述模式“摩擦鉸鏈”是分層網絡中的一個節點,可以通過有向網絡圖直觀地顯示出來。

這些模式體現了設計基本要素-- 人類因素、功能、美學等方面的最佳實踐。因此,這些模式的輸出將更可用、更易懂(避免黑箱問題)、更易於微調。

最重要的是,除非文本到CAD 的程序考慮到設計的基本原理,否則其輸出結果只能是垃圾。什麼都不做總比一台文本到CAD 生成的,但屏幕無法保持直立的筆記本電腦要好。

在所有這些基本要素中,也許最重要也是最難考慮的是人類因素的設計。要設計出有用的產品,需要考慮的人類因素幾乎是無窮無盡的。人工智能必須識別並設計出夾點、手指夾傷、位置不當的尖銳邊緣、人體工程學比例等問題。

實踐

讓我們來看一個實際例子。假設Jane 是ABC 設計工作室的一名工業設計師,該工作室受委託設計一款未來派遊戲筆記本電腦。按照目前的技術水平,Jane 可以使用Fusion 360 這樣的CAD 程序,進入Fusion 的生成設計工作區,然後花一周(或一個月)的時間與她的團隊一起指定所有相關的約束條件:載荷、條件、目標、材料屬性等。

但是,無論Fusion 的生成設計工作區有多麼強大,它都無法繞過一個關鍵事實:用戶必須具備大量的專業領域知識、CAD 能力和時間。

更令人愉悅的用戶體驗是,只需提示文本到CAD 程序,直到其輸出滿足用戶的要求。這種以模式設計為中心的工作流程可能如下:

Jane 提示她的文本到CAD 程序:“給我看一些未來游戲筆記本電腦的例子。以TOMO 筆記本電腦支架的外形和眼鏡王蛇的表面紋理為靈感”。

*完全實現文本到CAD 的轉換,將實現從圖像到可製造產品的閉環。 *

程序會輸出六幅概念圖,每幅圖都包含“鍵盤佈局”、“鉸鏈結構”和“消費電子產品的端口佈局”等圖案。

Jane 可以回复說:“給我一些圖片2 的變體。讓屏幕更內縮,鍵盤更有質感”。

Jane:" 我喜歡第三張,參數是什麼?“

系統會根據其認為最相關的圖案的”解決方案“字段,列出20 個參數-- 長度、寬度、顯示器高度、按鍵密度等。

Jane 注意到沒有指定鉸鏈類型,於是輸入”在列表中添加鉸鏈類型參數並輸出CAD 模型“。

她在Fusion 360 中打開模型,很高興看到添加了適當的摩擦鉸鏈。隨著鉸鏈參數化,她增加了寬度參數,因為她知道Studio ABC 的客戶希望屏幕能夠承受大量的使用。

Jane 繼續進行調整,直到她對外形和功能完全滿意為止。這樣,她就可以把它交給她的同事Joe(一位機械工程師),由他進行檢查,看看哪些定制部件可以用庫存版本代替。

最後,Studio ABC 的管理層會很高興,因為筆記本電腦的設計過程從平均6 個月縮短到了1 個月。令他們倍感欣慰的是,由於採用了參數化技術,客戶提出的任何修改要求都可以很快得到滿足,而無需重新設計。

徹底過濾

正如人工智能倫理學家Irene Solaiman 最近在一次採訪中指出的,生成式人工智能亟需徹底的防護措施。即使採用模式語言方法,生成式人工智能本身也無法防止產生不良輸出。這就是防護欄的作用所在。

我們需要能夠檢測並拒絕要求提供武器、血腥、兒童性虐待材料(CSAM)和其他不良內容的提示。害怕惹上官司的技術專家可能會在這個清單上添加版權產品。但是,如果從經驗來看,令人反感的提示可能會佔查詢的很大一部分。

一旦文本到CAD 的模型被開源或洩露,這些要求中的很多都會被滿足。 (如果說Defense Distributed 的傳奇故事給了我們什麼啟示的話,那就是精靈永遠不會回到瓶子裡;由於德克薩斯州最近的一項裁決,美國人現在可以合法地下載AR-15、3D打印它,然後-- 如果他感到受到威脅-- 可以用它來射殺某人)。

此外,我們還需要廣泛共享的性能基準,類似於圍繞LLMs 出現的基準。畢竟,如果無法衡量,就無法改進。

____

總之,由人工智能驅動的文本到CAD 生成技術的出現既帶來了風險,也帶來了機遇,兩者之間的比例還很不確定。低質量CAD 模型和有毒內容的氾濫只是需要立即關注的幾個問題。

在一些被忽視的領域,技術人員也可以對其進行有益的關注。數據集的整理至關重要:我們需要從高質量的來源追踪高質量的模型,並探索其他方法,如掃描工業設計藏品。可用性模式語言可以為納入最佳設計實踐提供一個強大的框架。此外,模式語言還將為CAD 模型參數的生成提供一個強大的框架,這些參數可以進行微調,直到模型滿足其使用要求為止。最後,必須開發全面的過濾技術,以防止生成危險內容。

我們希望本文提出的觀點能幫助技術人員避免迄今為止一直困擾著生成式人工智能的陷阱,並提高文本到CAD 的能力,以提供良好的模型,使許多即將使用它們的人受益。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)