企業の観点から見ると、データセットを慎重にキュレーションすることは、美しい製品の作成を促進する理想的な方法です。これまで、生成 AI ツールは作成者の優先順位を反映していましたが、好みとはほとんど関係がありませんでした。私たちは美しさの重要性についての立場をとるべきです。私たちは、自分たちが世に送り出したものがユーザーを魅了し、時の試練に耐えられるかどうかを気にする必要があります。凡庸な製品を凡庸の波に積み上げることには反対すべきです。
これらすべての基本要素の中で、おそらく最も重要であり、考慮するのが最も難しいのはヒューマンファクターの設計です。有用な製品を設計するために考慮する必要がある人的要因は、ほぼ無限にあります。 AI は、挟み込みポイント、指の挟み込み、鋭いエッジの置き忘れ、人間工学に基づいたプロポーションなどの問題を特定して設計する必要があります。
Google と NVIDIA は両方ともテキスト CAD 生成テクノロジーを開発していますが、それをどのように最適化する必要がありますか?
作者: レジー・レイ
出典: グラデーション
AI を活用したテキストから画像への生成テクノロジーについては、まだ問題が解決していません。しかし、その結果はすでに明らかです。つまり、悪い画像が氾濫するということです。確かに、高品質の画像もいくつかありますが、信号対雑音比の損失を上回るには十分ではありません。Midjourney が生成したアルバム カバーから恩恵を受けるすべてのアーティストに対して、Midjourney が生成したアルバム アートから恩恵を受けるアーティストは他にも 50 人います。生成されたディープフェイク画像に騙される。信号対雑音比の低下が多くの諸悪の根源である世界 (科学研究、ジャーナリズム、政府の説明責任を考えてください) において、それは良いことではありません。
すべての画像を割り引いて見ることが必要になりました。 (確かに、これは長い間そうなっていましたが、ディープフェイクの事件が増加するにつれて、人々の警戒心も高まる必要があり、それは不快なだけでなく、認知的にも負担となる可能性があります。)絶え間ない疑惑、または頻繁な誤った指示は、誰も気に留めないデジタル ガジェットに対して支払う高い代償のように思え、これまでのところほとんど利益をもたらしていません。願わくば、むしろ祈った方が適切ですが、費用対効果の比率がすぐに正常な状態に達することを願っています。
しかし同時に、生成型人工知能の分野における新しい現象、つまり人工知能によるテキストから CAD への生成にも注目する必要があります。前提条件は、プログラムが画像の代わりに 3D CAD モデルを返すことを除いて、テキストから画像へのプログラムに似ています。
ここでいくつかの定義を示します。まず、コンピューター支援設計 (CAD) とは、ユーザーがカップ、車、橋などの物理的なオブジェクトのデジタル モデルを作成できるようにするソフトウェア ツールを指します。 (CAD のコンテキストにおけるモデルはディープ ラーニング モデルとは何の関係もありません。トヨタ カムリ ≠ リカレント ニューラル ネットワークです。) しかし、CAD も重要です。CAD で設計されていないオブジェクトを最後に見たときのことを思い出してみてください。
定義を述べたところで、テキストから CAD への世界への参入を目指す大手企業、Autodesk (CLIP-Forge)、Google (DreamFusion)、OpenAI (Point-E)、NVIDIA (Magic3D) を見てみましょう。各社の例は次のとおりです。
さらに、出力が 2-D と 3-D の間のどこかにあるため、2.5 D と呼ぶことができる素晴らしいツールがいくつかあります。これらのツールの原理は、ユーザーが画像をアップロードすると、人工知能がその画像が 3 次元空間でどのように見えるかを推測できるというものです。
オープンソースのアニメーションおよびモデリング プラットフォーム Blender がこの分野のリーダーであることは疑いの余地がありません。 CAD モデリング ソフトウェア Rhino には、SurfaceRelief や Ambrosinus Toolkit などのプラグインもあり、通常の画像から 3D 深度マップを非常にうまく生成できます。
初めに言っておきますが、これらすべてがエキサイティングです。 CAD 設計者として、私はこれらの潜在的な利点を熱心に期待しています。エンジニア、3D プリント愛好家、ビデオ ゲーム デザイナーなどにも恩恵を受けるでしょう。
ただし、Text-to-CAD には多くの欠点があり、その多くは深刻です。簡単なリストは次のとおりです。
とにかく、望むと望まざるにかかわらず、CAD へのテキストが送られてきます。ありがたいことに、プログラムの出力を改善し、悪影響を軽減するために技術者が実行できる手順があります。私たちは、このようなプログラムが改善できる 3 つの重要な領域、つまりデータ セットのキュレーション、ユーザビリティ パターン ランゲージ、およびフィルタリングを特定しました。
私たちの知る限り、これらの領域は、テキストから CAD へのコンテキストではほとんど調査されていません。ユーザビリティ パターン ランゲージのアイデアは、成果を大幅に向上させる可能性があるため、特に注目を集めます。特に、この可能性は CAD に限定されず、テキストや画像などの生成 AI のほとんどの領域で結果を改善できる可能性があります。
データセット管理
パッシブコレクション
すべてのテキストから CAD への手法が 3D モデルのトレーニング セットに依存しているわけではありませんが (Google の DreamFusion は例外です)、厳選されたモデル データセットが依然として最も一般的なアプローチです。言うまでもなく、ここで重要なのは、トレーニングに使用する適切なモデルのセットを厳選することです。
これを達成するための鍵は 2 つあります。まず、技術者は明らかなモデルのソース (Thingiverse、Cults3 D、MyMiniFactory) を避ける必要があります。高品質なモデルもありますが、大部分はジャンク品です。 (Reddit スレッド「Thingiverse はなぜ悪いのか?」がこの問題を説明しています)。次に、超高品質のモデル ライブラリを探す必要があります。 (Scan the World はおそらく世界で最高です)。
第 2 に、モデル ソースは品質に応じて重み付けできます。芸術修士(MFA)の学生は、そのような注釈作業を行うチャンスに飛びつくだろうし、労働市場の不公平性を考慮すると、彼らが支払わなければならない給料はほとんどないだろう。
積極的な計画
キュレーションはもっと積極的な役割を果たすことができますし、そうすべきです。多くの美術館、個人コレクション、デザイン会社は、工業デザイン コレクションの 3D スキャンを喜んで行っています。さらに、スキャンは豊富なコーパスを生成するだけでなく、私たちの壊れやすい文化の強力な記録を作成します。
豊富なデータ
高品質のコーパスを作成する過程で、技術者はデータに何をさせたいのかを注意深く考える必要があります。一見したところでは、主な使用例は、「ハードウェア会社の管理者がいくつかのスライダーを移動し、目的の製品ブループリントを出力し、その後生産に進むことができるようにする」ことかもしれません。ただし、大規模カスタマイズの失敗履歴から何らかの兆候がある場合、このアプローチは失敗する可能性が高くなります。
私たちは、より効果的な使用例は、「製品設計会社の工業デザイナーなどの分野の専門家が、適切な出力が得られるまでエンジニアに指示を出し、その後微調整して最終決定できるようにする」ことだと考えています。
このようなユースケースでは、一見しただけでは明らかではないものが必要になります。たとえば、ドメインの専門家は、Midjourney のように参照製品の画像をアップロードし、スタイル、素材、ダイナミクスなどのターゲット属性に基づいてタグ付けできる必要があります。この場合、専門家がドロップダウン メニューでスタイル タイプ、マテリアル タイプなどを選択できる、ファセット アプローチを採用したくなるかもしれません。ただし、経験上、属性バケットを作成するためにデータ セットを強化することはお勧めできません。音楽ストリーミング サービスの Pandora はこの手動アプローチを使用しましたが、最終的にはニューラル ネットワークに依存した Spotify に敗れました。
### 褒美
データセットのキュレーションという厳密な領域ではほとんど作業が行われていないため (いくつかの例外を除き)、そこから得るものはたくさんあります。これは、テキストから CAD への戦争で競争上の優位性を求めている企業や起業家にとっての主な目標であるはずです。大規模で豊富なデータセットは作成が難しく、模倣するのが困難ですが、これが最高の「モテ」です。
企業の観点から見ると、データセットを慎重にキュレーションすることは、美しい製品の作成を促進する理想的な方法です。これまで、生成 AI ツールは作成者の優先順位を反映していましたが、好みとはほとんど関係がありませんでした。私たちは美しさの重要性についての立場をとるべきです。私たちは、自分たちが世に送り出したものがユーザーを魅了し、時の試練に耐えられるかどうかを気にする必要があります。凡庸な製品を凡庸の波に積み上げることには反対すべきです。
美しさそれ自体が目的ではないと信じる人がいるなら、おそらく彼らは持続可能性と利益という 2 つの統計を見て納得するでしょう。
イームズチェア、ライカカメラ、ベスパスクーターなど、前世紀の最も象徴的な製品は、その所有者によって大切にされています。精力的な愛好家たちはそれらを修復し、販売し、使い続けます。おそらく、その複雑な設計により、当時の競合他社よりも 20% 多くの排出量を排出する必要があったのでしょう。それは問題ではありません。それらの寿命は数年ではなく四半世紀で測定されており、これは実際の消費量と排出量が少ないことを意味します。
利益に関して言えば、美しい製品にはプレミアムが付くのは周知の事実です。 。 iPhone のスペックは Samsung のものに匹敵するものはありませんでした。ただし、Apple の料金は Samsung より 25% 高くなります。かわいいフィアット 500 サブコンパクトは、F-150 ほど燃費が良くありません。しかし気にしないでください、フィアットの予想は正しい、ヤッピーはかわいらしさのために追加の 5,000 ドルを支払うことをいとわないのです。
ユーザビリティ パターン ランゲージ
### 概要
パターン・ランゲージは、1970 年代にジェネラリストのクリストファー・アレクサンダーによって開拓されました。これは相互に強化するパターンのセットとして定義され、それぞれが設計上の問題とその解決策を記述します。 Alexander の最初のパターン ランゲージは建築設計を目的としたものでしたが、多くの分野 (特にプログラミング) で成功裏に使用されており、少なくともジェネレーティブ デザインの分野でも同様に有用です。
Text-to-CAD では、パターン言語は一連のパターンで構成されます。たとえば、可動部品用の 1 つのパターン、ヒンジ用の 1 つのパターン (可動部品のサブセット、したがって 1 レベル下の抽象化)、および摩擦用の 1 つのパターンです。ヒンジ (もう 1 つの抽象化レベル)。摩擦ヒンジ パターンの形式は次のとおりです。
これらのパターンは、デザインの基本、つまりヒューマンファクター、機能性、美しさなどのベストプラクティスを具体化しています。したがって、これらのモードの出力はより使いやすく、理解しやすく (ブラック ボックスの問題を回避し)、微調整が容易になります。
肝心なのは、テキストから CAD へのプログラムが設計の基本を考慮していない限り、出力はゴミになるということです。何もしないほうが、テキストから CAD への生成を行うラップトップよりも優れていますが、画面を垂直に保つことができません。
これらすべての基本要素の中で、おそらく最も重要であり、考慮するのが最も難しいのはヒューマンファクターの設計です。有用な製品を設計するために考慮する必要がある人的要因は、ほぼ無限にあります。 AI は、挟み込みポイント、指の挟み込み、鋭いエッジの置き忘れ、人間工学に基づいたプロポーションなどの問題を特定して設計する必要があります。
### 練習する
実際の例を見てみましょう。ジェーンは ABC デザイン スタジオの工業デザイナーで、未来のゲーム用ラップトップのデザインを依頼されたとします。現在のテクノロジーを使用すると、ジェーンは Fusion 360 などの CAD プログラムを使用して、Fusion のジェネレーティブ デザイン ワークスペースに移動し、チームと協力して 1 週間 (または 1 か月) かけて、荷重、条件、ターゲット、材料特性などの関連するすべての制約を指定できます。等
しかし、Fusion のジェネレーティブ デザイン ワークスペースがどれほど強力であっても、重要な事実が 1 つ回避できません。それは、ユーザーがかなりの専門知識、CAD 機能、時間を必要とするということです。
より快適なユーザー エクスペリエンスは、出力がユーザーの要件を満たすまで、単純に CAD プログラムにテキストを入力することです。このようなスキーマ設計中心のワークフローは次のようになります。
ジェーンは、テキストから CAD プログラムへのプロンプトを出します。「将来のゲーム用ラップトップの例をいくつか見せてください。TOMO ラップトップ スタンドの形状とキング コブラの表面テクスチャからインスピレーションを受けています。」
プログラムは「キーボードの配置」「ヒンジの構造」「家電製品のポート配置」などのパターンを含む6枚の概念図を出力する。
ジェーンは、「画像 2 のバリエーションをいくつか教えてください。画面をより引っ込めて、キーボードをより質感のあるものにしてください。」と答えることができます。
ジェーン: 「3 番目のものが気に入っています。パラメーターは何ですか?」
システムは、最も関連性が高いと思われるパターンの「ソリューション」フィールドに基づいて、長さ、幅、モニターの高さ、キーの密度など、20 個のパラメーターをリストします。
Jane は、ヒンジ タイプが指定されていないことに気づき、「ヒンジ タイプ パラメータをリストに追加して CAD モデルをエクスポート」と入力します。
彼女は Fusion 360 でモデルを開き、適切な摩擦ヒンジが追加されていることを確認して満足しました。彼女は、Studio ABC のクライアントが画面が頻繁な使用に耐えられることを望んでいることを知っていたため、ヒンジのパラメータ化に加えて、幅のパラメータも増やしました。
ジェーンは形状と機能に完全に満足するまで調整を続けました。そうすれば、彼女はそれを同僚の機械エンジニアであるジョーに渡すことができ、ジョーはそれを調べて、どのカスタム パーツを在庫バージョンと交換できるかを確認することができます。
最後に、ラップトップの設計プロセスが平均 6 か月から 1 か月に短縮されたため、Studio ABC の経営陣は満足しているでしょう。嬉しいことに、パラメトリック技術のおかげで、顧客が要求した変更には、再設計することなくすぐに対応できます。
徹底したフィルタリング
AI 倫理学者のアイリーン・ソライマン氏が最近のインタビューで指摘したように、生成 AI には徹底的な保護手段が早急に必要です。パターン ランゲージのアプローチを使用したとしても、生成 AI だけでは悪い出力を防ぐことはできません。ここでガードレールが登場します。
武器、流血表現、児童性的虐待素材 (CSAM)、その他の不快なコンテンツを求めるプロンプトを検出して拒否できる必要があります。訴訟を恐れる技術者は著作権で保護された製品をそのリストに加えるかもしれない。ただし、経験から言えば、不快なプロンプトがクエリの大部分を占める可能性があります。
Text-to-CAD モデルがオープンソース化または漏洩すると、これらの要件の多くが満たされるようになります。 (分散型防衛物語が私たちに何かを教えてくれたとすれば、それは、魔神は決して瓶の中に戻らないということです。テキサス州での最近の判決のおかげで、アメリカ人は現在、AR-15 を合法的にダウンロードし、3D プリントして、脅威を感じた場合にはそれを印刷することができます。 -- 誰かを撃つために使用できます)。
さらに、LLM 周辺で出現しているものと同様の、広く共有されるパフォーマンス ベンチマークも必要です。結局のところ、測定できなければ改善することはできません。
____
要約すると、AI 主導のテキストから CAD への生成テクノロジーの出現は、リスクとチャンスの両方をもたらしますが、両者の割合は不確実です。低品質の CAD モデルや有害なコンテンツの蔓延は、早急な対応が必要な問題のほんの一部にすぎません。
技術者は、無視されている領域に注意を払うこともできます。データセットのキュレーションは非常に重要です。高品質のソースから高品質のモデルを追跡し、工業デザイン コレクションのスキャンなどの他の方法を検討する必要があります。ユーザビリティ パターン言語は、ベスト デザイン プラクティスを組み込むための強力なフレームワークを提供します。さらに、パターン言語は、CAD モデル パラメーターを生成するための強力なフレームワークを提供し、モデルが使用要件を満たすまで微調整できます。最後に、危険なコンテンツの生成を防ぐために、包括的なフィルタリング技術を開発する必要があります。
この記事で紹介したアイデアが、技術者がこれまで生成 AI を悩ませてきた落とし穴を回避し、テキストから CAD への機能を改善して、それを使用する多くの人々に利益をもたらす優れたモデルを提供するのに役立つことを願っています。