Google dan NVIDIA sama-sama mengembangkan teknologi pembuatan teks-CAD, bagaimana cara mengoptimalkannya?

Question

Ditulis oleh: Reggie RayeSumber: Gradien![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-87ac08824b-dd1a6f-6d2ef1) *Sumber gambar: dihasilkan oleh alat AI Tanpa Batas*Masalah belum selesai pada teknologi pembuatan teks-ke-gambar yang digerakkan oleh AI. Namun, dampaknya sudah jelas: membanjirnya citra buruk. Tentu, ada beberapa gambar berkualitas tinggi, tapi itu tidak cukup untuk mengatasi hilangnya rasio signal-to-noise - untuk setiap artis yang mendapat manfaat dari sampul album yang dibuat Midjourney, ada lima puluh artis lainnya yang mendapat manfaat dari sampul album yang dibuat Midjourney. Tertipu oleh gambar deepfake yang dihasilkan. Di dunia di mana berkurangnya rasio signal-to-noise adalah akar dari banyak masalah (misalnya penelitian ilmiah, jurnalisme, akuntabilitas pemerintah), hal ini bukanlah hal yang baik.Sekarang kita perlu melihat semua gambar dengan sebutir garam. (Memang hal ini sudah terjadi sejak lama, namun seiring dengan meningkatnya insiden deepfake, kewaspadaan masyarakat juga harus meningkat, yang selain tidak menyenangkan, juga dapat membebani secara kognitif.) Kecurigaan yang terus-menerus -- atau penyesatan yang sering terjadi -- sepertinya merupakan harga mahal yang harus dibayar untuk sebuah gadget digital yang tidak dipedulikan oleh siapa pun, dan sejauh ini hanya memberikan sedikit manfaat. Mudah-mudahan -- atau, lebih tepat lagi, berdoa -- rasio biaya-manfaat akan segera mencapai kondisi yang wajar.Namun pada saat yang sama, kita harus memperhatikan fenomena baru di bidang kecerdasan buatan generatif: generasi text-to-CAD yang digerakkan oleh kecerdasan buatan. Premisnya mirip dengan program teks-ke-gambar, hanya saja alih-alih gambar, program ini mengembalikan model CAD 3D.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7f802bc7e6-dd1a6f-6d2ef1) *Minta AI untuk gambar "Mona Lisa, tapi memakai Balenciaga" dan AI akan mengubahnya menjadi gambar 3D*Berikut beberapa definisinya. Pertama, desain berbantuan komputer (CAD) mengacu pada perangkat lunak yang memungkinkan pengguna membuat model digital objek fisik seperti cangkir, mobil, dan jembatan. (Model dalam konteks CAD tidak ada hubungannya dengan model pembelajaran mendalam; Toyota Camry ≠ Jaringan Neural Berulang.) Namun CAD juga penting; coba pikirkan kapan terakhir kali Anda melihat objek yang tidak dirancang dalam CAD.Setelah menjelaskan definisinya, sekarang mari kita lihat pemain besar yang ingin memasuki dunia text-to-CAD: Autodesk (CLIP-Forge), Google (DreamFusion), OpenAI (Point-E) dan NVIDIA (Magic3D). Berikut adalah contoh dari masing-masing perusahaan:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7c24eff168-dd1a6f-6d2ef1) Para pemain besar tidak menghentikan startup yang bermunculan dengan laju hampir satu startup per bulan pada awal tahun 2023, dengan CSM dan Sloyd mungkin yang paling menjanjikan.Selain itu, ada beberapa alat luar biasa yang bisa disebut 2,5 D karena keluarannya antara 2-D dan 3-D. Prinsip dari alat ini adalah pengguna mengunggah gambar, dan kemudian kecerdasan buatan dapat menebak bagaimana tampilan gambar tersebut dalam ruang tiga dimensi.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fe9b9357cd-dd1a6f-6d2ef1) *Greedy Cup ini menggunakan AI untuk mengubah gambar SBF (Sam Bankman-Fried, digambarkan sebagai serigala berbulu domba dan piper) menjadi lega (Kredit foto: Reggie Raye/TOMO)*Tidak ada keraguan bahwa platform animasi dan pemodelan open source Blender adalah pemimpin dalam bidang ini. Perangkat lunak pemodelan CAD Rhino kini juga memiliki plug-in seperti SurfaceRelief dan Ambrosinus Toolkit, yang dapat menghasilkan peta kedalaman 3D dari gambar biasa dengan sangat baik.Harus dikatakan sejak awal bahwa semua ini menarik. Sebagai seorang desainer CAD, saya sangat menantikan potensi manfaat ini. Insinyur, penggemar pencetakan 3D, dan desainer video game termasuk di antara banyak pihak yang juga akan merasakan manfaatnya.Namun, text-to-CAD memiliki banyak kelemahan, banyak di antaranya yang serius. Daftar singkatnya adalah sebagai berikut:* Membuka pintu bagi produksi massal senjata, rasis, atau materi tidak pantas lainnya* Memicu gelombang model sampah, sehingga mencemari perpustakaan model* Melanggar hak pembuat konten berhak ciptaBagaimanapun, teks ke CAD akan datang entah kita menginginkannya atau tidak. Untungnya, ada beberapa langkah yang dapat diambil teknisi untuk meningkatkan keluaran program dan mengurangi dampak negatifnya. Kami telah mengidentifikasi tiga bidang utama yang dapat ditingkatkan oleh program tersebut: kurasi kumpulan data, bahasa pola kegunaan, dan pemfilteran.Sejauh pengetahuan kami, area ini sebagian besar belum dijelajahi dalam konteks text-to-CAD. Ide bahasa pola kegunaan akan mendapat perhatian khusus karena berpotensi meningkatkan keluaran secara signifikan. Potensi ini tidak hanya terbatas pada CAD saja, namun juga dapat meningkatkan hasil di sebagian besar bidang AI generatif, seperti teks dan gambar.## **Manajemen Kumpulan Data**### **Koleksi pasif**Meskipun tidak semua metode text-to-CAD bergantung pada kumpulan pelatihan model 3D (pengecualian DreamFusion Google), kumpulan data model yang dikurasi tetap menjadi pendekatan yang paling umum. Tentu saja, kuncinya di sini adalah menyusun serangkaian model yang bagus untuk dilatih.Kunci untuk mencapai hal ini ada dua. Pertama, teknisi harus menghindari sumber model yang jelas: Thingiverse, Cults3 D, MyMiniFactory. Meskipun ada model berkualitas tinggi di luar sana, sebagian besar adalah model sampah. (Utas Reddit “Mengapa Thingiverse begitu buruk?” menggambarkan masalah ini). Kedua, Anda harus mencari perpustakaan model berkualitas sangat tinggi. (Pindai Dunia mungkin yang terbaik di dunia).Kedua, sumber model dapat diberi bobot berdasarkan kualitasnya. Mahasiswa Magister Seni (MFA) kemungkinan besar akan memanfaatkan kesempatan untuk melakukan pekerjaan anotasi tersebut -- dan mengingat ketidakadilan pasar tenaga kerja, mereka harus membayar sangat sedikit.### **Perencanaan aktif**Kurasi dapat dan harus mengambil peran yang lebih aktif. Banyak museum, koleksi pribadi, dan perusahaan desain dengan senang hati memindai 3D koleksi desain industri mereka. Selain itu, selain menghasilkan korpus yang kaya, pemindaian juga menciptakan catatan yang kuat tentang budaya kita yang rapuh.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b022eb5c2a-dd1a6f-6d2ef1) *Alasan mengapa Prancis mampu membangun kembali Katedral Notre Dame setelah kebakaran sepenuhnya karena teknologi pemindaian 3D buatan Amerika. Kredit foto: Andrew Tallon/Vassar College*### **Data Kaya**Dalam proses pembuatan korpus berkualitas tinggi, teknisi harus memikirkan dengan hati-hati tentang apa yang mereka inginkan dari data tersebut. Pada pandangan pertama, kasus penggunaan utamanya mungkin adalah "memberdayakan manajer di perusahaan perangkat keras untuk menggerakkan beberapa bilah geser, mengeluarkan cetak biru produk yang diinginkan, dan kemudian melanjutkan ke produksi." Namun, jika riwayat kegagalan kustomisasi massal merupakan indikasinya, pendekatan ini kemungkinan besar akan gagal.Kami yakin bahwa kasus penggunaan yang lebih efektif adalah dengan 'memberdayakan pakar domain - seperti perancang industri di perusahaan desain produk - untuk memberikan masukan kepada para insinyur hingga mereka mendapatkan hasil yang sesuai, lalu menyempurnakan dan menyelesaikannya'.Kasus penggunaan seperti ini memerlukan sesuatu yang mungkin tidak terlihat jelas pada pandangan pertama. Misalnya, pakar domain harus dapat mengunggah gambar produk referensi, seperti di Midjourney, lalu menandainya berdasarkan atribut targetnya -- gaya, bahan, dinamika, dll. Dalam hal ini, mungkin tergoda untuk mengambil pendekatan segi, di mana para ahli dapat memilih jenis gaya, jenis material, dll. di menu drop-down. Namun pengalaman menunjukkan bahwa memperkaya kumpulan data untuk membuat keranjang atribut tidak disarankan. Layanan streaming musik Pandora menggunakan pendekatan manual ini, namun pada akhirnya dikalahkan oleh Spotify, yang mengandalkan jaringan saraf.### **hadiah**Sedikit pekerjaan yang telah dilakukan di bidang kurasi kumpulan data yang ketat (dengan beberapa pengecualian), jadi kami dapat memperoleh banyak manfaat darinya. Hal ini harus menjadi tujuan utama bagi perusahaan dan pengusaha yang mencari keunggulan kompetitif dalam perang text-to-CAD. Kumpulan data yang besar dan kaya sulit dibuat dan ditiru. Ini adalah "mote" terbaik.Dari perspektif yang tidak terlalu bersifat korporat, kurasi kumpulan data yang cermat adalah cara ideal untuk mendorong terciptanya produk yang menarik. Hingga saat ini, alat AI generatif telah mencerminkan prioritas penciptanya namun tidak ada hubungannya dengan selera. Kita harus mengambil sikap terhadap pentingnya kecantikan. Kita harus peduli apakah apa yang kita hadirkan ke dunia ini akan membuat pengguna terpesona dan bertahan dalam ujian waktu. Kita tidak boleh menumpuk produk biasa-biasa saja di tengah gelombang produk biasa-biasa saja.Jika sebagian orang percaya bahwa kecantikan bukanlah tujuan akhir, mungkin mereka akan yakin dengan dua statistik: keberlanjutan dan keuntungan.Produk paling ikonik pada abad yang lalu - kursi Eames, kamera Leica, skuter Vespa - sangat dihargai oleh pemiliknya. Para peminat yang energik memulihkannya, menjualnya, dan terus menggunakannya. Mungkin desainnya yang rumit mengharuskan mereka mengeluarkan emisi 20% lebih banyak dibandingkan pesaingnya pada saat itu. Tidak masalah. Rentang hidup mereka diukur dalam seperempat abad, bukan tahun, yang berarti konsumsi dan emisi mereka sebenarnya lebih sedikit.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-701b056d61-dd1a6f-6d2ef1) *Vespa GS 160 tahun 1963 dijual seharga $13.000 pada tahun 2023*Mengenai keuntungan, bukan rahasia lagi bahwa produk cantik memiliki harga yang mahal. . Spesifikasi iPhone tidak pernah sebanding dengan Samsung. Namun, Apple mengenakan biaya 25% lebih mahal dari Samsung. Subkompak Fiat 500 yang lucu tidak memiliki jarak tempuh bahan bakar sebaik F-150. Tapi tak apa, Fiat bertaruh, yuppies bersedia membayar ekstra $5.000 untuk kelucuannya.## **Bahasa Pola Kegunaan**### **Ringkasan**Bahasa pola dipelopori oleh generalis Christopher Alexander pada tahun 1970-an. Hal ini didefinisikan sebagai serangkaian pola yang saling memperkuat, masing-masing menggambarkan masalah desain dan solusinya. Meskipun bahasa pola pertama Alexander ditujukan untuk desain arsitektur, bahasa ini telah berhasil digunakan di banyak bidang (terutama pemrograman) dan setidaknya sama bergunanya di bidang desain generatif.Dalam text-to-CAD, bahasa pola terdiri dari serangkaian pola; misalnya, satu pola untuk bagian yang bergerak, satu pola untuk engsel (bagian dari bagian yang bergerak, dan karenanya abstraksi satu tingkat ke bawah), dan satu pola untuk gesekan engsel (Satu tingkat abstraksi lagi). Format pola engsel gesekan adalah sebagai berikut:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b84c05dfa0-dd1a6f-6d2ef1) Seperti bahasa alami, bahasa pola mencakup kosa kata (seperangkat solusi desain), konstruksi (lokasi solusi dalam bahasa), dan sintaksis (aturan yang digunakan pola untuk memecahkan masalah). Perhatikan bahwa pola "engsel gesekan" di atas adalah simpul dalam jaringan hierarki dan dapat divisualisasikan secara visual dengan diagram jaringan terarah.Pola-pola ini mewujudkan dasar-dasar desain—praktik terbaik dalam faktor manusia, fungsionalitas, estetika, dan banyak lagi. Oleh karena itu, output dari mode ini akan lebih bermanfaat, lebih mudah dipahami (menghindari masalah kotak hitam), dan lebih mudah untuk disempurnakan.Intinya adalah kecuali program text-to-CAD mempertimbangkan dasar-dasar desain, hasilnya akan menjadi sampah. Tidak melakukan apa pun lebih baik daripada laptop yang menghasilkan teks ke CAD tetapi layarnya tidak bisa tetap tegak.Dari semua elemen mendasar ini, mungkin yang paling penting dan paling sulit untuk dipertimbangkan adalah desain faktor manusia. Faktor manusia yang perlu dipertimbangkan untuk merancang produk yang bermanfaat hampir tidak ada habisnya. AI harus mengidentifikasi dan merancang masalah seperti titik terjepit, jari terjepit, ujung tajam yang salah letak, proporsi ergonomis, dan banyak lagi.### **Praktik**Mari kita lihat contoh praktisnya. Misalkan Jane adalah seorang desainer industri di ABC Design Studio, yang ditugaskan untuk merancang laptop gaming futuristik. Dengan teknologi saat ini, Jane dapat menggunakan program CAD seperti Fusion 360, masuk ke ruang kerja desain generatif Fusion, dan menghabiskan waktu seminggu (atau sebulan) bekerja dengan timnya untuk menentukan semua batasan yang relevan: beban, kondisi, Target, properti material, dll.Namun betapapun kuatnya ruang kerja desain generatif Fusion, hal ini tidak dapat mengabaikan satu fakta penting: pengguna harus memiliki keahlian domain, kemampuan CAD, dan waktu yang memadai.Pengalaman pengguna yang lebih menyenangkan adalah dengan memasukkan teks ke dalam program CAD hingga outputnya memenuhi kebutuhan pengguna. Alur kerja yang berpusat pada desain skema mungkin terlihat seperti ini:Jane meminta program text-to-CAD-nya: "Tunjukkan pada saya beberapa contoh laptop gaming masa depan. Terinspirasi oleh bentuk dudukan laptop TOMO dan tekstur permukaan King Cobra."![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b456a111b2-dd1a6f-6d2ef1) *Realisasikan sepenuhnya konversi teks ke CAD, yang akan mewujudkan loop tertutup dari gambar ke produk manufaktur. *Program ini akan menghasilkan enam gambar konsep, yang masing-masing berisi pola seperti "tata letak keyboard", "struktur engsel", dan "tata letak port produk elektronik konsumen".Jane dapat menjawab: "Beri saya beberapa variasi gambar 2. Buat layar lebih ditarik dan keyboard lebih bertekstur."Jane: "Saya suka yang ketiga, apa parameternya?"Sistem mencantumkan 20 parameter -- panjang, lebar, tinggi monitor, kepadatan tombol, dll. -- berdasarkan bidang "solusi" untuk pola yang dianggap paling relevan.Jane memperhatikan bahwa tipe engsel tidak ditentukan dan memasukkan "Tambahkan parameter tipe engsel ke daftar dan ekspor model CAD".Dia membuka model di Fusion 360 dan senang melihat engsel gesekan yang sesuai telah ditambahkan. Seiring dengan parameterisasi engsel, dia meningkatkan parameter lebar karena dia tahu klien Studio ABC ingin layarnya mampu menahan penggunaan berat.Jane terus melakukan penyesuaian hingga benar-benar puas dengan bentuk dan fungsinya. Dengan begitu, dia dapat memberikannya kepada rekannya Joe, seorang insinyur mesin, yang akan memeriksanya dan melihat suku cadang khusus mana yang dapat diganti dengan versi stok.Terakhir, pihak manajemen Studio ABC senang karena proses desain laptop dipersingkat dari rata-rata 6 bulan menjadi 1 bulan. Yang membuat mereka senang, berkat teknologi parametrik, setiap modifikasi yang diminta pelanggan dapat dengan cepat diakomodasi tanpa perlu mendesain ulang.## **Pemfilteran menyeluruh**Seperti yang diungkapkan oleh ahli etika AI, Irene Solaiman dalam sebuah wawancara baru-baru ini, AI generatif sangat membutuhkan perlindungan menyeluruh. Bahkan dengan pendekatan bahasa pola, AI generatif saja tidak dapat mencegah keluaran yang buruk. Di sinilah pagar pembatas berperan.Kita harus mampu mendeteksi dan menolak permintaan akan senjata, adegan berdarah, materi pelecehan seksual terhadap anak-anak (CSAM), dan konten tidak menyenangkan lainnya. Para ahli teknologi yang takut akan tuntutan hukum mungkin akan menambahkan produk berhak cipta ke dalam daftar tersebut. Namun, jika kita berbicara berdasarkan pengalaman, permintaan yang tidak menyenangkan dapat menyebabkan sebagian besar pertanyaan.Banyak dari persyaratan ini akan dipenuhi setelah model text-to-CAD menjadi open source atau bocor. (Jika kisah Defense Distributed mengajarkan kita sesuatu, hal itu adalah bahwa jin tidak akan pernah kembali lagi ke dalam botol; berkat keputusan baru-baru ini di Texas, orang Amerika sekarang dapat secara legal mengunduh AR-15, mencetaknya dalam 3D, dan -- jika mereka merasa terancam -- dapat menggunakannya untuk menembak seseorang).Selain itu, kita memerlukan tolok ukur kinerja yang dibagikan secara luas, serupa dengan yang muncul di sekitar LLM. Lagi pula, jika Anda tidak bisa mengukurnya, Anda tidak bisa memperbaikinya.\_\_\_\_Singkatnya, kemunculan teknologi generasi text-to-CAD yang digerakkan oleh AI membawa risiko dan peluang, dengan rasio antara keduanya yang masih belum pasti. Menjamurnya model CAD berkualitas rendah dan konten beracun hanyalah beberapa dari masalah yang memerlukan perhatian segera.Teknisi juga dapat memberikan perhatian yang berguna pada beberapa area yang terabaikan. Kurasi kumpulan data sangatlah penting: kita perlu menelusuri model berkualitas tinggi dari sumber berkualitas tinggi dan mengeksplorasi metode lain, seperti memindai koleksi desain industri. Bahasa pola kegunaan dapat memberikan kerangka kerja yang kuat untuk menggabungkan praktik desain terbaik. Selain itu, bahasa pola akan memberikan kerangka kerja yang kuat untuk pembuatan parameter model CAD, yang dapat disesuaikan hingga model memenuhi persyaratan penggunaannya. Terakhir, teknologi penyaringan yang komprehensif harus dikembangkan untuk mencegah pembuatan konten berbahaya.Kami berharap ide-ide yang disajikan dalam artikel ini akan membantu para ahli teknologi menghindari kendala yang selama ini melanda AI generatif dan meningkatkan kemampuan text-to-CAD untuk menghasilkan model bagus yang akan bermanfaat bagi banyak orang yang akan menggunakannya.