Google và NVIDIA đều đang phát triển công nghệ tạo văn bản CAD, nên tối ưu hóa nó như thế nào?

Question

Được viết bởi: Reggie RayeNguồn: Độ dốc![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-87ac08824b-dd1a6f-6d2ef1) *Nguồn hình ảnh: được tạo bởi công cụ AI không giới hạn*Công nghệ tạo văn bản thành hình ảnh do AI điều khiển vẫn chưa lắng xuống. Tuy nhiên, kết quả đã rõ ràng: một loạt hình ảnh xấu. Chắc chắn, có một số hình ảnh chất lượng cao, nhưng điều đó là không đủ để bù đắp sự mất mát về tỷ lệ tín hiệu trên nhiễu - đối với mỗi nghệ sĩ được hưởng lợi từ bìa album do Midjourney tạo ra, thì có 50 nghệ sĩ khác được hưởng lợi từ ảnh bìa album do Midjourney tạo ra. Bị lừa bởi những hình ảnh deepfake được tạo ra. Trong một thế giới mà tỷ lệ tín hiệu trên nhiễu giảm là căn nguyên của nhiều tệ nạn (nghĩ về nghiên cứu khoa học, báo chí, trách nhiệm giải trình của chính phủ), đó không phải là một điều tốt.Bây giờ cần phải xem tất cả các hình ảnh một cách khó tin. (Đương nhiên, điều này đã xảy ra trong một thời gian dài, nhưng khi số vụ deepfake ngày càng gia tăng, thì sự cảnh giác của mọi người cũng phải tăng lên, điều này ngoài việc gây khó chịu còn có thể bị đánh thuế về mặt nhận thức.) Sự nghi ngờ thường xuyên - hoặc thường xuyên bị định hướng sai - có vẻ như là một mức giá cao phải trả cho một thiết bị kỹ thuật số không ai quan tâm và cho đến nay mang lại rất ít lợi ích. Hy vọng - hay nói đúng hơn là cầu nguyện - tỷ lệ chi phí trên lợi ích sẽ sớm đạt đến trạng thái lành mạnh.Nhưng đồng thời, chúng ta nên chú ý đến một hiện tượng mới trong lĩnh vực trí tuệ nhân tạo sáng tạo: tạo văn bản sang CAD dựa trên trí tuệ nhân tạo. Tiền đề tương tự như chương trình chuyển văn bản thành hình ảnh, ngoại trừ việc thay vì hình ảnh, chương trình trả về mô hình CAD 3D.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7f802bc7e6-dd1a6f-6d2ef1) *Yêu cầu AI cung cấp hình ảnh "Mona Lisa nhưng mặc Balenciaga" và AI sẽ chuyển hình ảnh đó thành hình ảnh 3D*Dưới đây là một số định nghĩa. Đầu tiên, thiết kế có sự hỗ trợ của máy tính (CAD) đề cập đến các công cụ phần mềm cho phép người dùng tạo các mô hình kỹ thuật số của các vật thể vật lý như cốc, ô tô và cầu. (Các mô hình trong bối cảnh CAD không liên quan gì đến các mô hình học sâu; Toyota Camry ≠ Mạng thần kinh tái phát.) Nhưng CAD cũng quan trọng; hãy thử nghĩ về lần cuối cùng bạn nhìn thấy một vật thể không được thiết kế bằng CAD.Đã nói xong các định nghĩa, bây giờ chúng ta hãy xem những ông lớn muốn tham gia vào thế giới chuyển văn bản sang CAD: Autodesk (CLIP-Forge), Google (DreamFusion), OpenAI (Point-E) và NVIDIA (Magic3D). Dưới đây là ví dụ từ mỗi công ty:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-7c24eff168-dd1a6f-6d2ef1) Các công ty lớn đã không ngăn cản các công ty khởi nghiệp nổi lên với tốc độ gần một công ty mỗi tháng kể từ đầu năm 2023, trong đó CSM và Sloyd có lẽ là hứa hẹn nhất.Ngoài ra, có một số công cụ tuyệt vời có thể được gọi là 2,5 D vì đầu ra của chúng nằm trong khoảng từ 2-D đến 3-D. Nguyên tắc của những công cụ này là người dùng tải hình ảnh lên và sau đó trí tuệ nhân tạo có thể đoán hình ảnh sẽ trông như thế nào trong không gian ba chiều.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fe9b9357cd-dd1a6f-6d2ef1) *Greedy Cup này sử dụng AI để biến hình ảnh SBF (Sam Bankman-Fried, được miêu tả là một con sói đội lốt cừu và một người thổi sáo) thành một bức phù điêu (Ảnh tín dụng: Reggie Raye/TOMO)*Không còn nghi ngờ gì nữa, nền tảng mô hình hóa và hoạt hình mã nguồn mở Blender là công ty dẫn đầu trong lĩnh vực này. Phần mềm tạo mô hình CAD Rhino hiện cũng có các plug-in như SurfaceRelief và Ambrosinus Toolkit, có thể tạo bản đồ độ sâu 3D từ hình ảnh thông thường rất tốt.Cần phải nói ngay từ đầu rằng tất cả những điều này thật thú vị. Là một nhà thiết kế CAD, tôi háo hức mong đợi những lợi ích tiềm năng này. Các kỹ sư, những người đam mê in 3D và nhà thiết kế trò chơi điện tử nằm trong số nhiều người khác cũng sẽ được hưởng lợi.Tuy nhiên, chuyển văn bản sang CAD có nhiều nhược điểm, trong đó có nhiều nhược điểm nghiêm trọng. Một danh sách ngắn gọn như sau:* Mở cửa cho việc sản xuất hàng loạt vũ khí, phân biệt chủng tộc hoặc các vật liệu phản cảm khác* Kích hoạt làn sóng mô hình rác, từ đó gây ô nhiễm thư viện mô hình* Xâm phạm quyền của người sáng tạo nội dung có bản quyềnDù sao, văn bản tới CAD sẽ đến dù chúng ta có muốn hay không. Rất may, có những bước mà kỹ thuật viên có thể thực hiện để cải thiện kết quả đầu ra của chương trình và giảm tác động tiêu cực của nó. Chúng tôi đã xác định ba lĩnh vực chính mà các chương trình như vậy có thể cải thiện: quản lý tập dữ liệu, ngôn ngữ mẫu khả năng sử dụng và lọc.Theo hiểu biết tốt nhất của chúng tôi, những lĩnh vực này phần lớn chưa được khám phá trong bối cảnh chuyển văn bản sang CAD. Ý tưởng về ngôn ngữ mẫu khả năng sử dụng sẽ nhận được sự quan tâm đặc biệt vì nó có tiềm năng cải thiện đáng kể đầu ra. Đáng chú ý, tiềm năng này không chỉ giới hạn ở CAD; nó có thể cải thiện kết quả trong hầu hết các lĩnh vực của AI, chẳng hạn như văn bản và hình ảnh.## **Quản lý tập dữ liệu**### **Bộ sưu tập thụ động**Mặc dù không phải tất cả các phương pháp chuyển văn bản sang CAD đều dựa vào tập huấn luyện các mô hình 3D (DreamFusion của Google là một ngoại lệ), các bộ dữ liệu mô hình được tuyển chọn vẫn là phương pháp phổ biến nhất. Không cần phải nói, chìa khóa ở đây là tuyển chọn một bộ mô hình tốt để đào tạo.Chìa khóa để đạt được điều này là gấp đôi. Đầu tiên, kỹ thuật viên nên tránh các nguồn mô hình rõ ràng: Thingiverse, Cults3 D, MyMiniFactory. Mặc dù có những mẫu chất lượng cao nhưng phần lớn đều là đồ cũ. (Chủ đề Reddit “Tại sao Thingiverse lại tệ đến vậy?” minh họa vấn đề này). Thứ hai, bạn nên tìm kiếm các thư viện mô hình chất lượng cực cao. (Quét thế giới có lẽ là tốt nhất trên thế giới).Thứ hai, nguồn mô hình có thể được tính trọng số theo chất lượng. Các sinh viên Thạc sĩ Nghệ thuật (MFA) có thể sẽ chớp lấy cơ hội làm công việc chú thích như vậy - và do sự bất công của thị trường lao động, họ sẽ phải trả rất ít.### **Lập kế hoạch tích cực**Giám tuyển có thể và nên đóng vai trò tích cực hơn. Nhiều viện bảo tàng, bộ sưu tập tư nhân và công ty thiết kế vui lòng quét 3D bộ sưu tập kiểu dáng công nghiệp của họ. Hơn nữa, ngoài việc tạo ra một kho ngữ liệu phong phú, việc quét còn tạo ra một bản ghi mạnh mẽ về nền văn hóa mong manh của chúng ta.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b022eb5c2a-dd1a6f-6d2ef1) *Sở dĩ người Pháp có thể xây dựng lại Nhà thờ Đức Bà sau vụ cháy hoàn toàn là nhờ công nghệ scan 3D của người Mỹ. Nguồn ảnh: Andrew Tallon/Đại học Vassar*### **Dữ liệu phong phú**Trong quá trình tạo kho văn bản chất lượng cao, các kỹ thuật viên phải suy nghĩ cẩn thận về những gì họ muốn dữ liệu thực hiện. Thoạt nhìn, trường hợp sử dụng chính có thể là "trao quyền cho các nhà quản lý tại các công ty phần cứng di chuyển một vài thanh trượt, đưa ra bản thiết kế sản phẩm mong muốn và sau đó tiến hành sản xuất." Tuy nhiên, nếu lịch sử thất bại trong việc tùy chỉnh hàng loạt là dấu hiệu cho thấy thì phương pháp này có thể sẽ thất bại.Chúng tôi tin rằng trường hợp sử dụng hiệu quả hơn là 'trao quyền cho các chuyên gia trong lĩnh vực - chẳng hạn như các nhà thiết kế công nghiệp tại một công ty thiết kế sản phẩm - để nhắc nhở các kỹ sư cho đến khi họ nhận được kết quả đầu ra phù hợp, sau đó tinh chỉnh và hoàn thiện'.Trường hợp sử dụng như thế này đòi hỏi điều gì đó có thể không rõ ràng ngay từ cái nhìn đầu tiên. Ví dụ: các chuyên gia về miền cần có khả năng tải lên hình ảnh của các sản phẩm tham chiếu, chẳng hạn như trong Midjourney, sau đó gắn thẻ chúng dựa trên thuộc tính mục tiêu -- kiểu dáng, chất liệu, động lực, v.v. Trong trường hợp này, có thể bạn nên áp dụng cách tiếp cận theo khía cạnh, trong đó các chuyên gia có thể chọn loại kiểu dáng, loại vật liệu, v.v. trong menu thả xuống. Nhưng kinh nghiệm cho thấy rằng việc làm phong phú tập dữ liệu để tạo nhóm thuộc tính là không nên. Dịch vụ phát nhạc trực tuyến Pandora đã sử dụng phương pháp thủ công này nhưng cuối cùng đã bị Spotify đánh bại, vốn dựa vào mạng lưới thần kinh.### **phần thưởng**Rất ít công việc đã được thực hiện trong lĩnh vực quản lý tập dữ liệu nghiêm ngặt (với một số ngoại lệ), vì vậy chúng tôi thu được rất nhiều lợi ích từ nó. Đây phải là mục tiêu chính của các công ty và doanh nhân đang tìm kiếm lợi thế cạnh tranh trong cuộc chiến chuyển văn bản sang CAD. Một tập dữ liệu lớn và phong phú khó tạo ra và khó bắt chước, đây chính là “mote” tốt nhất.Từ góc độ ít công ty hơn, việc quản lý tập dữ liệu chu đáo là một cách lý tưởng để thúc đẩy việc tạo ra các sản phẩm đẹp. Cho đến nay, các công cụ AI tổng quát đã phản ánh những ưu tiên của người tạo ra chúng nhưng ít liên quan đến sở thích. Chúng ta nên có quan điểm về tầm quan trọng của cái đẹp. Chúng ta nên quan tâm đến việc liệu những gì chúng ta mang đến thế giới có hấp dẫn người dùng và đứng vững trước thử thách của thời gian hay không. Chúng ta nên phản đối việc chất chồng những sản phẩm tầm thường lên một làn sóng tầm thường.Nếu một số người tin rằng cái đẹp tự nó không phải là mục đích thì có lẽ họ sẽ bị thuyết phục bởi hai con số thống kê: tính bền vững và lợi nhuận.Những sản phẩm mang tính biểu tượng nhất của thế kỷ qua - ghế Eames, máy ảnh Leica, xe tay ga Vespa - đều được chủ nhân trân trọng. Những người đam mê năng lượng khôi phục chúng, bán chúng và tiếp tục sử dụng chúng. Có lẽ thiết kế phức tạp của họ yêu cầu họ thải ra lượng khí thải nhiều hơn 20% so với các đối thủ cạnh tranh vào thời điểm đó. Nó không quan trọng. Tuổi thọ của chúng được đo bằng một phần tư thế kỷ chứ không phải bằng năm, điều đó có nghĩa là mức tiêu thụ và lượng khí thải của chúng thực sự ít hơn.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-701b056d61-dd1a6f-6d2ef1) *1963 Vespa GS 160 được bán với giá 13.000 USD vào năm 2023*Về lợi nhuận, không có gì bí mật khi những sản phẩm đẹp lại có giá cao. . Thông số kỹ thuật của iPhone chưa bao giờ có thể so sánh được với Samsung. Tuy nhiên, Apple tính phí cao hơn 25% so với Samsung. Chiếc xe cỡ nhỏ Fiat 500 dễ thương không tiết kiệm xăng bằng F-150. Nhưng đừng bận tâm, Fiat đặt cược đúng, giới trẻ sẵn sàng trả thêm 5.000 USD cho sự dễ thương.## **Ngôn ngữ mẫu khả năng sử dụng**### **Tổng quan**Ngôn ngữ mẫu được tiên phong bởi nhà tổng quát Christopher Alexander vào những năm 1970. Nó được định nghĩa là một tập hợp các mẫu củng cố lẫn nhau, mỗi mẫu mô tả một vấn đề thiết kế và giải pháp của nó. Mặc dù ngôn ngữ mẫu đầu tiên của Alexander nhằm vào thiết kế kiến trúc, nhưng nó đã được sử dụng thành công trong nhiều lĩnh vực (đáng chú ý nhất là lập trình) và ít nhất cũng hữu ích như nhau trong lĩnh vực thiết kế tổng quát.Trong chuyển văn bản sang CAD, ngôn ngữ mẫu bao gồm một chuỗi các mẫu; ví dụ: một mẫu cho các bộ phận chuyển động, một mẫu cho bản lề (một tập hợp con của các bộ phận chuyển động và do đó có một mức độ trừu tượng thấp hơn) và một mẫu cho ma sát bản lề (Thêm một mức độ trừu tượng). Định dạng của mẫu bản lề ma sát như sau:![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b84c05dfa0-dd1a6f-6d2ef1) Giống như ngôn ngữ tự nhiên, ngôn ngữ mẫu bao gồm từ vựng (một tập hợp các giải pháp thiết kế), cấu trúc (vị trí của các giải pháp trong ngôn ngữ) và cú pháp (các quy tắc mà các mẫu có thể giải quyết vấn đề). Lưu ý rằng mẫu "bản lề ma sát" ở trên là một nút trong mạng phân cấp và có thể được hiển thị trực quan bằng sơ đồ mạng được định hướng.Những mẫu này thể hiện các nguyên tắc cơ bản của thiết kế—các phương pháp thực hành tốt nhất về yếu tố con người, chức năng, tính thẩm mỹ, v.v. Do đó, đầu ra của các chế độ này sẽ dễ sử dụng hơn, dễ hiểu hơn (tránh vấn đề hộp đen) và dễ tinh chỉnh hơn.Điểm mấu chốt là trừ khi chương trình chuyển văn bản sang CAD xem xét các nguyên tắc cơ bản của thiết kế, nếu không thì đầu ra sẽ là rác. Không làm gì còn tốt hơn một chiếc máy tính xách tay có khả năng chuyển văn bản sang CAD nhưng màn hình không thể đứng thẳng.Trong tất cả các yếu tố cơ bản này, có lẽ yếu tố quan trọng nhất và khó xem xét nhất là thiết kế yếu tố con người. Yếu tố con người cần được quan tâm để thiết kế ra những sản phẩm hữu ích gần như là vô tận. AI phải xác định và thiết kế các vấn đề như điểm chụm, điểm chụm ngón tay, cạnh sắc bị đặt sai vị trí, tỷ lệ công thái học, v.v.### **Luyện tập**Hãy xem xét một ví dụ thực tế. Giả sử Jane là một nhà thiết kế công nghiệp tại ABC Design Studio, nơi được giao nhiệm vụ thiết kế một chiếc máy tính xách tay chơi game mang phong cách tương lai. Với công nghệ hiện tại, Jane có thể sử dụng chương trình CAD như Fusion 360, vào không gian làm việc thiết kế tổng quát của Fusion và dành một tuần (hoặc một tháng) làm việc với nhóm của mình để xác định tất cả các ràng buộc có liên quan: tải trọng, điều kiện, Mục tiêu, đặc tính vật liệu, vân vân.Nhưng cho dù không gian làm việc thiết kế tổng quát của Fusion có mạnh mẽ đến đâu thì nó cũng không thể giải quyết được một thực tế quan trọng: người dùng phải có kiến thức chuyên môn về miền, khả năng CAD và thời gian đáng kể.Trải nghiệm người dùng thú vị hơn là chỉ cần đưa văn bản vào chương trình CAD cho đến khi đầu ra đáp ứng yêu cầu của người dùng. Quy trình làm việc tập trung vào thiết kế lược đồ như vậy có thể trông như thế này:Jane gợi ý chương trình chuyển văn bản sang CAD của mình: "Cho tôi xem một số ví dụ về máy tính xách tay chơi game trong tương lai. Lấy cảm hứng từ hình dạng của giá đỡ máy tính xách tay TOMO và kết cấu bề mặt của King Cobra."![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-b456a111b2-dd1a6f-6d2ef1) * Hoàn toàn thực hiện việc chuyển đổi văn bản sang CAD, điều này sẽ hiện thực hóa vòng khép kín từ hình ảnh đến các sản phẩm có thể sản xuất được. *Chương trình sẽ xuất ra sáu bản vẽ khái niệm, mỗi bản vẽ chứa các mẫu như "bố trí bàn phím", "cấu trúc bản lề" và "bố trí cổng của các sản phẩm điện tử tiêu dùng".Jane có thể trả lời: "Hãy cho tôi một số biến thể của hình ảnh 2. Làm cho màn hình thu lại nhiều hơn và bàn phím có họa tiết hơn."Jane: “Tôi thích cái thứ ba, thông số là gì?”Hệ thống liệt kê 20 tham số -- chiều dài, chiều rộng, chiều cao màn hình, mật độ phím, v.v. -- dựa trên trường "giải pháp" cho mẫu mà hệ thống cho là phù hợp nhất.Jane nhận thấy rằng loại bản lề không được chỉ định và nhập "Thêm tham số loại bản lề vào danh sách và xuất mô hình CAD".Cô mở mô hình trong Fusion 360 và rất vui khi thấy bản lề ma sát thích hợp đã được thêm vào. Cùng với việc tham số hóa bản lề, cô đã tăng tham số chiều rộng vì cô biết khách hàng của Studio ABC muốn màn hình có thể chịu được việc sử dụng nhiều.Jane tiếp tục điều chỉnh cho đến khi cô hoàn toàn hài lòng với hình thức và chức năng. Bằng cách đó, cô có thể đưa nó cho đồng nghiệp Joe, một kỹ sư cơ khí, người sẽ kiểm tra nó và xem những bộ phận tùy chỉnh nào có thể được thay thế bằng phiên bản có sẵn.Cuối cùng, ban lãnh đạo Studio ABC sẽ rất vui vì quy trình thiết kế laptop đã được rút ngắn từ mức trung bình từ 6 tháng xuống còn 1 tháng. Họ rất vui mừng vì nhờ công nghệ tham số, mọi sửa đổi mà khách hàng yêu cầu đều có thể được đáp ứng nhanh chóng mà không cần thiết kế lại.## **Lọc kỹ lưỡng**Như nhà đạo đức học AI Irene Solaiman đã chỉ ra trong một cuộc phỏng vấn gần đây, AI có khả năng sinh sản rất cần được bảo vệ kỹ lưỡng. Ngay cả với cách tiếp cận ngôn ngữ mẫu, chỉ riêng AI tạo ra không thể ngăn chặn kết quả đầu ra xấu. Đây là nơi các lan can bảo vệ xuất hiện.Chúng tôi cần có khả năng phát hiện và từ chối lời nhắc về vũ khí, máu me, tài liệu lạm dụng tình dục trẻ em (CSAM) và các nội dung phản cảm khác. Các nhà công nghệ lo ngại kiện tụng có thể thêm các sản phẩm có bản quyền vào danh sách đó. Tuy nhiên, nếu chúng ta nói theo kinh nghiệm, những lời nhắc nhở khó chịu có thể chiếm một phần đáng kể trong các truy vấn.Nhiều yêu cầu trong số này sẽ được đáp ứng khi mô hình chuyển văn bản sang CAD có nguồn mở hoặc bị rò rỉ. (Nếu câu chuyện về Defense Distributed đã dạy chúng ta điều gì đó thì đó là thần đèn không bao giờ quay trở lại trong chai; nhờ một phán quyết gần đây ở Texas, người Mỹ giờ đây có thể tải xuống hợp pháp AR-15, in 3D ra và -- nếu anh ta cảm thấy bị đe dọa -- có thể dùng nó để bắn ai đó).Ngoài ra, chúng tôi cần các tiêu chuẩn hiệu suất được chia sẻ rộng rãi tương tự như các tiêu chuẩn mới nổi xung quanh LLM. Suy cho cùng, nếu bạn không thể đo lường được thì bạn không thể cải thiện nó.\_\_\_\_Tóm lại, sự xuất hiện của công nghệ tạo văn bản sang CAD do AI điều khiển mang lại cả rủi ro và cơ hội, với tỷ lệ không chắc chắn giữa cả hai. Sự gia tăng nhanh chóng của các mô hình CAD chất lượng thấp và nội dung độc hại chỉ là một số vấn đề cần được chú ý ngay lập tức.Kỹ thuật viên cũng có thể chú ý đến một số khu vực bị bỏ quên. Việc quản lý tập dữ liệu rất quan trọng: chúng tôi cần theo dõi các mô hình chất lượng cao từ các nguồn chất lượng cao và khám phá các phương pháp khác, chẳng hạn như quét các bộ sưu tập kiểu dáng công nghiệp. Ngôn ngữ mẫu khả năng sử dụng có thể cung cấp một khuôn khổ mạnh mẽ để kết hợp các phương pháp thiết kế tốt nhất. Ngoài ra, ngôn ngữ mẫu sẽ cung cấp một khung mạnh mẽ để tạo các tham số mô hình CAD, có thể được tinh chỉnh cho đến khi mô hình đáp ứng các yêu cầu sử dụng. Cuối cùng, các công nghệ lọc toàn diện phải được phát triển để ngăn chặn việc tạo ra nội dung nguy hiểm.Chúng tôi hy vọng rằng những ý tưởng được trình bày trong bài viết này sẽ giúp các nhà công nghệ tránh được những cạm bẫy đã gây khó khăn cho thế hệ AI cho đến nay và cải thiện khả năng chuyển văn bản sang CAD để cung cấp các mô hình tốt mang lại lợi ích cho nhiều người sẽ sử dụng chúng.