Google ve NVIDIA, metin-CAD oluşturma teknolojisini geliştiriyor. Nasıl optimize edilmeli?

Yazan: Reggie Raye

Kaynak: Gradyan

Resim kaynağı: Sınırsız Yapay Zeka aracı tarafından oluşturulmuştur

Yapay zeka destekli metinden görüntüye dönüştürme teknolojisinin tozunu henüz atmış değil. Ancak sonuçlar zaten açık: Kötü görüntüler seli. Elbette bazı yüksek kaliteli görüntüler var ancak bu, sinyal-gürültü oranındaki kaybı telafi etmek için yeterli değil; Midjourney tarafından oluşturulan albüm kapaklarından yararlanan her sanatçıya karşılık, Midjourney tarafından oluşturulan albüm kapaklarından yararlanan elli kişi daha var. Oluşturulan deepfake görseller tarafından kandırıldık. Sinyal-gürültü oranının azalmasının birçok hastalığın (bilimsel araştırma, gazetecilik, hükümetin hesap verebilirliği gibi) kökeni olduğu bir dünyada bu iyi bir şey değil.

Artık tüm görüntülere biraz şüpheyle bakmak gerekiyor. (Uzun süredir durumun böyle olduğu kabul ediliyor, ancak deepfake vakaları arttıkça insanların dikkati de artmalı; bu durum rahatsız edici olmasının yanı sıra bilişsel açıdan da yorucu olabilir.) Sürekli şüphe veya sık sık yanlış yönlendirme, kimsenin umursamadığı ve şu ana kadar çok az fayda sağlayan bir dijital cihaz için ödenmesi gereken yüksek bir bedel gibi görünüyor. Umarım - ya da daha doğrusu dua ederek - maliyet-kazanç oranının yakında makul bir seviyeye gelmesini dileriz.

Ancak aynı zamanda üretken yapay zeka alanında yeni bir olguya da dikkat etmeliyiz: yapay zeka destekli metinden CAD'e dönüştürme. Buradaki öncül, metinden görüntüye programına benzer; tek fark, programın görüntü yerine 3 boyutlu bir CAD modeli döndürmesidir.

Yapay zekadan "Mona Lisa ama Balenciaga giyiyor" görselini isteyin, yapay zeka onu 3D görüntüye dönüştürecek

İşte bazı tanımlar. Birincisi, bilgisayar destekli tasarım (CAD), kullanıcıların bardak, araba ve köprü gibi fiziksel nesnelerin dijital modellerini oluşturmasına olanak tanıyan yazılım araçlarını ifade eder. (CAD bağlamındaki modellerin derin öğrenme modelleriyle hiçbir ilgisi yoktur; Toyota Camry ≠ Tekrarlayan Sinir Ağları.) Ancak CAD de önemlidir; CAD'de tasarlanmamış bir nesneyi en son ne zaman gördüğünüzü düşünmeye çalışın.

Tanımları söyledikten sonra şimdi metinden CAD dünyasına girmek isteyen büyük oyunculara bir göz atalım: Autodesk (CLIP-Forge), Google (DreamFusion), OpenAI (Point-E) ve NVIDIA (Magic3D). İşte her şirketten örnekler:

Büyük oyuncular, 2023'ün başlarından itibaren neredeyse ayda bir oranında startup'ların ortaya çıkmasını engellemediler; CSM ve Sloyd belki de en umut verici olanlar.

Ek olarak, çıktıları 2 boyutlu ile 3 boyutlu arasında bir yerde olduğundan 2,5 D olarak adlandırılabilecek bazı harika araçlar da vardır. Bu araçların prensibi, kullanıcıların bir görsel yüklemesi ve ardından yapay zekanın, görselin üç boyutlu uzayda nasıl görüneceğini tahmin edebilmesidir.

Bu Açgözlü Kupa, SBF'nin (Sam Bankman-Fried, koyun kılığına girmiş bir kurt ve kavalcı olarak tasvir edilen) imajını bir rölyefe dönüştürmek için yapay zekayı kullanıyor (Fotoğraf kredisi: Reggie Raye/TOMO)

Açık kaynak kodlu animasyon ve modelleme platformu Blender'ın bu alanda lider konumda olduğuna şüphe yok. CAD modelleme yazılımı Rhino artık sıradan görüntülerden çok iyi bir şekilde 3 boyutlu derinlik haritaları oluşturabilen SurfaceRelief ve Ambrosinus Toolkit gibi eklentilere de sahip.

Tüm bunların heyecan verici olduğunu baştan söylemek gerekiyor. Bir CAD tasarımcısı olarak bu potansiyel faydaları sabırsızlıkla bekliyorum. Mühendisler, 3D baskı tutkunları ve video oyunu tasarımcıları da bundan faydalanacak pek çok kişi arasında yer alıyor.

Bununla birlikte, metni CAD'e dönüştürmenin birçoğu ciddi olan birçok dezavantajı vardır. Kısa bir liste aşağıdaki gibidir:

  • Silah, ırkçı veya diğer sakıncalı materyallerin seri üretimine kapı açılması
  • Önemsiz modeller dalgasını tetikleyerek model kütüphanesini kirletir
  • Telif hakkıyla korunan içerik oluşturucuların haklarını ihlal ediyor

Neyse, biz istesek de istemesek de CAD'e metin geliyor. Neyse ki teknisyenlerin programın çıktısını iyileştirmek ve olumsuz etkilerini azaltmak için atabileceği adımlar var. Bu tür programların gelişebileceği üç temel alan belirledik: veri seti iyileştirme, kullanılabilirlik modeli dilleri ve filtreleme.

Bildiğimiz kadarıyla bu alanlar, metinden CAD'e dönüştürme bağlamında büyük ölçüde keşfedilmemiştir. Kullanılabilirlik modeli dili fikri, çıktıyı önemli ölçüde iyileştirme potansiyeline sahip olduğundan özel ilgi görecektir. Özellikle, bu potansiyel CAD ile sınırlı değildir; metin ve görüntüler gibi üretken yapay zekanın çoğu alanındaki sonuçları iyileştirebilir.

Veri Kümesi Yönetimi

Pasif toplama

Metinden CAD'e dönüştürme yöntemlerinin tümü bir 3D model eğitim setine dayanmasa da (Google'ın DreamFusion'ı bir istisnadır), seçilmiş model veri kümeleri en yaygın yaklaşım olmaya devam etmektedir. Söylemeye gerek yok, burada anahtar eğitim verilecek iyi bir model seti seçmektir.

Bunu başarmanın anahtarı iki yönlüdür. Öncelikle teknisyenler, modellerin bariz kaynaklarından uzak durmalıdır: Thingiverse, Cults3 D, MyMiniFactory. Piyasada yüksek kaliteli modeller olmasına rağmen büyük çoğunluğu hurdadır. (Reddit'teki "Thingiverse neden bu kadar kötü?" başlığı bu sorunu gösteriyor). İkinci olarak, ultra yüksek kaliteli model kitaplıklarını aramalısınız. (Dünyayı Tara muhtemelen dünyanın en iyisidir).

İkincisi, model kaynakları kaliteye göre ağırlıklandırılabilir. Yüksek Lisans (MFA) öğrencileri muhtemelen bu tür ek açıklama çalışmaları yapma şansını kaçıracaklardır ve iş piyasasının adaletsizliği göz önüne alındığında, çok az para ödemek zorunda kalacaklardır.

Aktif planlama

Küratörlük daha aktif bir rol alabilir ve almalıdır. Pek çok müze, özel koleksiyon ve tasarım şirketi, endüstriyel tasarım koleksiyonlarını 3D olarak taramaktan mutluluk duymaktadır. Ayrıca tarama, zengin bir külliyat oluşturmanın yanı sıra kırılgan kültürümüzün güçlü bir kaydını da oluşturur.

Fransızların, yangından sonra Notre Dame Katedrali'ni yeniden inşa edebilmelerinin nedeni tamamen bir Amerikalının 3D tarama teknolojisi sayesinde olmuştur. Fotoğraf kredisi: Andrew Tallon/Vassar College

Zengin Veri

Yüksek kaliteli bir derlem oluşturma sürecinde teknisyenlerin, verilerin ne yapmasını istedikleri konusunda dikkatli düşünmeleri gerekir. İlk bakışta, birincil kullanım durumu "bir donanım şirketindeki yöneticilere birkaç kaydırıcıyı hareket ettirme, istenen ürün planını çıkarma ve ardından üretime geçme konusunda yetki vermek" olabilir. Bununla birlikte, kitlesel kişiselleştirme başarısızlıklarının geçmişi bir gösterge ise, bu yaklaşımın başarısız olması muhtemeldir.

Daha etkili bir kullanım durumunun 'bir ürün tasarım şirketindeki endüstriyel tasarımcılar gibi alan uzmanlarını, mühendisleri uygun bir çıktı elde edene kadar yönlendirmeleri ve ardından ince ayar yapıp sonuçlandırmaları konusunda güçlendirmek' olduğuna inanıyoruz.

Bunun gibi bir kullanım senaryosu, ilk bakışta bariz olmayabilecek bir şeyi gerektirir. Örneğin, alan uzmanlarının Midjourney'de olduğu gibi referans ürünlerin resimlerini yükleyebilmeleri ve ardından bunları stil, malzeme, dinamik vb. gibi hedef özelliklerine göre etiketleyebilmeleri gerekir. Bu durumda uzmanların açılır menülerden stil türünü, malzeme türünü vb. seçebileceği çok yönlü bir yaklaşım benimsemek cazip gelebilir. Ancak deneyimler, veri kümesini nitelik grupları oluşturmak için zenginleştirmenin tavsiye edilmediğini göstermektedir. Müzik akışı hizmeti Pandora bu manuel yaklaşımı kullandı ancak sonuçta sinir ağlarına dayanan Spotify tarafından mağlup edildi.

ödül

Veri seti iyileştirme konusunda çok az çalışma yapıldı (birkaç istisna dışında), dolayısıyla bundan kazanacağımız çok şey var. Metinden CAD'e savaşta rekabet avantajı arayan şirketler ve girişimciler için birincil hedef bu olmalıdır. Büyük ve zengin bir veri kümesinin oluşturulması ve taklit edilmesi zordur, bu en iyi "mote" dur.

Daha az kurumsal bir perspektiften bakıldığında, özenli veri seti düzenlemesi, güzel ürünlerin yaratılmasını yönlendirmenin ideal bir yoludur. Bugüne kadar üretken yapay zeka araçları, yaratıcılarının önceliklerini yansıtıyor ancak zevkle pek ilgisi yok. Güzelliğin önemine karşı tavır almalıyız. Dünyaya getirdiklerimizin kullanıcıları büyüleyip etkilemeyeceğini ve zamana karşı dayanıklı olup olmayacağını önemsemeliyiz. Vasatlık dalgası üzerine vasat ürünlerin yığılmasına karşı olmalıyız.

Eğer bazı insanlar güzelliğin başlı başına bir amaç olmadığına inanıyorsa, o zaman belki de iki istatistik onları ikna edecektir: sürdürülebilirlik ve kâr.

Geçtiğimiz yüzyılın en ikonik ürünleri (Eames sandalye, Leica kamera, Vespa scooter) sahipleri tarafından büyük bir değerle korunuyor. Enerjik meraklılar onları onarır, satar ve kullanmaya devam eder. Belki de karmaşık tasarımları, o zamanki rakiplerinden %20 daha fazla emisyon salmalarını gerektiriyordu. Önemli değil. Ömürleri yıllar yerine çeyrek asırlarla ölçülüyor; bu da tüketimlerinin ve emisyonlarının aslında daha az olduğu anlamına geliyor.

1963 Vespa GS 160, 2023'te 13.000 dolara satılıyor

Kâr konusuna gelince, güzel ürünlerin birinci sınıf olduğu bir sır değil. . iPhone'un özellikleri hiçbir zaman Samsung'unkilerle karşılaştırılamadı. Ancak Apple, Samsung'a göre %25 daha fazla ücret alıyor. Sevimli Fiat 500 alt kompakt, F-150 kadar iyi yakıt tüketimi sağlayamıyor. Ama boş verin, Fiat haklı, yuppiler sevimlilik için fazladan 5.000 dolar ödemeye hazır.

Kullanılabilirlik Desen Dili

Genel Bakış

Desen dillerinin öncülüğünü 1970'lerde genelci Christopher Alexander yaptı. Her biri bir tasarım problemini ve onun çözümünü tanımlayan, birbirini destekleyen bir dizi model olarak tanımlanır. Her ne kadar Alexander'ın ilk desen dili mimari tasarımı hedeflemiş olsa da, pek çok alanda (en önemlisi programlama) başarıyla kullanılmıştır ve üretken tasarım alanında da en azından aynı derecede faydalıdır.

Metinden CAD'e dönüştürmede, desen dili bir dizi desenden oluşur; örneğin, hareketli parçalar için bir desen, menteşeler için bir desen (hareketli parçaların bir alt kümesi ve dolayısıyla bir düzey aşağı soyutlama) ve sürtünme için bir desen menteşeler (Bir soyutlama düzeyi daha). Sürtünme menteşe modelinin formatı aşağıdaki gibidir:

Doğal dil gibi, bir kalıp dili de kelime dağarcığı (bir dizi tasarım çözümü), yapı (çözümlerin dildeki konumu) ve sözdizimini (örüntülerin sorunları çözebileceği kurallar) içerir. Yukarıdaki "sürtünme menteşesi" modelinin hiyerarşik bir ağdaki bir düğüm olduğuna ve yönlendirilmiş bir ağ diyagramı ile görsel olarak görselleştirilebileceğine dikkat edin.

Bu modeller tasarımın temellerini (insan faktörleri, işlevsellik, estetik ve daha birçok alandaki en iyi uygulamalar) somutlaştırır. Bu nedenle, bu modların çıktısı daha kullanışlı, anlaşılması daha kolay (kara kutu sorunlarından kaçınılarak) ve ince ayarın yapılması daha kolay olacaktır.

Sonuç olarak, metinden CAD'e dönüştürme programı tasarımın temellerini dikkate almadığı sürece çıktı çöp olacaktır. Hiçbir şey yapmamak, metni CAD'e dönüştüren ancak ekranı dik duramayan bir dizüstü bilgisayardan daha iyidir.

Tüm bu temel unsurlar arasında belki de en önemlisi ve dikkate alınması en zor olanı insan faktörleri tasarımıdır. Yararlı ürünler tasarlamak için dikkate alınması gereken insan faktörleri neredeyse sonsuzdur. Yapay zeka, sıkışma noktaları, parmak sıkışması, yanlış yerleştirilmiş keskin kenarlar, ergonomik oranlar ve daha fazlası gibi sorunları tanımlamalı ve tasarlamalıdır.

Pratik

Pratik bir örneğe bakalım. Jane'in fütüristik bir oyun dizüstü bilgisayarı tasarlamak üzere görevlendirilen ABC Design Studio'da endüstriyel tasarımcı olduğunu varsayalım. Mevcut teknolojiyle Jane, Fusion 360 gibi bir CAD programını kullanabilir, Fusion'ın üretken tasarım çalışma alanına girebilir ve tüm ilgili kısıtlamaları belirlemek için ekibiyle birlikte çalışarak bir hafta (veya bir ay) geçirebilir: yükler, koşullar, Hedefler, malzeme özellikleri, vesaire.

Ancak Fusion'ın üretken tasarım çalışma alanı ne kadar güçlü olursa olsun, tek bir temel gerçeğin etrafından dolaşamaz: Kullanıcıların önemli miktarda alan uzmanlığına, CAD yeteneklerine ve zamana sahip olması gerekir.

Daha keyifli bir kullanıcı deneyimi, çıktısı kullanıcının gereksinimlerini karşılayana kadar metni CAD programına yönlendirmektir. Böyle bir şema tasarım merkezli iş akışı şöyle görünebilir:

Jane, metinden CAD'e dönüştürme programını başlatıyor: "Bana gelecekteki oyun dizüstü bilgisayarlarından bazı örnekler gösterin. TOMO dizüstü bilgisayar standının şeklinden ve King Cobra'nın yüzey dokusundan ilham alındı."

*Görüntülerden üretilebilir ürünlere kadar kapalı döngüyü gerçekleştirecek olan metnin CAD'ye dönüştürülmesini tamamen gerçekleştirin. *

Program, her biri "klavye düzeni", "menteşe yapısı" ve "tüketici elektroniği ürünlerinin bağlantı noktası düzeni" gibi modelleri içeren altı konsept çizimi üretecek.

Jane cevap verebilir: "Bana resim 2'nin bazı varyasyonlarını verin. Ekranı daha içeri çekilmiş ve klavyeyi daha dokulu yapın."

Jane: "Üçüncüyü beğendim, parametreler neler?"

Sistem, en alakalı olduğunu düşündüğü modelin "çözüm" alanına göre 20 parametreyi (uzunluk, genişlik, monitör yüksekliği, anahtar yoğunluğu vb.) listeler.

Jane, menteşe tipinin belirtilmediğini fark eder ve "CAD modelini listelemek ve dışa aktarmak için menteşe tipi parametresini ekleyin" seçeneğini girer.

Modeli Fusion 360'ta açtı ve uygun sürtünme menteşelerinin eklendiğini görmekten memnun oldu. Menteşe parametrelendirmesinin yanı sıra genişlik parametresini de artırdı çünkü Studio ABC'nin müşterilerinin ekranın yoğun kullanıma dayanabilmesini istediğini biliyordu.

Jane, biçim ve işlevden tamamen memnun kalana kadar ayarlamalar yapmaya devam etti. Bu şekilde, onu kontrol edecek ve hangi özel parçaların stok versiyonlarla değiştirilebileceğini görecek olan makine mühendisi meslektaşı Joe'ya verebilir.

Son olarak Studio ABC yönetimi, dizüstü bilgisayar tasarım sürecinin ortalama 6 aydan 1 aya kısalması nedeniyle mutlu olacak. Parametrik teknoloji sayesinde, müşteriler tarafından talep edilen her türlü değişikliğin, yeniden tasarlamaya gerek kalmadan hızlı bir şekilde yerine getirilebilmesi onları çok sevindiriyor.

Kapsamlı filtreleme

Yapay zeka etik uzmanı Irene Solaiman'ın yakın tarihli bir röportajda belirttiği gibi, üretken yapay zekanın acilen kapsamlı önlemlere ihtiyacı var. Desen dili yaklaşımıyla bile üretken yapay zeka tek başına kötü çıktıyı önleyemez. Korkulukların devreye girdiği yer burasıdır.

Silah, vahşet, çocuklara yönelik cinsel istismar materyalleri (CSAM) ve diğer sakıncalı içeriklere yönelik istemleri tespit edip reddedebilmemiz gerekiyor. Davalardan korkan teknoloji uzmanları, telif hakkıyla korunan ürünleri bu listeye ekleyebilir. Ancak deneyimlere dayanarak konuşursak, sakıncalı yönlendirmeler sorguların önemli bir bölümünü açıklayabilir.

Bu gereksinimlerin çoğu, metinden CAD'e modeli açık kaynaklı olduğunda veya sızdırıldığında karşılanacaktır. (Savunma Dağıtılmış destanı bize bir şey öğrettiyse, o da cin asla şişeye geri dönmediğidir; Teksas'ta yakın zamanda alınan bir karar sayesinde, Amerikalılar artık AR-15'i yasal olarak indirebilir, 3D çıktısını alabilir ve eğer kendini tehdit altında hissederse -- birisini vurmak için kullanabilir).

Ek olarak, Yüksek Lisans'larda ortaya çıkanlara benzer, geniş çapta paylaşılan performans kriterlerine ihtiyacımız var. Sonuçta ölçemezseniz geliştiremezsiniz.

____

Özetle, yapay zeka destekli metinden CAD'e dönüştürme teknolojisinin ortaya çıkışı hem riskleri hem de fırsatları beraberinde getiriyor; ikisi arasındaki oran hala belirsiz. Düşük kaliteli CAD modellerinin ve zehirli içeriğin çoğalması, acil müdahale gerektiren sorunlardan sadece birkaçıdır.

Teknisyenler ayrıca ihmal edilen bazı alanlara da faydalı bir ilgi gösterebilirler. Veri kümesinin iyileştirilmesi kritik önem taşıyor: Yüksek kaliteli kaynaklardan yüksek kaliteli modelleri izlememiz ve endüstriyel tasarım koleksiyonlarını taramak gibi diğer yöntemleri keşfetmemiz gerekiyor. Kullanılabilirlik modeli dili, en iyi tasarım uygulamalarını birleştirmek için güçlü bir çerçeve sağlayabilir. Ek olarak desen dili, modelin kullanım gereksinimlerini karşılayana kadar ince ayar yapılabilecek CAD modeli parametrelerinin oluşturulması için güçlü bir çerçeve sağlayacaktır. Son olarak tehlikeli içeriklerin oluşmasını önlemek için kapsamlı filtreleme teknolojileri geliştirilmelidir.

Bu makalede sunulan fikirlerin, teknoloji uzmanlarının üretken yapay zekayı bugüne kadar rahatsız eden tuzaklardan kaçınmalarına ve bunları kullanacak birçok kişiye fayda sağlayacak iyi modeller sunmak için metinden CAD'e dönüştürme yeteneklerini geliştirmelerine yardımcı olacağını umuyoruz.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)