تعمل كل من Google وNVIDIA على تطوير تقنية إنشاء النصوص بمساعدة الكمبيوتر (CAD)، كيف ينبغي تحسينها؟

بقلم: ريجي راي

المصدر: التدرج

مصدر الصورة: تم إنشاؤها بواسطة أداة Unbounded AI

لم يستقر الغبار بعد على تقنية تحويل النص إلى صورة المعتمدة على الذكاء الاصطناعي. ومع ذلك، فإن النتائج واضحة بالفعل: طوفان من الصور السيئة. بالتأكيد، هناك بعض الصور عالية الجودة، لكن هذا لا يكفي لتعويض الخسارة في نسبة الإشارة إلى الضوضاء - لكل فنان يستفيد من أغلفة الألبومات التي تم إنشاؤها بواسطة Midjourney، هناك خمسون آخرون يستفيدون من صورة الألبوم التي تم إنشاؤها بواسطة Midjourney. تم خداعهم بواسطة الصور المزيفة العميقة التي تم إنشاؤها. في عالم حيث انخفاض نسبة الإشارة إلى الضوضاء هو السبب الجذري للعديد من العلل (فكر في البحث العلمي، والصحافة، ومساءلة الحكومة)، فإن هذا ليس بالأمر الجيد.

من الضروري الآن عرض جميع الصور بحذر. (من المؤكد أن هذا هو الحال لفترة طويلة، ولكن مع زيادة حوادث التزييف العميق، يجب أن تزداد يقظة الناس، والتي، بالإضافة إلى كونها غير سارة، يمكن أن تكون مرهقة معرفيا). ويبدو أن الشك المستمر - أو التوجيه الخاطئ المتكرر - هو ثمن باهظ يجب دفعه مقابل أداة رقمية لا يهتم بها أحد، ولم تحقق حتى الآن سوى القليل من الفوائد. ونأمل - أو الدعاء بشكل أكثر ملاءمة - أن تصل نسبة التكلفة إلى المنفعة قريبًا إلى حالة معقولة.

ولكن في الوقت نفسه، يجب أن ننتبه إلى ظاهرة جديدة في مجال الذكاء الاصطناعي التوليدي: توليد النص إلى CAD المعتمد على الذكاء الاصطناعي. تشبه الفرضية برنامج تحويل النص إلى صورة، باستثناء أنه بدلاً من الصورة، يقوم البرنامج بإرجاع نموذج CAD ثلاثي الأبعاد.

اطلب من الذكاء الاصطناعي صورة "الموناليزا لكن مرتدية بالنسياغا" وسيقوم الذكاء الاصطناعي بتحويلها إلى صورة ثلاثية الأبعاد

وهنا بعض التعاريف. أولاً، يشير التصميم بمساعدة الكمبيوتر (CAD) إلى الأدوات البرمجية التي تسمح للمستخدمين بإنشاء نماذج رقمية للأشياء المادية مثل الأكواب والسيارات والجسور. (النماذج في سياق التصميم بمساعدة الكمبيوتر لا علاقة لها بنماذج التعلم العميق؛ تويوتا كامري ≠ الشبكات العصبية المتكررة.) لكن التصميم بمساعدة الكمبيوتر مهم أيضًا؛ حاول أن تفكر في آخر مرة رأيت فيها كائنًا لم يتم تصميمه باستخدام التصميم بمساعدة الكمبيوتر.

بعد أن ذكرنا التعريفات، دعونا الآن نلقي نظرة على اللاعبين الكبار الذين يرغبون في دخول عالم تحويل النص إلى CAD: Autodesk (CLIP-Forge)، وGoogle (DreamFusion)، وOpenAI (Point-E)، وNVIDIA (Magic3D). وفيما يلي أمثلة من كل شركة:

لم يمنع اللاعبون الرئيسيون الشركات الناشئة من الظهور بمعدل شركة واحدة تقريبًا شهريًا اعتبارًا من أوائل عام 2023، وربما تكون CSM وSloyd هما الأكثر واعدة.

بالإضافة إلى ذلك، هناك بعض الأدوات الرائعة التي يمكن تسميتها بـ 2.5 D لأن مخرجاتها تقع في مكان ما بين 2-D و3-D. مبدأ هذه الأدوات هو أن يقوم المستخدمون بتحميل صورة، ومن ثم يستطيع الذكاء الاصطناعي تخمين كيف ستبدو الصورة في الفضاء ثلاثي الأبعاد.

تستخدم لعبة Greedy Cup هذه الذكاء الاصطناعي لتحويل صورة SBF (Sam Bankman-Fried، الذي تم تصويره على أنه ذئب يرتدي ملابس خروف ومزمار) إلى نقش بارز (حقوق الصورة: Reggie Raye/TOMO)

ليس هناك شك في أن منصة الرسوم المتحركة والنمذجة مفتوحة المصدر Blender هي الرائدة في هذا المجال. يحتوي برنامج CAD للنمذجة Rhino الآن أيضًا على مكونات إضافية مثل SurfaceRelief وAmbrosinus Toolkit، والتي يمكنها إنشاء خرائط عمق ثلاثية الأبعاد من الصور العادية بشكل جيد للغاية.

ينبغي أن يقال في البداية أن كل هذا مثير. كمصمم CAD، أتوقع بفارغ الصبر هذه الفوائد المحتملة. المهندسون وعشاق الطباعة ثلاثية الأبعاد ومصممو ألعاب الفيديو هم من بين العديد من الأشخاص الآخرين الذين سيستفيدون أيضًا.

ومع ذلك، فإن تحويل النص إلى CAD له العديد من العيوب، والعديد منها خطير. قائمة مختصرة هي كما يلي:

  • فتح الباب أمام الإنتاج الضخم للأسلحة العنصرية أو غيرها من المواد المرفوضة
  • إطلاق موجة من النماذج غير المرغوب فيها، وبالتالي تلويث مكتبة النماذج
  • ينتهك حقوق منشئي المحتوى المحمي بحقوق الطبع والنشر

على أية حال، ستصلك رسالة نصية إلى CAD سواء أردنا ذلك أم لا. ولحسن الحظ، هناك خطوات يمكن للفنيين اتخاذها لتحسين مخرجات البرنامج وتقليل آثاره السلبية. لقد حددنا ثلاثة مجالات رئيسية يمكن أن تتحسن فيها هذه البرامج: تنظيم مجموعة البيانات، ولغات أنماط قابلية الاستخدام، والتصفية.

على حد علمنا، لم يتم استكشاف هذه المجالات إلى حد كبير في سياق تحويل النص إلى CAD. ستحظى فكرة لغة نمط الاستخدام باهتمام خاص لأنها تمتلك القدرة على تحسين المخرجات بشكل كبير. والجدير بالذكر أن هذه الإمكانية لا تقتصر على التصميم بمساعدة الكمبيوتر، بل يمكنها تحسين النتائج في معظم مجالات الذكاء الاصطناعي التوليدي، مثل النصوص والصور.

إدارة مجموعات البيانات

المجموعة السلبية

على الرغم من أن طرق تحويل النص إلى CAD لا تعتمد جميعها على مجموعة تدريب من النماذج ثلاثية الأبعاد (يعد DreamFusion من Google استثناءً)، إلا أن مجموعات بيانات النماذج المنسقة تظل هي الطريقة الأكثر شيوعًا. وغني عن القول أن المفتاح هنا هو تنظيم مجموعة جيدة من النماذج للتدريب عليها.

والمفتاح لتحقيق ذلك ذو شقين. أولاً، يجب على الفنيين تجنب المصادر الواضحة للنماذج: Thingiverse، Cults3 D، MyMiniFactory. على الرغم من وجود نماذج عالية الجودة، إلا أن الغالبية العظمى منها غير مرغوب فيها. (يوضح موضوع Reddit "لماذا يعتبر Thingiverse سيئًا للغاية؟" هذه المشكلة). ثانيًا، يجب عليك البحث عن مكتبات نماذج فائقة الجودة. (مسح العالم ربما يكون الأفضل في العالم).

ثانيًا، يمكن ترجيح مصادر النماذج وفقًا للجودة. من المرجح أن ينتهز طلاب درجة الماجستير في الآداب (MFA) فرصة القيام بمثل هذا العمل التوضيحي - ونظرًا لعدم عدالة سوق العمل، فسيتعين عليهم دفع القليل جدًا.

التخطيط النشط

يمكن للتنظيم، بل وينبغي له، أن يلعب دورًا أكثر نشاطًا. تسعد العديد من المتاحف والمجموعات الخاصة وشركات التصميم بإجراء مسح ثلاثي الأبعاد لمجموعات التصميم الصناعي الخاصة بها. علاوة على ذلك، بالإضافة إلى توليد مجموعة غنية، فإن المسح يخلق سجلاً قوياً لثقافتنا الهشة.

سبب تمكن الفرنسيين من إعادة بناء كاتدرائية نوتردام بعد الحريق كان بالكامل بسبب تقنية المسح ثلاثي الأبعاد التي ابتكرها أمريكي. مصدر الصورة: أندرو تالون/ كلية فاسار

بيانات غنية

في عملية إنشاء مجموعة بيانات عالية الجودة، يجب على الفنيين التفكير بعناية فيما يريدون أن تفعله البيانات. للوهلة الأولى، قد تكون حالة الاستخدام الأساسية هي "تمكين المديرين في شركات الأجهزة من تحريك عدد قليل من أشرطة التمرير، وإخراج مخطط المنتج المطلوب، ثم المتابعة إلى الإنتاج". ومع ذلك، إذا كان تاريخ فشل التخصيص الشامل يشير إلى أي شيء، فمن المرجح أن يفشل هذا النهج.

نحن نعتقد أن حالة الاستخدام الأكثر فعالية هي "تمكين خبراء المجال - مثل المصممين الصناعيين في شركة تصميم المنتجات - لحث المهندسين حتى يحصلوا على المخرجات المناسبة، ومن ثم الضبط الدقيق والانتهاء".

تتطلب حالة الاستخدام هذه شيئًا قد لا يكون واضحًا للوهلة الأولى. على سبيل المثال، يجب أن يكون خبراء المجال قادرين على تحميل صور المنتجات المرجعية، كما هو الحال في Midjourney، ثم وضع علامات عليها بناءً على سماتها المستهدفة - النمط، والمواد، والديناميكيات، وما إلى ذلك. في هذه الحالة، قد يكون من المغري اتباع نهج متعدد الأوجه، حيث يمكن للخبراء تحديد نوع النمط ونوع المادة وما إلى ذلك في القوائم المنسدلة. لكن التجربة تظهر أن إثراء مجموعة البيانات لإنشاء مجموعات السمات ليس أمرًا مستحسنًا. استخدمت خدمة بث الموسيقى Pandora هذا النهج اليدوي، لكنها تغلبت في النهاية على خدمة Spotify، التي اعتمدت على الشبكات العصبية.

جائزة

لقد تم إنجاز القليل من العمل في المجال الصارم لتنظيم مجموعة البيانات (مع بعض الاستثناءات)، لذلك لدينا الكثير لنستفيد منه. يجب أن يكون هذا هو الهدف الأساسي للشركات ورجال الأعمال الذين يبحثون عن ميزة تنافسية في حرب تحويل النص إلى التصميم بمساعدة الحاسوب. من الصعب إنشاء مجموعة كبيرة وغنية من البيانات ومن الصعب تقليدها، وهذه هي أفضل "ذرة".

من منظور أقل مؤسسية، يعد التنظيم المدروس لمجموعة البيانات طريقة مثالية لتحفيز إنشاء منتجات جميلة. حتى الآن، تعكس أدوات الذكاء الاصطناعي التوليدية أولويات مبتكريها، لكنها لا علاقة لها بالذوق. يجب علينا أن نتخذ موقفا لأهمية الجمال. يجب أن نهتم بما إذا كان ما نجلبه إلى العالم سوف يبهر المستخدمين ويصمد أمام اختبار الزمن. يجب أن نكون ضد تكديس المنتجات المتواضعة على موجة من الرداءة.

إذا كان بعض الناس يعتقدون أن الجمال ليس غاية في حد ذاته، فربما يقتنعون بإحصائيات اثنين: الاستدامة والربح.

المنتجات الأكثر شهرة في القرن الماضي - كرسي إيمز، وكاميرا لايكا، وسكوتر فيسبا - يعتز بها أصحابها. يقوم المتحمسون النشطون باستعادةها وبيعها والاستمرار في استخدامها. وربما كان تصميمها المعقد يتطلب منها إصدار انبعاثات أكثر بنسبة 20% من منافسيها في ذلك الوقت. لا يهم. ويقاس عمرها بأرباع قرن وليس بالسنوات، مما يعني أن استهلاكها وانبعاثاتها أقل في الواقع.

بيع فيسبا GS 160 طراز 1963 بمبلغ 13000 دولار في عام 2023

أما بالنسبة للأرباح، فليس سرًا أن المنتجات الجميلة تأتي بسعر أعلى. . مواصفات iPhone لم تكن أبدًا قابلة للمقارنة بمواصفات Samsung. ومع ذلك، فإن شركة Apple تتقاضى رسومًا أعلى بنسبة 25٪ من تكلفة Samsung. لا تحصل سيارة Fiat 500 الصغيرة اللطيفة على مسافة جيدة من الغاز مثل F-150. لكن لا يهم، تراهن شركة فيات بشكل صحيح، فالمترفون على استعداد لدفع مبلغ إضافي قدره 5000 دولار مقابل الجاذبية.

لغة نمط سهولة الاستخدام

ملخص

كانت اللغات النمطية رائدة من قبل الاختصاصي كريستوفر ألكساندر في السبعينيات. يتم تعريفه على أنه مجموعة من الأنماط المترابطة، كل منها يصف مشكلة التصميم وحلها. على الرغم من أن لغة النمط الأولى للإسكندر كانت تهدف إلى التصميم المعماري، فقد تم استخدامها بنجاح في العديد من المجالات (أبرزها البرمجة) وهي على الأقل مفيدة بنفس القدر في مجال التصميم التوليدي.

في تحويل النص إلى CAD، تتكون لغة النمط من سلسلة من الأنماط؛ على سبيل المثال، نمط واحد للأجزاء المتحركة، ونمط واحد للمفصلات (مجموعة فرعية من الأجزاء المتحركة، وبالتالي مستوى واحد لأسفل التجريد)، ونمط واحد للاحتكاك المفصلات (مستوى آخر من التجريد). تنسيق نمط مفصل الاحتكاك هو كما يلي:

مثل اللغة الطبيعية، تتضمن لغة النمط المفردات (مجموعة من حلول التصميم)، والبناء (موقع الحلول في اللغة)، وبناء الجملة (القواعد التي يمكن للأنماط من خلالها حل المشكلات). لاحظ أن النموذج أعلاه "مفصلة الاحتكاك" هو عقدة في شبكة هرمية ويمكن تصوره بصريًا باستخدام مخطط شبكة موجه.

تجسد هذه الأنماط أساسيات التصميم - أفضل الممارسات في العوامل البشرية، والوظائف، والجماليات، والمزيد. لذلك، سيكون مخرجات هذه الأوضاع أكثر قابلية للاستخدام، وأسهل للفهم (تجنب مشاكل الصندوق الأسود)، وأسهل في الضبط.

خلاصة القول هي أنه ما لم يأخذ برنامج تحويل النص إلى CAD أساسيات التصميم بعين الاعتبار، فإن الناتج سيكون تافهًا. إن عدم القيام بأي شيء أفضل من جهاز كمبيوتر محمول يقوم بإنشاء تحويل النص إلى CAD ولكن الشاشة لا يمكن أن تظل في وضع مستقيم.

ومن بين كل هذه العناصر الأساسية، ربما يكون التصميم الأكثر أهمية والأصعب في الاعتبار هو تصميم العوامل البشرية. إن العوامل البشرية التي يجب مراعاتها لتصميم منتجات مفيدة تكاد لا تنتهي. يجب أن يحدد الذكاء الاصطناعي ويصمم مشكلات مثل نقاط الضغط، وقرص الأصابع، والحواف الحادة في غير مكانها، والنسب المريحة، والمزيد.

يمارس

دعونا نلقي نظرة على مثال عملي. لنفترض أن جين هي مصممة صناعية في ABC Design Studio، والتي تم تكليفها بتصميم كمبيوتر محمول للألعاب في المستقبل. باستخدام التكنولوجيا الحالية، يمكن لجين استخدام برنامج CAD مثل Fusion 360، والانتقال إلى مساحة عمل التصميم التوليدي في Fusion، وقضاء أسبوع (أو شهر) في العمل مع فريقها لتحديد جميع القيود ذات الصلة: الأحمال، والشروط، والأهداف، وخصائص المواد، إلخ.

ولكن بغض النظر عن مدى قوة مساحة عمل التصميم التوليدي في Fusion، فإنه لا يمكنه الالتفاف على حقيقة رئيسية واحدة: يجب أن يتمتع المستخدمون بخبرة كبيرة في المجال، وقدرات التصميم بمساعدة الكمبيوتر (CAD)، والوقت.

تجربة المستخدم الأكثر إمتاعًا هي ببساطة إدخال النص في برنامج CAD حتى يفي مخرجاته بمتطلبات المستخدم. قد يبدو سير العمل المرتكز على تصميم المخطط كما يلي:

تطلب جين برنامج تحويل النص إلى CAD: "اعرض لي بعض الأمثلة على أجهزة الكمبيوتر المحمولة المخصصة للألعاب في المستقبل. مستوحاة من شكل حامل الكمبيوتر المحمول TOMO والملمس السطحي لـ King Cobra."

* تحقيق كامل لتحويل النص إلى CAD، والذي سيحقق الحلقة المغلقة من الصور إلى المنتجات القابلة للتصنيع. *

سيقوم البرنامج بإخراج ستة رسومات مفاهيمية، تحتوي كل منها على أنماط مثل "تخطيط لوحة المفاتيح"، و"الهيكل المفصلي"، و"تخطيط منفذ المنتجات الإلكترونية الاستهلاكية".

يمكن أن تجيب جين: "أعطني بعض الأشكال المختلفة للصورة 2. اجعل الشاشة أكثر تراجعًا ولوحة المفاتيح أكثر زخرفة."

جين: "أنا أحب الثالث، ما هي المعلمات؟"

يسرد النظام 20 معلمة - الطول والعرض وارتفاع الشاشة وكثافة المفاتيح وما إلى ذلك - بناءً على حقل "الحل" للنمط الذي يراه الأكثر صلة.

لاحظت جين أن نوع المفصلة غير محدد وأدخلت "إضافة معلمة نوع المفصلة لقائمة نموذج CAD وتصديره".

فتحت النموذج في Fusion 360 وكان من دواعي سرورها رؤية إضافة مفصلات الاحتكاك المناسبة. إلى جانب معلمة المفصلة، قامت بزيادة معلمة العرض لأنها عرفت أن عملاء Studio ABC يريدون أن تكون الشاشة قادرة على تحمل الاستخدام المكثف.

واصلت جين إجراء التعديلات حتى أصبحت راضية تمامًا عن الشكل والوظيفة. وبهذه الطريقة، يمكنها أن تعطيها لزميلها جو، وهو مهندس ميكانيكي، الذي سيفحصها ويرى الأجزاء المخصصة التي يمكن استبدالها بإصدارات المخزون.

أخيرًا، ستكون إدارة Studio ABC سعيدة لأن عملية تصميم الكمبيوتر المحمول تم اختصارها من متوسط 6 أشهر إلى شهر واحد. ومن دواعي سرورهم أنه بفضل التكنولوجيا البارامترية، يمكن استيعاب أي تعديلات يطلبها العملاء بسرعة دون الحاجة إلى إعادة التصميم.

تصفية شاملة

وكما أشارت عالمة أخلاقيات الذكاء الاصطناعي إيرين سليمان في مقابلة أجريت معها مؤخراً، فإن الذكاء الاصطناعي التوليدي يحتاج بشكل عاجل إلى ضمانات شاملة. حتى مع اتباع نهج لغة النمط، فإن الذكاء الاصطناعي التوليدي وحده لا يمكنه منع المخرجات السيئة. هذا هو المكان الذي تأتي فيه الدرابزين.

نحن بحاجة إلى أن نكون قادرين على اكتشاف ورفض المطالبات المتعلقة بالأسلحة والدماء ومواد الاعتداء الجنسي على الأطفال (CSAM) والمحتويات الأخرى المرفوضة. قد يضيف التقنيون الذين يخشون الدعاوى القضائية منتجات محمية بحقوق الطبع والنشر إلى تلك القائمة. ومع ذلك، إذا تحدثنا من واقع الخبرة، يمكن أن تمثل المطالبات غير المرغوب فيها جزءًا كبيرًا من الاستفسارات.

سيتم استيفاء العديد من هذه المتطلبات بمجرد أن يكون نموذج تحويل النص إلى CAD مفتوح المصدر أو مسربًا. (إذا علمتنا ملحمة Defense Distributed أي شيء، فهو أن الجني لن يعود أبدًا إلى القمقم؛ وبفضل حكم صدر مؤخرًا في تكساس، يستطيع الأمريكيون الآن تنزيل AR-15 بشكل قانوني وطباعته بتقنية ثلاثية الأبعاد و-- إذا شعر بالتهديد - يمكن استخدامه لإطلاق النار على شخص ما).

بالإضافة إلى ذلك، نحن بحاجة إلى معايير أداء مشتركة على نطاق واسع مماثلة لتلك الناشئة حول LLMs. ففي نهاية المطاف، إذا لم تتمكن من قياسه، فلن تتمكن من تحسينه.

____

باختصار، فإن ظهور تقنية تحويل النص إلى التصميم بمساعدة الكمبيوتر المستندة إلى الذكاء الاصطناعي يجلب مخاطر وفرصًا، مع أن النسبة بين الاثنين لا تزال غير مؤكدة. إن انتشار نماذج CAD منخفضة الجودة والمحتوى السام ليس سوى عدد قليل من المشكلات التي تتطلب اهتمامًا فوريًا.

يمكن للفنيين أيضًا إيلاء اهتمام مفيد لبعض المناطق المهملة. يعد تنظيم مجموعة البيانات أمرًا بالغ الأهمية: فنحن بحاجة إلى تتبع نماذج عالية الجودة من مصادر عالية الجودة واستكشاف طرق أخرى، مثل مسح مجموعات التصميم الصناعي. يمكن أن توفر لغة نمط سهولة الاستخدام إطارًا قويًا لدمج أفضل ممارسات التصميم. بالإضافة إلى ذلك، ستوفر لغة النمط إطارًا قويًا لإنشاء معلمات نموذج CAD، والتي يمكن ضبطها بدقة حتى يلبي النموذج متطلبات استخدامه. وأخيرا، لا بد من تطوير تقنيات التصفية الشاملة لمنع توليد المحتوى الخطير.

نأمل أن تساعد الأفكار المقدمة في هذه المقالة التقنيين على تجنب المخاطر التي ابتلي بها الذكاء الاصطناعي التوليدي حتى الآن وتحسين قدرات تحويل النص إلى CAD لتقديم نماذج جيدة من شأنها أن تفيد العديد من الأشخاص الذين سيستخدمونها.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت