نحن على أعتاب الذكاء الاصطناعي العام. في حين أن ChatGPT قد ألهم الحماس في جميع أنحاء العالم، إلا أنه أشعل أيضًا المنافسة على نماذج الذكاء الاصطناعي الكبيرة. أطلقت Google برنامج Bard لقياس الأداء، وانضمت Amazon أيضًا إلى ساحة المعركة، ولم يكن من المقرر أن يتم التفوق على Meta، التي كانت تراهن بشكل كبير على Metaverse، وأطلقت LLaMa وSAM. على هذا الجانب من المحيط، التقت شركة BAT، التي تُعرف بأنها تمتلك أكبر قدر من الموارد، مرة أخرى على النموذج التوليدي. في ظل اتجاه النماذج الكبيرة، يبدو أن الذكاء المتجسد يحدث تغييرًا كبيرًا.
يبدو أن كل شيء قد عاد إلى ما كان عليه قبل عشر سنوات، مع ظهور طفرة ريادة الأعمال. ** هذه المرة فقط، يتم فتح تفرد الذكاء الاصطناعي العام من خلال النماذج الكبيرة، وتقف البيانات رسميًا في مركز المسرح. **
01. ما هي العناصر الأساسية في تطوير النماذج الكبيرة
القوة الحاسوبية تجعل النماذج الكبيرة لعبة للثروة
النموذج الكبير، بمصطلحات الشخص العادي، هو نموذج يحتوي على عدد كبير من المعلمات. بالمقارنة مع النماذج الصغيرة السابقة التي يمكن تشغيلها على وحدة معالجة رسومات واحدة، لا يمكن إكمالها إلا من خلال الاعتماد على الكمية الهائلة من قوة الحوسبة المكدسة من قبل الشركات الكبيرة. على سبيل المثال، تبلغ تكلفة OpenAI ChatGPT حاليًا ما يصل إلى مليون دولار أمريكي لكل تدريب. إمكانية مشاركة المعامل الصغيرة في موجة الذكاء الاصطناعي انتهت بشكل مباشر بواسطة النماذج الكبيرة، ولا يمكن إكمالها إلا الشركات ذات التراكم القوي.
لذلك، فإن الأبطال الوحيدين الذين ظهروا في موجة ريادة الأعمال العامة ذات النماذج الكبيرة هم أولئك الذين لديهم قصص رائعة في موجة ريادة الأعمال عبر الإنترنت، مثل وانغ هويوين من Meituan، وكاي فو لي من Sinovation Ventures، ووانغ شياو تشوان من Sogou. لقد نشأ قانون مور للنماذج، وجلبت النماذج الأكبر حجما فهما أفضل للعالم وقدرات استدلالية أفضل. وفي ظل هذا الاتجاه، لم يعد هناك وقت للتوقف والتردد.
1. انتهى نموذج التطوير المرتكز على نموذج الخوارزمية
في الوقت الحاضر، لا يزال نموذج التطوير لشركات الذكاء الاصطناعي المشتركة هو نموذج التطوير "التقليدي" الذي يتمحور حول النموذج، أي إصلاح مجموعة البيانات ثم تكرار النموذج. يركز مهندسو الخوارزميات عادةً على العديد من مجموعات البيانات المعيارية ثم يقومون بتصميم نماذج مختلفة لتحسين دقة التنبؤ.
على الرغم من أن النماذج الكبيرة تظهر مثل عيش الغراب بعد هطول المطر، إلا أن الخوارزميات التي تقف وراء معظم النماذج تميل في الواقع إلى أن تكون متسقة، ولم تحدث أي تغييرات رئيسية في النماذج. إن تكديس حجم البيانات يجعل أداء النموذج المدرب أفضل بكثير من النموذج الذي يحتوي على تغييرات صغيرة. على سبيل المثال، قبل بضعة أشهر، نشر رائد الذكاء الاصطناعي Yann LeCun مقالًا ذكر فيه أن ChatGPT ليس جديدًا من الناحية الفنية، لكنه حقق أداءً ممتازًا. قد لا تؤدي التغييرات الدقيقة في الخوارزمية إلى نتائج أفضل من إضافة البيانات وتكرارها. بالمقارنة مع أداء النموذج الذي تم تدريبه على مجموعة بيانات واحدة، فإن أداء النموذج الناتج عن الكم الهائل من البيانات عالية الجودة يمثل ضربة لتقليل الأبعاد. **
1. تصبح البيانات العنصر الأساسي في تطوير النماذج الكبيرة
ينبع نجاح نماذج OpenAI الكبيرة من اعتقاد إيليا بأن التغييرات الكمية في البيانات الضخمة والنماذج الكبيرة ستؤدي إلى تغييرات نوعية. على سبيل المثال، يستخدم ChatGPT ما لا يقل عن 40T من البيانات واسعة النطاق للتدريب، وإذا استمرت كمية البيانات الفعالة في الزيادة، فيمكنه تحقيق أداء أفضل. وفقًا لبحث Google حول القدرات الناشئة لنماذج اللغات الكبيرة، عند نقطة حرجة معينة لمعلمات النموذج، اكتسب النموذج فجأة قدرات غير متوقعة.
ومن أجل ضمان إمكانية تدريب العديد من المعلمات بشكل معقول، أصبحت البيانات عالية الجودة هي المفتاح. لنأخذ تطوير ChatGPT كمثال، استخدم GPT-1 فقط 4629 ميجابايت من البيانات النصية، بينما استخدم GPT-2 40 جيجابايت من النص الذي تم الزحف إليه وتصفيته من Reddit، واستخدم GPT-3 ما لا يقل عن 45 تيرابايت من النص العادي. لم يتم الكشف عن عملية تدريب -4، ولكن نظرًا لأن سرعة الاستدلال لـ GPT-4 أبطأ بكثير من سرعة GPT-3، فيمكن استنتاج أن عدد معلمات النموذج قد زاد أيضًا، وأن التدريب المقابل ومن الواضح أن البيانات تتطلب المزيد. تعد هذه البيانات عالية الجودة سببًا مهمًا لظهور ChatGPT لأول مرة في العالم الإنجليزي، حيث تعد نصوص التدريب باللغة الإنجليزية أكثر توحيدًا وأكثر ثراءً من نصوص التدريب الصينية.
ويعتقد يانغ دونغ، عميد معهد العلوم متعددة التخصصات في جامعة رنمين الصينية، أن السبب الأساسي لنجاح ChatGPT ليس فقط التكنولوجيا نفسها، ولكن أيضًا المشاكل الخطيرة المتمثلة في عدم انفتاح البيانات واحتكار البيانات في الصين. أما بالنسبة لنموذج التجزئة الدلالية الذي تم إصداره مؤخرًا Segment Anything Model by Meta، فإن النموذج الخاضع للإشراف العام ليس له ابتكار واضح، لكن استخدام البيانات الضخمة في مجال التجزئة الدلالية يجعل أداء النموذج مذهلاً. لم يتم رؤية عشرات الملايين من الصور ومليارات أقنعة التجزئة في مجال التجزئة الدلالية للصورة.
** يتغير نموذج تطوير الذكاء الاصطناعي من التركيز على النموذج إلى التركيز على البيانات. **من أين تحصل على البيانات؟هل البيانات الموجودة في العالم كبيرة بما يكفي للنماذج؟
02. سيتم استنفاد البيانات الحقيقية بواسطة النماذج الكبيرة
في هذا العالم، تحدث الأنشطة البشرية طوال الوقت، لذا ألا ينبغي أن تستمر آثار البيانات التي خلفتها وراءنا في النمو؟ لماذا استنفدت؟
البيانات عالية الجودة نادرة
لا يمكن استخدام جميع الآثار الناتجة عن الأنشطة البشرية في التدريب النموذجي. فقط البيانات عالية الجودة التي تدخل التدريب النموذجي هي التي يمكن أن تنتج أفضل النتائج.
في مجال معالجة اللغات الطبيعية، تكون البيانات عالية الجودة عبارة عن كتب وأوراق علمية رقمية بشكل طبيعي. إن وجود علاقة منطقية جيدة يمكن أن يضمن أيضًا الدقة النسبية. البيانات منخفضة الجودة، مثل سجلات الدردشة والمكالمات الهاتفية وما إلى ذلك، لها تأثير محدود نسبيًا على التدريب بسبب ضعف استمرارية البيانات. يُذكر في وثائق تطوير ChatGPT 3 أنه بعد إجراء تصفية البيانات لتصفية الجودة على 45 تيرابايت من النص العادي، تم الحصول على 570 جيجابايت من النص، باستخدام 1.27% فقط من البيانات الفعالة.
في مجال القيادة الذاتية، يتم إنشاء بيانات عالية الجودة من عدد كبير من السيناريوهات المختلفة. على سبيل المثال، قد يظهر طريق ذو انحناء صغير نسبيًا بشكل متكرر جدًا، ولكن في الواقع، كلما زاد عدد مرات ظهوره، قل أهميته. على العكس من ذلك، بالنسبة لبعض السيناريوهات غير التقليدية (أي حالة الزاوية)، تكون جودة البيانات أعلى، ويجب أن يتم تعديل السيناريو بشكل منفصل. ومع ذلك، فإن هذه العينات الصغيرة نسبيًا تكاد تكون بمثابة قطرة في بحر عندما تواجه متطلبات المعلمات للنماذج الكبيرة.
القيود التي يفرضها أمن البيانات والخصوصية
لقد كان تطوير الذكاء الاصطناعي التوليدي مصحوبًا بالجدل حول أمن البيانات. بعد أن أصبحت Stable Diffusion متاحة، تسببت في استياء العديد من الفنانين. وتحت الضغط، أعلنت Stability AI أنها ستسمح للفنانين بحذف أعمالهم بطريقة مستهدفة ومنعهم من دخول مجموعة التدريب.
في بعض الحالات، قد تحتوي البيانات المتاحة للعامة على معلومات حساسة مثل معلومات التعريف الشخصية أو المعلومات المالية أو السجلات الطبية. في العديد من الصناعات والمناطق، يصعب جدًا الحصول على البيانات التي تحتوي على معلومات حساسة، مما يزيد من صعوبة جمع البيانات ويقلل من معدل نمو مجموعات البيانات المقابلة. لقد أصبح هذا عائقًا أمام نماذج الصناعة الكبيرة. على سبيل المثال، في المجال الطبي، نظرًا لخصوصية المجال وخصوصيته، من المستحيل الحصول على كمية البيانات التي يمكن استخدامها للتدريب النموذجي الكبير في ظل حماية صارمة للخصوصية والقيود التنظيمية.
قد لا تكون البيانات الحقيقية عالية الجودة كافية لدعم تدريب النماذج الكبيرة
تستكشف الورقة البحثية "هل ستنفد البيانات؟ تحليل حدود توسيع نطاق مجموعات البيانات في التعلم الآلي" إمكانية نقص البيانات (كمية البيانات ليست كافية لتلبية احتياجات التدريب على النماذج الكبيرة). وفقًا للتقرير الحالي معدل نمو النموذج،* بحلول عام 2026 تقريبًا، لن تكون بيانات البرمجة اللغوية العصبية عالية الجودة كافية لدعم التدريب*. تنمو مخزونات البيانات الخاصة بنماذج اللغة والرؤية بشكل أبطأ بكثير من حجم مجموعات بيانات التدريب، لذلك إذا استمرت الاتجاهات الحالية، فستتوقف مجموعات البيانات في النهاية عن النمو بسبب استنفاد البيانات.
مع تزايد كمية البيانات، فإن معظم البيانات التي يتم جمعها بطرق جمع البيانات التي لا يمكن السيطرة عليها أصبحت بلا معنى. على سبيل المثال، في سيناريوهات القيادة الذاتية، تقوم المركبات باستمرار بجمع بيانات جديدة على الطريق، ولكن لا يمكن استخدام سوى عدد قليل جدًا منها فعليًا. لذلك، في محادثة حديثة بين الرئيس التنفيذي لشركة Nvidia Jensen Huang وIlya Sutskever، ناقشوا أيضًا إمكانية استنفاد البيانات.
03. يمكن للبيانات الاصطناعية أن تلبي متطلبات البيانات الضخمة للنماذج الكبيرة
نموذج التطوير المرتكز على البيانات يجعل البيانات الجزء الأكثر أهمية. تتطلب خوارزميات التدريب بيانات، ولكن من الصعب الحصول على بيانات عالية الجودة. فكيف يمكن تلبية متطلبات البيانات الضخمة للنماذج الكبيرة؟
مثلما توجد لحوم صناعية في الطعام، هل يمكن تصنيع البيانات بشكل مصطنع؟ البيانات الاصطناعية هي البيانات التي تم إنشاؤها في العالم الرقمي. إن إمكانية التحكم في البيانات الاصطناعية أفضل من البيانات الحقيقية، ويمكن أن تعكس خصائص البيانات الحقيقية بالمعنى الرياضي والمادي، ويمكن أن تنتج بيانات بشكل مباشر لضمان توازن البيانات عند تدريب النموذج.
تحتوي البيانات الاصطناعية على دلتا معلومات
تعلم توزيع البيانات في بيانات حقيقية وإنتاج المزيد من البيانات بناءً على هذا التوزيع للتأكد من وجود بيانات كافية لتدريب النماذج الكبيرة في سيناريوهات متنوعة. يؤدي الجمع بين العناصر المختلفة إلى ظهور مشاهد مختلفة، كما تؤدي التغييرات في المشاهد إلى زيادة المعلومات، وبالتالي ضمان فعالية البيانات المركبة.
وفقًا لبحث OpenAI وUC Berkeley في عام 2017، استنادًا إلى المشهد الفعلي، يتم تعميم موضع الكاميرا ولون الكائن وشكله وإضاءةه وما إلى ذلك، ويتم إنشاء كمية كبيرة من البيانات الاصطناعية لتدريب نموذج الكشف عن الكائنات على أساس عدم استخدام بيانات حقيقية على الإطلاق، يتم الاحتفاظ بالخطأ ثلاثي الأبعاد لنموذج الكشف في حدود 1.5 سم، ويتمتع بمتانة جيدة جدًا.
على سبيل المثال، في مجال القيادة الذاتية، يمكن إعادة إنتاج مشهد حقيقي نموذجي للسيارة التي أمامك من خلال الطقس والإضاءة المعممة باستخدام البيانات الاصطناعية. بعد استخدام البيانات الناتجة لتدريب النموذج، سيكون للنموذج أداء أكثر قوة في ظل ظروف الطقس والإضاءة المختلفة. وفقًا لبحث Nvidia لعام 2018، باستخدام البيانات الاصطناعية التي تم إنتاجها باستخدام مواضع وأنسجة عشوائية للمركبة لتدريب النموذج، تم تحسين أداء نموذج الكشف بشكل ملحوظ. ويعزى ذلك إلى التوزيع الأكثر توازنا لمواقع مركبات البيانات الاصطناعية والتوزيع الأوسع للبيانات المنتجة.
إن إمكانية التحكم في البيانات الاصطناعية أفضل من البيانات الحقيقية، ويمكن أن تعكس خصائص البيانات الحقيقية بالمعنى الرياضي والمادي، ويمكن أن تنتج بيانات بشكل مباشر لضمان توازن البيانات عند تدريب النموذج. عند توليد البيانات بطريقة مستهدفة، هناك إمكانية تخصيص خصائص النموذج الكبير، على سبيل المثال، من المؤمل أن يكون النموذج اللغوي الكبير متحيزًا عند الإجابة على أسئلة معينة، وأن يكون له أنماط وعناصر خاصة عند توليد صور معينة . ويمكن تحقيق كل ذلك من خلال البيانات الاصطناعية المخصصة.
مبنية على بيانات حقيقية، ولكنها مختلفة عن البيانات الحقيقية. هذه الخاصية للبيانات الاصطناعية تجعلها تستخدم على نطاق واسع، فهي لا تستخدم للاختبار فحسب، بل يمكن استخدامها أيضًا كبيانات تدريب لجعل النموذج أكثر قوة.
ميزة التكلفة للبيانات الاصطناعية هائلة
تأتي تكلفة البيانات من جمعها ووضع العلامات عليها، وفي كلا الجزأين، تتمتع البيانات الاصطناعية بمزايا كبيرة.
ومقارنة بالتجميع غير الفعال للبيانات الحقيقية، يمكن للبيانات الاصطناعية أن تولد سيناريوهات بطريقة مستهدفة، مما يجعل كل بايت من البيانات ذا قيمة. ليست هناك حاجة لفريق كبير لجمع البيانات، ولا نظام إرجاع بيانات واسع النطاق ونظام تصفية البيانات، فالبيانات الاصطناعية تعتمد على احتياجات التدريب النموذجي من بداية الإنتاج، ويمكن استخدام معظم المخرجات مباشرة، مما يقلل من تكلفة البيانات وتكاليف التجميع.
وفي الوقت نفسه، تتمتع تكلفة وضع العلامات على البيانات الاصطناعية بميزة كبيرة مقارنة بالبيانات الحقيقية. ووفقا لتقديرات منصة خدمة البيانات Diffgram، في وضع العلامات على صور القيادة الذاتية، يبلغ متوسط سعر صندوق وضع العلامات حوالي 0.03 دولار أمريكي. وتبلغ التكلفة الإجمالية لتصنيف الصورة بالكامل حوالي 0.03.5.79 دولارًا أمريكيًا، وبالنسبة للبيانات الاصطناعية، فإن سعر التعليقات التوضيحية يقترب بشكل أساسي من الصفر، وبعضها مجرد تكاليف حساب البيانات، والتي تكلف حوالي 6 سنتات فقط. باختصار، يمكن استخدام البيانات الاصطناعية لتدريب النماذج الكبيرة بطريقة أكثر قابلية للتحكم وأكثر كفاءة ومنخفضة التكلفة.
**إذا كان جمع البيانات الحقيقية لا يزال في عصر زراعة القطع والحرق وتربية الحيوانات، فإن إنتاج البيانات الاصطناعية قد دخل عصر الصناعة الفعالة والآلية، مما يوفر منتجات واسعة النطاق وعالية الجودة بأسعار معقولة. تكلفة منخفضة. **وفقًا لـ "MIT Technology Review"، تم إدراج البيانات الاصطناعية كواحدة من أفضل عشر تقنيات متقدمة في العالم في عام 2022. ويعتقد أن البيانات الاصطناعية يمكن أن تحل التطور البطيء للذكاء الاصطناعي في المجالات التي لا تتوفر فيها موارد بيانات كافية.
04. ما هي الصناعات التي ستحتاج إلى بيانات تركيبية
**في الواقع، تم استخدام البيانات الاصطناعية على نطاق واسع في الخارج، وفي مجال الروبوتات، والقيادة الذاتية، ومعالجة اللغات الطبيعية، والتمويل، والرعاية الطبية، وما إلى ذلك، يمكننا جميعًا رؤية البيانات الاصطناعية. **
في وقت مبكر من عام 2018، استخدمت OpenAI بيئة محاكاة لتدريب وحدات التحكم في الروبوتات، وستقوم عملية التدريب بترتيب الديناميكيات البيئية بشكل عشوائي، ثم تطبيق وحدة التحكم مباشرة على الروبوت المادي، وبهذه الطريقة، يمكن للروبوت التعامل مع المهام البسيطة عند أداء مهام بسيطة. تغييرات غير متوقعة في البيئة الخارجية.
وفقًا لتقرير صادر عن JPMorgan Chase في عام 2019، فقد استخدم البيانات الاصطناعية لتدريب نماذج الكشف عن الاحتيال المالي للتغلب على مشكلة قلة بيانات الاحتيال المالي.
كما أصدرت جامعة ستانفورد مؤخرًا نموذج المحادثة واسع النطاق Alpaca الذي يحتوي على 7 مليار معلمة، والأمر المثير للاهتمام بشكل خاص هو أن مجموعة البيانات المشاركة في البحث تم إنشاؤها بواسطة الفريق باستخدام OpenAI's API. وبعبارة أخرى، تم تجميع مجموعة بيانات التدريب بأكملها تم تصنيعه بالكامل، وتكوين البيانات، والتأثير النهائي مشابه لـ GPT-3.5.
إذا أخذنا القيادة الذاتية كمثال مرة أخرى، باعتبارها تطبيقًا مهمًا للرؤية الحاسوبية، فقد قطعت صناعة القيادة الذاتية شوطًا طويلاً في استخدام البيانات الاصطناعية. من أجل تقليل تكاليف الاختبار وتحسين كفاءة التكرار، تُستخدم محركات المحاكاة على نطاق واسع في الصناعة لاختبار خوارزميات القيادة الذاتية والتحقق منها.
تحتاج وظائف القيادة الذاتية القائمة على الرؤية إلى جمع كميات هائلة من بيانات المشهد الحقيقي لتدريب نماذج التعلم العميق لإكمال إدراك العالم. ومع ذلك، غالبًا ما يكون من الصعب أو من المستحيل جمع البيانات الطويلة المنتجة بكميات كبيرة في العالم الحقيقي. وفي الوقت نفسه، حتى مظهر الجسم نفسه يمكن أن يختلف بشكل كبير في أوقات مختلفة وظروف مناخية مختلفة، مما يجلب تحديات كبيرة للإدراك البصري.
بالمقارنة مع جمع البيانات الحقيقية، يمكن التحكم في تكلفة البيانات الاصطناعية ولا تتطلب شرحًا يدويًا، مما يقلل بشكل كبير من الأخطاء البشرية الناجمة عن عمليات جمع البيانات والتدفق غير المتسقة والمعايير البشرية. لذلك، تعتبر الصناعة البيانات الاصطناعية إحدى الطرق الفعالة لحل مشكلة الذيل الطويل.
ومع ذلك، من أجل تدريب أنظمة القيادة الذاتية بشكل أفضل، فإن جودة معظم بيانات المحاكاة ليست كافية على الإطلاق، فهي لا تستطيع أن تعكس العالم الحقيقي وهي مجرد درجة عالية من التجريد من العالم الحقيقي. ولذلك، استثمرت العديد من الشركات في الصناعة بكثافة في تحسين واقعية البيانات. على سبيل المثال، يستخدم برنامج محاكاة القيادة الذاتية DriveSim من Nvidia تقنية العرض المادي المتقدمة لتحسين واقعية البيانات الاصطناعية.
يستخدم Cruise وWaymo التقنيات المرتبطة بـ NeRF لإنشاء عوالم رقمية مزدوجة ثم إنتاج بيانات تركيبية، كما اقترحت Nvidia أيضًا Instant NGP في عام 2022، مما أدى إلى تحسين كفاءة تدريب NeRF بشكل كبير.
في وقت مبكر من عام 2021 AIDay، قامت Telsa بتدريب نظام الإدراك باستخدام مشاهد لعائلة تركض على الطريق السريع وحشود يصعب تصنيفها، وهو أمر مثير للإعجاب للغاية.
وفي الوقت نفسه، بدأت العديد من شركات البيانات الاصطناعية في الظهور في وادي السيليكون في طليعة الصناعة، مثل المجال الموازي والحدس التطبيقي، الذي يخدم القيادة الذاتية، وDatagen، الذي يخدم صناعة الرؤية الآلية العامة، وGretel AI، التي تخدم صناعة الرؤية الآلية العامة. متجذرة في معالجة اللغات الطبيعية، ووراء هذه الشركات يقف عمالقة الصناعة الرائدون.
وتتوقع جارتنر أنه في عام 2024، سيتم استبدال 60% من بيانات التدريب ببيانات البالغين، وفي عام 2030، ستحل البيانات الاصطناعية محل البيانات الحقيقية تمامًا وتصبح مصدر البيانات الرئيسي لتدريب الذكاء الاصطناعي.
ومع ذلك، في الصين، هناك في الواقع عدد قليل نسبيًا من تطبيقات البيانات الاصطناعية، وفي الوقت الحاضر، لا تزال معظم الشركات تستخدم البيانات الحقيقية لإكمال التدريب النموذجي.
05. حدود البيانات الاصطناعية
ما هي المشاكل التي لا تزال بحاجة إلى حل بالبيانات الاصطناعية قبل أن تتمكن من استبدال البيانات الحقيقية بالكامل؟ نحن هنا نأخذ القيادة الذاتية كمثال لإجراء بعض المناقشة.
الصدق
ومن منظور إدراكي، فإن الأصالة هي بالفعل مؤشر التقييم الأول. قبل أن تدخل هذه الدفعة من البيانات إلى نظام التدريب، هل يمكنها اجتياز الفحص البصري البشري للتأكد من أنها تبدو حقيقية؟
وفيما يتعلق بعيوب الواقعية، فإن الواقع المرئي بالعين المجردة لا يمثل الفعالية الحقيقية للبيانات. وقد لا يكون للسعي الأعمى للواقعية البصرية للصور أهمية عملية قابلة للقياس الكمي. يجب أن يعتمد المعيار الكمي لتقييم صحة البيانات الاصطناعية على تحسين مجموعات البيانات الاصطناعية مقارنة بمجموعات البيانات الحقيقية للخوارزميات المدربة على مجموعات البيانات الاصطناعية. حاليًا، في صناعة القيادة الذاتية، التي لديها أعلى متطلبات صحة البيانات الاصطناعية، هناك بالفعل أمثلة من Cruise وNvidia وWaymo وTesla وما إلى ذلك التي حسنت بشكل فعال وكبير أداء الخوارزميات على الطرق الحقيقية القائمة على البيانات الاصطناعية. وبطبيعة الحال، مع تحسن الخوارزميات، ستزداد أيضًا متطلبات صحة البيانات الاصطناعية. لقد أعطتنا الإنجازات المستمرة الأخيرة في مجال الذكاء الاصطناعي التوليدي اتجاهًا عمليًا جيدًا لتعزيز واقعية البيانات الاصطناعية.
تنوع المشاهد
بناء نماذج عالم البيانات الاصطناعية، مثل بناء سيناريوهات القيادة الذاتية. نحن بحاجة إلى إنشاء عالم افتراضي ومحاكاة عمل العالم الحقيقي، بحيث تتدفق البيانات الاصطناعية مثل مياه الينابيع. تعتمد الطريقة التقليدية على نمذجة الخوارزمية الاصطناعية، على سبيل المثال، تعتمد طريقة البناء التي يتبعها منتجو البيانات الاصطناعية التقليدية بشكل بحت على محركات فيزيائية، والتي تحدد سرعة بناء المشهد، ويحتاج العالم المادي بأكمله إلى البناء يدويًا بواسطة مهندسي الأصول ثلاثية الأبعاد. يجب بناء كل مبنى وعلامة شارع يدويًا، مما يحد من سرعة بناء المشهد ويحد بشكل كبير من تنوع المشاهد. يوفر الذكاء الاصطناعي التوليدي مثل Diffusion Model وNerf إمكانية النمذجة الآلية التي تركز على البيانات لخط إنتاج البيانات الاصطناعية.
إن المشاهد المصطنعة تحد إلى حد كبير من تعميم البيانات الاصطناعية. وفي نهاية المطاف، نأمل أن تكون الخوارزمية المدربة قوية بالقدر الكافي لأداء جيد بالقدر الكافي في العالم الحقيقي.
من الواضح أن البناء الاصطناعي لا يمكنه تغطية كل مشهد في العالم الحقيقي. ومن أجل خلق ما يكفي من البيانات لتغطية العالم الحقيقي كله، نحتاج إلى تعلم التعبير الضمني عن العالم الحقيقي ثم إنتاج مشاهد متنوعة بما فيه الكفاية. ويجب أن يعتمد هذا على الذكاء الاصطناعي التوليدي.
الإنتاجية
ومن أجل توفير دفعات كبيرة من البيانات القابلة للتعميم بشكل سريع، فإن الإنتاج الموازي واسع النطاق في السحابة هو الأولوية الأولى. ويتيح دعم الإنتاج السريع للبيانات بقوة حاسوبية عالية تجميع البيانات بسرعة لا مثيل لها في العالم الحقيقي.
06. يتيح الذكاء الاصطناعي التوليدي للبيانات الاصطناعية أن تحل محل البيانات الحقيقية على نطاق واسع
تعتقد NVidia Huang Renxun أن التأملات والأحلام البشرية هي جزء من البيانات الاصطناعية، وهو ما يعادل بيانات توليد الذكاء الاصطناعي لتدريب الذكاء الاصطناعي. من أجل تلبية متطلبات البيانات الضخمة للنماذج الكبيرة، نحتاج إلى أتمتة رابط إنتاج البيانات الاصطناعية بالكامل لتمكين الذكاء الاصطناعي من تدريب الذكاء الاصطناعي.
بفضل التطور السريع الأخير لـ Diffusion Model و NeRF، لم تعد البيانات الاصطناعية عالية الجودة المعتمدة على الذكاء الاصطناعي مجرد خيال. إن العملية الرياضية المعقدة لنموذج الانتشار المستندة إلى سلاسل ماركوف تجعل من الممكن إنشاء نماذج أكبر وأكثر استقرارًا لتوليد الصور، كما تتغلب أيضًا على مشكلة التدريب الصعب للغاية لشبكات توليد الخصومة. يستخدم نموذج الانتشار المستقر مجموعة ضخمة من الصور للسماح للأشخاص برؤية الإمكانيات اللامحدودة لنموذج الانتشار، كما أن إدخال الشبكات ذات الصلة بـ ControlNet يجعل التكيف في مجالات محددة أكثر ملاءمة.
تعمل تقنية NeRF (حقول الإشعاع العصبي) على تحويل بناء العالم ثلاثي الأبعاد إلى عملية تعلم شبكة عصبية، فهي تجمع بشكل فعال بين المجالات العصبية (المجال العصبي) وعرض الفوكسل لإعادة بناء العالم ثلاثي الأبعاد بشكل واقعي للغاية، وهي واعدة جدًا لاستبدال العملية المرهقة. عملية بناء محرك الفيزياء. قامت Waymo بتطوير BlockNeRF استنادًا إلى هذه التقنية لإعادة بناء مدينة سان فرانسيسكو بكفاءة وإنتاج بيانات تركيبية هناك. لقد دفعت ورقة CVPR Highlight الأخيرة UniSim تطبيق NeRF خطوة كبيرة إلى الأمام.
واستنادا إلى هذه التقنيات، بدأت حيدات AIGC في الظهور. بعد تدريب StabilityAI (Diffsion Model)، وMidjourney (Diffusion Model)، وLumaLab AI (NeRF) على مجموعات كبيرة من البيانات، لم يعد من الممكن التشكيك في صحة الصور، وتسمح لنا التأثيرات الفنية الناتجة وتعبيرات البيانات الجديدة نرى هنا يأتي المستقبل المشرق للتعميم على البيانات الاصطناعية.
07، مكتوب في النهاية
ChatGPT هو مجرد نقطة البداية، والنماذج الكبيرة في مجال اللغة الطبيعية هي مجرد شرارات. على الرغم من أن ChatGPT يتمتع بالفعل بقدرات الذكاء الاصطناعي الأساسية، والتي يتم الحصول عليها من خلال تعلم بيانات اللغة الطبيعية البشرية، إلا أن التفكير المعرفي البشري حول العالم لا يقتصر بالتأكيد على اللغة والنص، بل هو متعدد الوسائط (الصور والنصوص والصوت، الضوء، الكهرباء، الفيلم...). ليس من الصعب استنتاج أن الذكاء الاصطناعي العام الحقيقي يجب أن يكون قادرًا على معالجة جميع المعلومات النموذجية في العالم على الفور وكفاءة ودقة ومنطقية مثل البشر، وإكمال المهام المتعددة الوسائط أو متعددة الوسائط. إن الهوس الأخير بالذكاء المتجسد يتطلع أيضًا إلى ظهور أساليب تفاعلية جديدة متعددة الوسائط.
ويتطلب هذا أيضًا بيانات متعددة الوسائط، مما يزيد من صعوبة الحصول على بيانات حقيقية، كما أن البيانات الحقيقية متعددة الوسائط أكثر ندرة.
على سبيل المثال، بالمقارنة مع البيانات النصية وبيانات الصور التي يمكن العثور عليها في كل مكان، لا يوجد سوى عدد قليل من مجموعات البيانات ثلاثية الأبعاد عالية الجودة. عادةً ما تحتوي مجموعات بيانات صور البحث العلمي شائعة الاستخدام على مئات الملايين أو أكثر من الصور، في حين أن العديد من مجموعات البيانات ثلاثية الأبعاد عالية الجودة التي يمكن استخدامها للبحث العلمي تحتوي فقط على آلاف أو عشرات الآلاف من النماذج ثلاثية الأبعاد. إذا أردنا أن يفهم الذكاء الاصطناعي العالم ثلاثي الأبعاد، فسنحتاج إلى كمية كبيرة من البيانات متعددة الوسائط التي تحتوي على نماذج ثلاثية الأبعاد. قد يتطلب هذا أيضًا بيانات تركيبية لحلها.
إن أتمتة بناء النماذج العالمية، والسماح للذكاء الاصطناعي بتوليد بيانات متعددة الوسائط بشكل يمكن التحكم فيه، وتدريب نماذج كبيرة أكثر ذكاءً، هي الطريق الحقيقي للذكاء الاصطناعي العام.
بعض المراجع:
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
إذا استنفدت النماذج الكبيرة البيانات، فهل سنرى ذكاءً اصطناعيًا عامًا؟
المصدر الأصلي: النصف الثاني من القيادة الذاتية
نحن على أعتاب الذكاء الاصطناعي العام. في حين أن ChatGPT قد ألهم الحماس في جميع أنحاء العالم، إلا أنه أشعل أيضًا المنافسة على نماذج الذكاء الاصطناعي الكبيرة. أطلقت Google برنامج Bard لقياس الأداء، وانضمت Amazon أيضًا إلى ساحة المعركة، ولم يكن من المقرر أن يتم التفوق على Meta، التي كانت تراهن بشكل كبير على Metaverse، وأطلقت LLaMa وSAM. على هذا الجانب من المحيط، التقت شركة BAT، التي تُعرف بأنها تمتلك أكبر قدر من الموارد، مرة أخرى على النموذج التوليدي. في ظل اتجاه النماذج الكبيرة، يبدو أن الذكاء المتجسد يحدث تغييرًا كبيرًا.
يبدو أن كل شيء قد عاد إلى ما كان عليه قبل عشر سنوات، مع ظهور طفرة ريادة الأعمال. ** هذه المرة فقط، يتم فتح تفرد الذكاء الاصطناعي العام من خلال النماذج الكبيرة، وتقف البيانات رسميًا في مركز المسرح. **
01. ما هي العناصر الأساسية في تطوير النماذج الكبيرة
النموذج الكبير، بمصطلحات الشخص العادي، هو نموذج يحتوي على عدد كبير من المعلمات. بالمقارنة مع النماذج الصغيرة السابقة التي يمكن تشغيلها على وحدة معالجة رسومات واحدة، لا يمكن إكمالها إلا من خلال الاعتماد على الكمية الهائلة من قوة الحوسبة المكدسة من قبل الشركات الكبيرة. على سبيل المثال، تبلغ تكلفة OpenAI ChatGPT حاليًا ما يصل إلى مليون دولار أمريكي لكل تدريب. إمكانية مشاركة المعامل الصغيرة في موجة الذكاء الاصطناعي انتهت بشكل مباشر بواسطة النماذج الكبيرة، ولا يمكن إكمالها إلا الشركات ذات التراكم القوي.
لذلك، فإن الأبطال الوحيدين الذين ظهروا في موجة ريادة الأعمال العامة ذات النماذج الكبيرة هم أولئك الذين لديهم قصص رائعة في موجة ريادة الأعمال عبر الإنترنت، مثل وانغ هويوين من Meituan، وكاي فو لي من Sinovation Ventures، ووانغ شياو تشوان من Sogou. لقد نشأ قانون مور للنماذج، وجلبت النماذج الأكبر حجما فهما أفضل للعالم وقدرات استدلالية أفضل. وفي ظل هذا الاتجاه، لم يعد هناك وقت للتوقف والتردد.
في الوقت الحاضر، لا يزال نموذج التطوير لشركات الذكاء الاصطناعي المشتركة هو نموذج التطوير "التقليدي" الذي يتمحور حول النموذج، أي إصلاح مجموعة البيانات ثم تكرار النموذج. يركز مهندسو الخوارزميات عادةً على العديد من مجموعات البيانات المعيارية ثم يقومون بتصميم نماذج مختلفة لتحسين دقة التنبؤ.
على الرغم من أن النماذج الكبيرة تظهر مثل عيش الغراب بعد هطول المطر، إلا أن الخوارزميات التي تقف وراء معظم النماذج تميل في الواقع إلى أن تكون متسقة، ولم تحدث أي تغييرات رئيسية في النماذج. إن تكديس حجم البيانات يجعل أداء النموذج المدرب أفضل بكثير من النموذج الذي يحتوي على تغييرات صغيرة. على سبيل المثال، قبل بضعة أشهر، نشر رائد الذكاء الاصطناعي Yann LeCun مقالًا ذكر فيه أن ChatGPT ليس جديدًا من الناحية الفنية، لكنه حقق أداءً ممتازًا. قد لا تؤدي التغييرات الدقيقة في الخوارزمية إلى نتائج أفضل من إضافة البيانات وتكرارها. بالمقارنة مع أداء النموذج الذي تم تدريبه على مجموعة بيانات واحدة، فإن أداء النموذج الناتج عن الكم الهائل من البيانات عالية الجودة يمثل ضربة لتقليل الأبعاد. **
ينبع نجاح نماذج OpenAI الكبيرة من اعتقاد إيليا بأن التغييرات الكمية في البيانات الضخمة والنماذج الكبيرة ستؤدي إلى تغييرات نوعية. على سبيل المثال، يستخدم ChatGPT ما لا يقل عن 40T من البيانات واسعة النطاق للتدريب، وإذا استمرت كمية البيانات الفعالة في الزيادة، فيمكنه تحقيق أداء أفضل. وفقًا لبحث Google حول القدرات الناشئة لنماذج اللغات الكبيرة، عند نقطة حرجة معينة لمعلمات النموذج، اكتسب النموذج فجأة قدرات غير متوقعة.
ويعتقد يانغ دونغ، عميد معهد العلوم متعددة التخصصات في جامعة رنمين الصينية، أن السبب الأساسي لنجاح ChatGPT ليس فقط التكنولوجيا نفسها، ولكن أيضًا المشاكل الخطيرة المتمثلة في عدم انفتاح البيانات واحتكار البيانات في الصين. أما بالنسبة لنموذج التجزئة الدلالية الذي تم إصداره مؤخرًا Segment Anything Model by Meta، فإن النموذج الخاضع للإشراف العام ليس له ابتكار واضح، لكن استخدام البيانات الضخمة في مجال التجزئة الدلالية يجعل أداء النموذج مذهلاً. لم يتم رؤية عشرات الملايين من الصور ومليارات أقنعة التجزئة في مجال التجزئة الدلالية للصورة.
02. سيتم استنفاد البيانات الحقيقية بواسطة النماذج الكبيرة
في هذا العالم، تحدث الأنشطة البشرية طوال الوقت، لذا ألا ينبغي أن تستمر آثار البيانات التي خلفتها وراءنا في النمو؟ لماذا استنفدت؟
البيانات عالية الجودة نادرة
لا يمكن استخدام جميع الآثار الناتجة عن الأنشطة البشرية في التدريب النموذجي. فقط البيانات عالية الجودة التي تدخل التدريب النموذجي هي التي يمكن أن تنتج أفضل النتائج.
في مجال معالجة اللغات الطبيعية، تكون البيانات عالية الجودة عبارة عن كتب وأوراق علمية رقمية بشكل طبيعي. إن وجود علاقة منطقية جيدة يمكن أن يضمن أيضًا الدقة النسبية. البيانات منخفضة الجودة، مثل سجلات الدردشة والمكالمات الهاتفية وما إلى ذلك، لها تأثير محدود نسبيًا على التدريب بسبب ضعف استمرارية البيانات. يُذكر في وثائق تطوير ChatGPT 3 أنه بعد إجراء تصفية البيانات لتصفية الجودة على 45 تيرابايت من النص العادي، تم الحصول على 570 جيجابايت من النص، باستخدام 1.27% فقط من البيانات الفعالة.
في مجال القيادة الذاتية، يتم إنشاء بيانات عالية الجودة من عدد كبير من السيناريوهات المختلفة. على سبيل المثال، قد يظهر طريق ذو انحناء صغير نسبيًا بشكل متكرر جدًا، ولكن في الواقع، كلما زاد عدد مرات ظهوره، قل أهميته. على العكس من ذلك، بالنسبة لبعض السيناريوهات غير التقليدية (أي حالة الزاوية)، تكون جودة البيانات أعلى، ويجب أن يتم تعديل السيناريو بشكل منفصل. ومع ذلك، فإن هذه العينات الصغيرة نسبيًا تكاد تكون بمثابة قطرة في بحر عندما تواجه متطلبات المعلمات للنماذج الكبيرة.
القيود التي يفرضها أمن البيانات والخصوصية
لقد كان تطوير الذكاء الاصطناعي التوليدي مصحوبًا بالجدل حول أمن البيانات. بعد أن أصبحت Stable Diffusion متاحة، تسببت في استياء العديد من الفنانين. وتحت الضغط، أعلنت Stability AI أنها ستسمح للفنانين بحذف أعمالهم بطريقة مستهدفة ومنعهم من دخول مجموعة التدريب.
في بعض الحالات، قد تحتوي البيانات المتاحة للعامة على معلومات حساسة مثل معلومات التعريف الشخصية أو المعلومات المالية أو السجلات الطبية. في العديد من الصناعات والمناطق، يصعب جدًا الحصول على البيانات التي تحتوي على معلومات حساسة، مما يزيد من صعوبة جمع البيانات ويقلل من معدل نمو مجموعات البيانات المقابلة. لقد أصبح هذا عائقًا أمام نماذج الصناعة الكبيرة. على سبيل المثال، في المجال الطبي، نظرًا لخصوصية المجال وخصوصيته، من المستحيل الحصول على كمية البيانات التي يمكن استخدامها للتدريب النموذجي الكبير في ظل حماية صارمة للخصوصية والقيود التنظيمية.
قد لا تكون البيانات الحقيقية عالية الجودة كافية لدعم تدريب النماذج الكبيرة
تستكشف الورقة البحثية "هل ستنفد البيانات؟ تحليل حدود توسيع نطاق مجموعات البيانات في التعلم الآلي" إمكانية نقص البيانات (كمية البيانات ليست كافية لتلبية احتياجات التدريب على النماذج الكبيرة). وفقًا للتقرير الحالي معدل نمو النموذج،* بحلول عام 2026 تقريبًا، لن تكون بيانات البرمجة اللغوية العصبية عالية الجودة كافية لدعم التدريب*. تنمو مخزونات البيانات الخاصة بنماذج اللغة والرؤية بشكل أبطأ بكثير من حجم مجموعات بيانات التدريب، لذلك إذا استمرت الاتجاهات الحالية، فستتوقف مجموعات البيانات في النهاية عن النمو بسبب استنفاد البيانات.
مع تزايد كمية البيانات، فإن معظم البيانات التي يتم جمعها بطرق جمع البيانات التي لا يمكن السيطرة عليها أصبحت بلا معنى. على سبيل المثال، في سيناريوهات القيادة الذاتية، تقوم المركبات باستمرار بجمع بيانات جديدة على الطريق، ولكن لا يمكن استخدام سوى عدد قليل جدًا منها فعليًا. لذلك، في محادثة حديثة بين الرئيس التنفيذي لشركة Nvidia Jensen Huang وIlya Sutskever، ناقشوا أيضًا إمكانية استنفاد البيانات.
03. يمكن للبيانات الاصطناعية أن تلبي متطلبات البيانات الضخمة للنماذج الكبيرة
نموذج التطوير المرتكز على البيانات يجعل البيانات الجزء الأكثر أهمية. تتطلب خوارزميات التدريب بيانات، ولكن من الصعب الحصول على بيانات عالية الجودة. فكيف يمكن تلبية متطلبات البيانات الضخمة للنماذج الكبيرة؟
مثلما توجد لحوم صناعية في الطعام، هل يمكن تصنيع البيانات بشكل مصطنع؟ البيانات الاصطناعية هي البيانات التي تم إنشاؤها في العالم الرقمي. إن إمكانية التحكم في البيانات الاصطناعية أفضل من البيانات الحقيقية، ويمكن أن تعكس خصائص البيانات الحقيقية بالمعنى الرياضي والمادي، ويمكن أن تنتج بيانات بشكل مباشر لضمان توازن البيانات عند تدريب النموذج.
تحتوي البيانات الاصطناعية على دلتا معلومات
تعلم توزيع البيانات في بيانات حقيقية وإنتاج المزيد من البيانات بناءً على هذا التوزيع للتأكد من وجود بيانات كافية لتدريب النماذج الكبيرة في سيناريوهات متنوعة. يؤدي الجمع بين العناصر المختلفة إلى ظهور مشاهد مختلفة، كما تؤدي التغييرات في المشاهد إلى زيادة المعلومات، وبالتالي ضمان فعالية البيانات المركبة.
وفقًا لبحث OpenAI وUC Berkeley في عام 2017، استنادًا إلى المشهد الفعلي، يتم تعميم موضع الكاميرا ولون الكائن وشكله وإضاءةه وما إلى ذلك، ويتم إنشاء كمية كبيرة من البيانات الاصطناعية لتدريب نموذج الكشف عن الكائنات على أساس عدم استخدام بيانات حقيقية على الإطلاق، يتم الاحتفاظ بالخطأ ثلاثي الأبعاد لنموذج الكشف في حدود 1.5 سم، ويتمتع بمتانة جيدة جدًا.
مبنية على بيانات حقيقية، ولكنها مختلفة عن البيانات الحقيقية. هذه الخاصية للبيانات الاصطناعية تجعلها تستخدم على نطاق واسع، فهي لا تستخدم للاختبار فحسب، بل يمكن استخدامها أيضًا كبيانات تدريب لجعل النموذج أكثر قوة.
ميزة التكلفة للبيانات الاصطناعية هائلة
تأتي تكلفة البيانات من جمعها ووضع العلامات عليها، وفي كلا الجزأين، تتمتع البيانات الاصطناعية بمزايا كبيرة.
ومقارنة بالتجميع غير الفعال للبيانات الحقيقية، يمكن للبيانات الاصطناعية أن تولد سيناريوهات بطريقة مستهدفة، مما يجعل كل بايت من البيانات ذا قيمة. ليست هناك حاجة لفريق كبير لجمع البيانات، ولا نظام إرجاع بيانات واسع النطاق ونظام تصفية البيانات، فالبيانات الاصطناعية تعتمد على احتياجات التدريب النموذجي من بداية الإنتاج، ويمكن استخدام معظم المخرجات مباشرة، مما يقلل من تكلفة البيانات وتكاليف التجميع.
وفي الوقت نفسه، تتمتع تكلفة وضع العلامات على البيانات الاصطناعية بميزة كبيرة مقارنة بالبيانات الحقيقية. ووفقا لتقديرات منصة خدمة البيانات Diffgram، في وضع العلامات على صور القيادة الذاتية، يبلغ متوسط سعر صندوق وضع العلامات حوالي 0.03 دولار أمريكي. وتبلغ التكلفة الإجمالية لتصنيف الصورة بالكامل حوالي 0.03.5.79 دولارًا أمريكيًا، وبالنسبة للبيانات الاصطناعية، فإن سعر التعليقات التوضيحية يقترب بشكل أساسي من الصفر، وبعضها مجرد تكاليف حساب البيانات، والتي تكلف حوالي 6 سنتات فقط. باختصار، يمكن استخدام البيانات الاصطناعية لتدريب النماذج الكبيرة بطريقة أكثر قابلية للتحكم وأكثر كفاءة ومنخفضة التكلفة.
**إذا كان جمع البيانات الحقيقية لا يزال في عصر زراعة القطع والحرق وتربية الحيوانات، فإن إنتاج البيانات الاصطناعية قد دخل عصر الصناعة الفعالة والآلية، مما يوفر منتجات واسعة النطاق وعالية الجودة بأسعار معقولة. تكلفة منخفضة. **وفقًا لـ "MIT Technology Review"، تم إدراج البيانات الاصطناعية كواحدة من أفضل عشر تقنيات متقدمة في العالم في عام 2022. ويعتقد أن البيانات الاصطناعية يمكن أن تحل التطور البطيء للذكاء الاصطناعي في المجالات التي لا تتوفر فيها موارد بيانات كافية.
04. ما هي الصناعات التي ستحتاج إلى بيانات تركيبية
**في الواقع، تم استخدام البيانات الاصطناعية على نطاق واسع في الخارج، وفي مجال الروبوتات، والقيادة الذاتية، ومعالجة اللغات الطبيعية، والتمويل، والرعاية الطبية، وما إلى ذلك، يمكننا جميعًا رؤية البيانات الاصطناعية. **
في وقت مبكر من عام 2018، استخدمت OpenAI بيئة محاكاة لتدريب وحدات التحكم في الروبوتات، وستقوم عملية التدريب بترتيب الديناميكيات البيئية بشكل عشوائي، ثم تطبيق وحدة التحكم مباشرة على الروبوت المادي، وبهذه الطريقة، يمكن للروبوت التعامل مع المهام البسيطة عند أداء مهام بسيطة. تغييرات غير متوقعة في البيئة الخارجية.
كما أصدرت جامعة ستانفورد مؤخرًا نموذج المحادثة واسع النطاق Alpaca الذي يحتوي على 7 مليار معلمة، والأمر المثير للاهتمام بشكل خاص هو أن مجموعة البيانات المشاركة في البحث تم إنشاؤها بواسطة الفريق باستخدام OpenAI's API. وبعبارة أخرى، تم تجميع مجموعة بيانات التدريب بأكملها تم تصنيعه بالكامل، وتكوين البيانات، والتأثير النهائي مشابه لـ GPT-3.5.
إذا أخذنا القيادة الذاتية كمثال مرة أخرى، باعتبارها تطبيقًا مهمًا للرؤية الحاسوبية، فقد قطعت صناعة القيادة الذاتية شوطًا طويلاً في استخدام البيانات الاصطناعية. من أجل تقليل تكاليف الاختبار وتحسين كفاءة التكرار، تُستخدم محركات المحاكاة على نطاق واسع في الصناعة لاختبار خوارزميات القيادة الذاتية والتحقق منها.
تحتاج وظائف القيادة الذاتية القائمة على الرؤية إلى جمع كميات هائلة من بيانات المشهد الحقيقي لتدريب نماذج التعلم العميق لإكمال إدراك العالم. ومع ذلك، غالبًا ما يكون من الصعب أو من المستحيل جمع البيانات الطويلة المنتجة بكميات كبيرة في العالم الحقيقي. وفي الوقت نفسه، حتى مظهر الجسم نفسه يمكن أن يختلف بشكل كبير في أوقات مختلفة وظروف مناخية مختلفة، مما يجلب تحديات كبيرة للإدراك البصري.
بالمقارنة مع جمع البيانات الحقيقية، يمكن التحكم في تكلفة البيانات الاصطناعية ولا تتطلب شرحًا يدويًا، مما يقلل بشكل كبير من الأخطاء البشرية الناجمة عن عمليات جمع البيانات والتدفق غير المتسقة والمعايير البشرية. لذلك، تعتبر الصناعة البيانات الاصطناعية إحدى الطرق الفعالة لحل مشكلة الذيل الطويل.
ومع ذلك، من أجل تدريب أنظمة القيادة الذاتية بشكل أفضل، فإن جودة معظم بيانات المحاكاة ليست كافية على الإطلاق، فهي لا تستطيع أن تعكس العالم الحقيقي وهي مجرد درجة عالية من التجريد من العالم الحقيقي. ولذلك، استثمرت العديد من الشركات في الصناعة بكثافة في تحسين واقعية البيانات. على سبيل المثال، يستخدم برنامج محاكاة القيادة الذاتية DriveSim من Nvidia تقنية العرض المادي المتقدمة لتحسين واقعية البيانات الاصطناعية.
وتتوقع جارتنر أنه في عام 2024، سيتم استبدال 60% من بيانات التدريب ببيانات البالغين، وفي عام 2030، ستحل البيانات الاصطناعية محل البيانات الحقيقية تمامًا وتصبح مصدر البيانات الرئيسي لتدريب الذكاء الاصطناعي.
ومع ذلك، في الصين، هناك في الواقع عدد قليل نسبيًا من تطبيقات البيانات الاصطناعية، وفي الوقت الحاضر، لا تزال معظم الشركات تستخدم البيانات الحقيقية لإكمال التدريب النموذجي.
05. حدود البيانات الاصطناعية
ما هي المشاكل التي لا تزال بحاجة إلى حل بالبيانات الاصطناعية قبل أن تتمكن من استبدال البيانات الحقيقية بالكامل؟ نحن هنا نأخذ القيادة الذاتية كمثال لإجراء بعض المناقشة.
الصدق
ومن منظور إدراكي، فإن الأصالة هي بالفعل مؤشر التقييم الأول. قبل أن تدخل هذه الدفعة من البيانات إلى نظام التدريب، هل يمكنها اجتياز الفحص البصري البشري للتأكد من أنها تبدو حقيقية؟
وفيما يتعلق بعيوب الواقعية، فإن الواقع المرئي بالعين المجردة لا يمثل الفعالية الحقيقية للبيانات. وقد لا يكون للسعي الأعمى للواقعية البصرية للصور أهمية عملية قابلة للقياس الكمي. يجب أن يعتمد المعيار الكمي لتقييم صحة البيانات الاصطناعية على تحسين مجموعات البيانات الاصطناعية مقارنة بمجموعات البيانات الحقيقية للخوارزميات المدربة على مجموعات البيانات الاصطناعية. حاليًا، في صناعة القيادة الذاتية، التي لديها أعلى متطلبات صحة البيانات الاصطناعية، هناك بالفعل أمثلة من Cruise وNvidia وWaymo وTesla وما إلى ذلك التي حسنت بشكل فعال وكبير أداء الخوارزميات على الطرق الحقيقية القائمة على البيانات الاصطناعية. وبطبيعة الحال، مع تحسن الخوارزميات، ستزداد أيضًا متطلبات صحة البيانات الاصطناعية. لقد أعطتنا الإنجازات المستمرة الأخيرة في مجال الذكاء الاصطناعي التوليدي اتجاهًا عمليًا جيدًا لتعزيز واقعية البيانات الاصطناعية.
تنوع المشاهد
بناء نماذج عالم البيانات الاصطناعية، مثل بناء سيناريوهات القيادة الذاتية. نحن بحاجة إلى إنشاء عالم افتراضي ومحاكاة عمل العالم الحقيقي، بحيث تتدفق البيانات الاصطناعية مثل مياه الينابيع. تعتمد الطريقة التقليدية على نمذجة الخوارزمية الاصطناعية، على سبيل المثال، تعتمد طريقة البناء التي يتبعها منتجو البيانات الاصطناعية التقليدية بشكل بحت على محركات فيزيائية، والتي تحدد سرعة بناء المشهد، ويحتاج العالم المادي بأكمله إلى البناء يدويًا بواسطة مهندسي الأصول ثلاثية الأبعاد. يجب بناء كل مبنى وعلامة شارع يدويًا، مما يحد من سرعة بناء المشهد ويحد بشكل كبير من تنوع المشاهد. يوفر الذكاء الاصطناعي التوليدي مثل Diffusion Model وNerf إمكانية النمذجة الآلية التي تركز على البيانات لخط إنتاج البيانات الاصطناعية.
إن المشاهد المصطنعة تحد إلى حد كبير من تعميم البيانات الاصطناعية. وفي نهاية المطاف، نأمل أن تكون الخوارزمية المدربة قوية بالقدر الكافي لأداء جيد بالقدر الكافي في العالم الحقيقي.
من الواضح أن البناء الاصطناعي لا يمكنه تغطية كل مشهد في العالم الحقيقي. ومن أجل خلق ما يكفي من البيانات لتغطية العالم الحقيقي كله، نحتاج إلى تعلم التعبير الضمني عن العالم الحقيقي ثم إنتاج مشاهد متنوعة بما فيه الكفاية. ويجب أن يعتمد هذا على الذكاء الاصطناعي التوليدي.
الإنتاجية
ومن أجل توفير دفعات كبيرة من البيانات القابلة للتعميم بشكل سريع، فإن الإنتاج الموازي واسع النطاق في السحابة هو الأولوية الأولى. ويتيح دعم الإنتاج السريع للبيانات بقوة حاسوبية عالية تجميع البيانات بسرعة لا مثيل لها في العالم الحقيقي.
06. يتيح الذكاء الاصطناعي التوليدي للبيانات الاصطناعية أن تحل محل البيانات الحقيقية على نطاق واسع
تعتقد NVidia Huang Renxun أن التأملات والأحلام البشرية هي جزء من البيانات الاصطناعية، وهو ما يعادل بيانات توليد الذكاء الاصطناعي لتدريب الذكاء الاصطناعي. من أجل تلبية متطلبات البيانات الضخمة للنماذج الكبيرة، نحتاج إلى أتمتة رابط إنتاج البيانات الاصطناعية بالكامل لتمكين الذكاء الاصطناعي من تدريب الذكاء الاصطناعي.
بفضل التطور السريع الأخير لـ Diffusion Model و NeRF، لم تعد البيانات الاصطناعية عالية الجودة المعتمدة على الذكاء الاصطناعي مجرد خيال. إن العملية الرياضية المعقدة لنموذج الانتشار المستندة إلى سلاسل ماركوف تجعل من الممكن إنشاء نماذج أكبر وأكثر استقرارًا لتوليد الصور، كما تتغلب أيضًا على مشكلة التدريب الصعب للغاية لشبكات توليد الخصومة. يستخدم نموذج الانتشار المستقر مجموعة ضخمة من الصور للسماح للأشخاص برؤية الإمكانيات اللامحدودة لنموذج الانتشار، كما أن إدخال الشبكات ذات الصلة بـ ControlNet يجعل التكيف في مجالات محددة أكثر ملاءمة.
واستنادا إلى هذه التقنيات، بدأت حيدات AIGC في الظهور. بعد تدريب StabilityAI (Diffsion Model)، وMidjourney (Diffusion Model)، وLumaLab AI (NeRF) على مجموعات كبيرة من البيانات، لم يعد من الممكن التشكيك في صحة الصور، وتسمح لنا التأثيرات الفنية الناتجة وتعبيرات البيانات الجديدة نرى هنا يأتي المستقبل المشرق للتعميم على البيانات الاصطناعية.
07، مكتوب في النهاية
ChatGPT هو مجرد نقطة البداية، والنماذج الكبيرة في مجال اللغة الطبيعية هي مجرد شرارات. على الرغم من أن ChatGPT يتمتع بالفعل بقدرات الذكاء الاصطناعي الأساسية، والتي يتم الحصول عليها من خلال تعلم بيانات اللغة الطبيعية البشرية، إلا أن التفكير المعرفي البشري حول العالم لا يقتصر بالتأكيد على اللغة والنص، بل هو متعدد الوسائط (الصور والنصوص والصوت، الضوء، الكهرباء، الفيلم...). ليس من الصعب استنتاج أن الذكاء الاصطناعي العام الحقيقي يجب أن يكون قادرًا على معالجة جميع المعلومات النموذجية في العالم على الفور وكفاءة ودقة ومنطقية مثل البشر، وإكمال المهام المتعددة الوسائط أو متعددة الوسائط. إن الهوس الأخير بالذكاء المتجسد يتطلع أيضًا إلى ظهور أساليب تفاعلية جديدة متعددة الوسائط.
ويتطلب هذا أيضًا بيانات متعددة الوسائط، مما يزيد من صعوبة الحصول على بيانات حقيقية، كما أن البيانات الحقيقية متعددة الوسائط أكثر ندرة.
على سبيل المثال، بالمقارنة مع البيانات النصية وبيانات الصور التي يمكن العثور عليها في كل مكان، لا يوجد سوى عدد قليل من مجموعات البيانات ثلاثية الأبعاد عالية الجودة. عادةً ما تحتوي مجموعات بيانات صور البحث العلمي شائعة الاستخدام على مئات الملايين أو أكثر من الصور، في حين أن العديد من مجموعات البيانات ثلاثية الأبعاد عالية الجودة التي يمكن استخدامها للبحث العلمي تحتوي فقط على آلاف أو عشرات الآلاف من النماذج ثلاثية الأبعاد. إذا أردنا أن يفهم الذكاء الاصطناعي العالم ثلاثي الأبعاد، فسنحتاج إلى كمية كبيرة من البيانات متعددة الوسائط التي تحتوي على نماذج ثلاثية الأبعاد. قد يتطلب هذا أيضًا بيانات تركيبية لحلها.
إن أتمتة بناء النماذج العالمية، والسماح للذكاء الاصطناعي بتوليد بيانات متعددة الوسائط بشكل يمكن التحكم فيه، وتدريب نماذج كبيرة أكثر ذكاءً، هي الطريق الحقيقي للذكاء الاصطناعي العام.
بعض المراجع: