سيتم استخدام البيانات البشرية بواسطة OpenAI ، فماذا بعد ذلك؟

2023-07-17 04:53:29

مصدر الصورة: تم إنشاؤه بواسطة Unbounded AI

إعلان "أكبر من أكبر" (أكبر من أكبر) هو إعلان من شركة آبل في ذلك العام ، والذي يستخدم لوصف أهم نموذج للغة كبيرة في مجال الذكاء الاصطناعي ، ويبدو أنه لا حرج في ذلك.

من المليارات إلى عشرات المليارات إلى مئات المليارات ، أصبحت معايير النموذج الكبير جامحة تدريجيًا ، وبالمقابل ، زادت كمية البيانات المستخدمة لتدريب الذكاء الاصطناعي بشكل كبير.

بأخذ GPT الخاص بـ OpenAI كمثال ، من GPT-1 إلى GPT-3 ، نمت مجموعة بيانات التدريب الخاصة بها بشكل كبير من 4.5 جيجابايت إلى 570 جيجابايت.

في مؤتمر Data + AI الذي عقدته Databricks منذ وقت ليس ببعيد ، اعتقد مارك أندريسن ، مؤسس a16z ، أن البيانات الهائلة التي تراكمت بواسطة الإنترنت على مدار العقدين الماضيين هي سبب مهم لظهور هذه الموجة الجديدة من الذكاء الاصطناعي ، لأن السابق يزود الأخير ببيانات تدريب قابلة للاستخدام.

ومع ذلك ، حتى إذا ترك مستخدمو الإنترنت الكثير من البيانات المفيدة أو غير المفيدة على الإنترنت ، بالنسبة لتدريب الذكاء الاصطناعي ، فقد تنتهي هذه البيانات.

** تتنبأ ورقة بحثية نشرتها Epoch ، وهي منظمة لأبحاث الذكاء الاصطناعي والتنبؤ ، بأنه سيتم استنفاد البيانات النصية عالية الجودة بين عامي 2023 و 2027 **.

بينما يعترف فريق البحث بوجود قيود خطيرة في طريقة التحليل وأن عدم دقة النموذج مرتفع ، من الصعب إنكار أن السرعة التي يستهلك بها الذكاء الاصطناعي مجموعات البيانات مرعبة.

استهلاك بيانات التعلم الآلي واتجاهات إنتاج البيانات للنصوص منخفضة الجودة والنصوص والصور عالية الجودة ｜ EpochAI

عندما تنفد البيانات "البشرية" ، سيستخدم تدريب الذكاء الاصطناعي حتماً المحتوى الذي ينتجه الذكاء الاصطناعي نفسه. ومع ذلك ، فإن مثل هذه "الحلقة الداخلية" ستشكل تحديات كبيرة.

منذ وقت ليس ببعيد ، نشر باحثون من جامعة كامبريدج وجامعة أكسفورد وجامعة تورنتو وجامعات أخرى أوراقًا تشير إلى أن استخدام المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي كتدريب للذكاء الاصطناعي سيؤدي إلى انهيار النموذج الجديد. **

إذن ، ما سبب الانهيار الناجم عن "البيانات التي تم إنشاؤها" لتدريب الذكاء الاصطناعي؟ هل يوجد اي مساعدة؟

* 01 * عواقب الذكاء الاصطناعي "زواج الأقارب"

في الورقة التي تحمل عنوان "لعنة التكرار: التدريب باستخدام البيانات المتولدة يجعل النماذج تنسى" ، أشار الباحثون إلى أن "انهيار النموذج" هو عملية منحطة للنماذج على مدى عدة أجيال **.

** البيانات الناتجة عن الجيل السابق من النماذج ستلوث الجيل التالي من النماذج **. بعد عدة أجيال من "وراثة" النماذج ، سوف يرون العالم بشكل خاطئ.

رسم تخطيطي لتكرار النموذج ｜ arxiv

يحدث انهيار النموذج في خطوتين:

في وقت مبكر من انهيار النموذج ، سيبدأ النموذج في فقد معلومات توزيع البيانات الأصلية ، أي "البيانات البشرية النظيفة" ؛
في مرحلة لاحقة ، سيشبك النموذج "التصور الخاطئ" لمعلومات التوزيع الأصلية للأجيال السابقة من النماذج ، مما يؤدي إلى تشويه الواقع.

قام الباحثون أولاً بتدريب النماذج قليلة الطلقات GMM (نموذج خليط غاوسي) و VAE (المشفر التلقائي المتغير) من نقطة الصفر. إذا أخذنا GMM كمثال ، فإن أقصى يسار الشكل أدناه هو التوزيع الطبيعي للبيانات الأصلية.

كما ترى ، يناسب النموذج البيانات جيدًا في البداية. بحلول التكرار الخمسين ، بدأ فهم توزيع البيانات الأساسي بشكل خاطئ. ** عندما يصل التكرار إلى 2000 مرة ، فإن النموذج قد تقارب مع نقطة صغيرة جدًا ، مما يعني أن النموذج يبدأ في إخراج إجابات خاطئة بشكل مطرد **.

أمثلة على بيانات ملائمة GMM عند التكرارات 0 ، 50 ، 100 ، 150 ، 200 ، 350 ، 2000 arxiv

من أجل التحقق من تأثير التدريب المسبق على النتائج التجريبية ، أجرى الباحثون تجارب على 125 مليون متغير LLM (نموذج اللغة الكبيرة) OPT-125m التي طورتها Meta ، وتأتي مجموعة البيانات من wikitext2 من ويكيبيديا.

على عكس النماذج الصغيرة مثل GMM و VAE ، فإن تكلفة تدريب LLM من البداية مرتفعة جدًا ، لذا فهي جميعًا مدربة مسبقًا. النتائج التجريبية كالتالي:

المدخلات: وفقًا لبوينتز رايت ، كان يتم تنفيذ بعض الأنشطة قبل عام 1360 بواسطة أحد عمال البناء البارزين وفريق صغير من البنائين المتجولين ، بالإضافة إلى عمل الرعية المحلية. لكن مؤلفين آخرين نفوا هذا النموذج ، واقترحوا بدلاً من ذلك أن المهندس المعماري الرئيسي صمم برج كنيسة الرعية على الطراز العمودي الإنجليزي. المخرجات: الجيل 0: إحياء المباني مثل كاتدرائية القديس يوحنا في لندن. يعود تاريخ أقدم مبنى إحياء رأسي على قيد الحياة إلى كنيسة Our Lady of Guernsey التي تعود إلى القرن الثامن عشر والقرن التاسع عشر ، والتي تم بناؤها في أواخر القرن التاسع عشر. يوجد نوعان من الكنائس العمودية: تلك الخاصة بالجيل الأول: المباني ، مثل كاتدرائية القديس بطرس في روما أو كاتدرائية القديس بطرس في بوينس آيرس. لا يوجد دليل على أن هذه المباني قد شُيدت في عهد البابا إنوسنت الثالث ، لكن من المحتمل أنها بُنيت في عهد خليفته ، البابا إنوسنت. الجيل السابع: العمارة البريطانية. في مقابلة مع صحيفة نيويورك تايمز ، قال رايت: "لا أعتقد أن هناك أي خطأ في أن أكون قادرًا على فعل ما أريد. إنه فقط لا يعمل بالنسبة لي." وأضاف: "لا أعرف إذا كان بإمكانك أن تدعي أنها ممتعة ، الجيل التاسع: الهندسة المعمارية. إلى جانب كونها أكبر أسود @ - @ tailhare ، white @ - @ tailhare ، blue @ - @ tailhare ، red @ - @ tailhare ، yellow @ - أحد الموائل

يمكن ملاحظة أنه بحلول وقت نموذج الجيل التاسع ، كان محتوى المخرجات غير مفهوم تمامًا.

قال إيليا شومايلوف ، أحد مؤلفي الورقة البحثية ، إنه بمرور الوقت ، تتراكم الأخطاء في ** البيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي ، والنماذج الرئيسية المدربة على هذه البيانات تطور رؤية أكثر تشويهًا للواقع **.

* 02 * لماذا تحطم النموذج؟

السبب الرئيسي لـ "انهيار النموذج" هو أن الذكاء الاصطناعي ليس ذكاءً حقيقيًا ، وخلف قدرته على تقريب "الذكاء" هو في الواقع طريقة إحصائية تعتمد على كمية كبيرة من البيانات.

في الأساس ، تتبع جميع خوارزميات التعلم الآلي غير الخاضعة للإشراف نمطًا بسيطًا: ** بالنظر إلى سلسلة من البيانات ، قم بتدريب نموذج يمكنه وصف قوانين هذه البيانات **.

في هذه العملية ، من المرجح أن يتم تقييم البيانات ذات الاحتمالية الأعلى في مجموعة التدريب من خلال النموذج ، وسيتم تقليل البيانات ذات الاحتمالية الأقل بواسطة النموذج.

على سبيل المثال ، افترض أننا بحاجة إلى تسجيل نتائج 100 رميات نرد لحساب احتمالية كل وجه. من الناحية النظرية ، فإن احتمال ظهور كل وجه هو نفسه. في الحياة الواقعية ، نظرًا لصغر حجم العينة ، قد يكون هناك المزيد من الحالات 3 و 4. ولكن بالنسبة للنموذج ، فإن البيانات التي يتعلمها هي أن احتمالية ظهور 3 و 4 أعلى ، لذلك تميل إلى توليد المزيد من النتائج 3 و 4.

رسم تخطيطي لـ "انهيار النموذج" ｜ arxiv

سبب ثانوي آخر هو خطأ في تقريب الوظيفة. من السهل أيضًا فهمها ، لأن الوظائف الحقيقية غالبًا ما تكون معقدة للغاية.في التطبيقات العملية ، غالبًا ما تُستخدم الوظائف المبسطة لتقريب الوظائف الحقيقية ، مما يؤدي إلى حدوث أخطاء.

* 03 * هل لم يحالفك الحظ حقًا؟

يقلق!

لذا ، مع وجود بيانات بشرية أقل وأقل ، ألا توجد فرصة حقًا للتدريب على الذكاء الاصطناعي؟

لا ، لا تزال هناك طرق لحل مشكلة استنفاد البيانات لتدريب الذكاء الاصطناعي:

** "عزل" البيانات **

مع ازدياد قوة الذكاء الاصطناعي ، بدأ المزيد والمزيد من الأشخاص في استخدام الذكاء الاصطناعي لمساعدة أنفسهم في عملهم ، وانفجرت AIGC على الإنترنت ، وقد يصبح العثور على "مجموعات البيانات البشرية النظيفة" أكثر صعوبة.

قالت Daphne Ippolito ، عالمة الأبحاث في Google Brain ، قسم أبحاث التعلم العميق في Google ، إنه ** في المستقبل ، سيصبح من الصعب بشكل متزايد العثور على بيانات تدريبية عالية الجودة ومضمونة بدون ذكاء اصطناعي **.

هذا يشبه أسلاف الإنسان الذي يعاني من مرض وراثي شديد الخطورة ، لكن لديه قدرة إنجابية قوية للغاية. في فترة وجيزة ، ضاعف نسله في كل ركن من أركان الأرض. ثم في مرحلة ما ، يندلع مرض وراثي وتنقرض البشرية جمعاء.

لمعالجة "انهيار النموذج" ، فإن أحد الأساليب التي اقترحها فريق البحث هو "الميزة الأولى للمحرك" ، أي الاحتفاظ بإمكانية الوصول إلى مصادر البيانات النظيفة التي تم إنشاؤها بشكل مصطنع ، وفصل AIGC عنها.

في الوقت نفسه ، يتطلب هذا من العديد من المجتمعات والشركات توحيد الجهود للحفاظ على البيانات البشرية خالية من تلوث AIGC.

ومع ذلك ، فإن ندرة البيانات البشرية تعني أن هناك فرصًا مربحة للقيام بذلك ، وبعض الشركات تفعل ذلك بالفعل. قال Reddit إنه سيزيد بشكل كبير من تكلفة الوصول إلى API الخاص به. قال المسؤولون التنفيذيون في الشركة إن التغييرات كانت (جزئيًا) ردًا على سرقة شركات الذكاء الاصطناعي لبياناتها. قال مؤسس Reddit والرئيس التنفيذي ستيف هوفمان لصحيفة New York Times: "قاعدة بيانات Reddit قيّمة حقًا. لكننا لسنا بحاجة إلى إعطاء كل هذه القيمة مجانًا لبعض أكبر الشركات في العالم".

** بيانات تركيبية **

في الوقت نفسه ، استنادًا إلى البيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي ، فقد تم بالفعل استخدامها بفعالية في تدريب الذكاء الاصطناعي. في نظر بعض الممارسين ، فإن القلق الآن من أن البيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي سوف تتسبب في انهيار النموذج هو إلى حد ما "حفلة رئيسية".

أخبر Xie Chenguang ، مؤسس Light Wheel Intelligence ، Geek Park أنه كما هو مذكور في الأوراق الأجنبية ، فإن استخدام البيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي لتدريب نماذج الذكاء الاصطناعي يؤدي إلى تعطل ، والأساليب التجريبية متحيزة. حتى البيانات البشرية يمكن تقسيمها إلى غير قابلة للاستخدام وغير قابلة للاستخدام ، والتجارب المذكورة في الورقة تُستخدم مباشرة للتدريب دون تمييز ، بدلاً من استهدافها كبيانات تدريبية بعد فحص الجودة وحكم الفعالية ، ومن الواضح أن هناك إمكانية لتحطم النموذج.

كشف Xie Chen أنه ، في الواقع ، يستخدم GPT-4 الخاص بـ OpenAI كمية كبيرة من البيانات التي ينتجها نموذج الجيل السابق GPT-3.5 للتدريب. أعرب سام التمان أيضًا في مقابلة حديثة أن البيانات التركيبية هي طريقة فعالة لحل النقص في بيانات النماذج الكبيرة. النقطة الأساسية هي أن هناك نظامًا كاملاً للتمييز بين البيانات التي يتم إنشاؤها بواسطة الذكاء الاصطناعي والتي يمكن استخدامها وأيها غير قابلة للاستخدام ، وإعطاء الملاحظات باستمرار وفقًا لتأثير النموذج المدرب - هذه إحدى حيل OpenAI التي تفخر بها AI الساحة ** ، فهذه الشركة ليست مجرد جمع المزيد من الأموال وشراء المزيد من القوة الحاسوبية.

في صناعة الذكاء الاصطناعي ، أصبح استخدام البيانات التركيبية لتدريب النموذج بالفعل إجماعًا لم يعرفه الغرباء بعد.

يعتقد Xie Chen ، الذي اعتاد أن يكون مسؤولاً عن محاكاة القيادة الذاتية في شركات مثل Nvidia و Cruise و Weilai ، أنه بناءً على الكمية الحالية من البيانات لتدريب النماذج المتنوعة واسعة النطاق ، في السنوات 2-3 القادمة ، قد تكون البيانات "مستنفدة" بالفعل. ومع ذلك ، استنادًا إلى الأنظمة والأساليب المتخصصة ، ستصبح البيانات التركيبية الناتجة عن الذكاء الاصطناعي مصدرًا لا ينضب للبيانات الفعالة **. ولا تقتصر سيناريوهات الاستخدام على النصوص والصور ، فكمية البيانات التركيبية التي تتطلبها صناعات مثل القيادة الذاتية والروبوتات ستكون أكبر بكثير من كمية البيانات النصية.

العناصر الثلاثة للذكاء الاصطناعي هي البيانات وقوة الحوسبة والخوارزميات. تمت تسوية مصدر البيانات ، ويتطور النموذج الكبير للخوارزمية باستمرار.ضغط قوة الحوسبة الوحيد المتبقي ، أعتقد أن مؤسس Nvidia Huang Renxun يمكنه حلها بسلاسة.

شاهد النسخة الأصلية

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.