الملاحظة ｜ موجة النماذج الكبيرة على وشك أن تستنفد عالم النصوص بأكمله ، من أين تأتي البيانات عالية الجودة؟

2023-07-17 02:29:18

المصدر: الورقة

المؤلف: شاو ون

يحذر الخبراء من أن الروبوتات التي تعمل بالذكاء الاصطناعي مثل ChatGPT قد "تنفد النصوص في الكون" قريبًا. في نفس الوقت ، استخدام البيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي "لإرجاع" الذكاء الاصطناعي أو التسبب في انهيار النموذج. قد تصبح البيانات عالية الجودة المستخدمة في تدريب النموذج المستقبلي أكثر تكلفة ، وستصبح الشبكة مجزأة ومغلقة.

"عندما يتعمق تطوير النماذج واسعة النطاق ، مثل نماذج الصناعة واسعة النطاق ، فإن البيانات المطلوبة ليست مجانية وبيانات مفتوحة على الإنترنت. لتدريب نموذج بدقة عالية ، فإن المطلوب هو خبرة صناعية أو حتى تجارية الأسرار. المعرفة. لكي يساهم الجميع في مثل هذه المجموعة ، يجب أن تكون هناك آلية لتوزيع الحقوق والمصالح ".

مصدر الصورة: تم إنشاؤه بواسطة Unbounded AI

باعتبارها واحدة من "ثلاثية" البنية التحتية للذكاء الاصطناعي ، كانت أهمية البيانات دائمًا بديهية. مع دخول الازدهار في نماذج اللغات الكبيرة فترة الذروة ، تولي الصناعة اهتمامًا أكبر بالبيانات أكثر من أي وقت مضى.

في أوائل يوليو ، حذر ستيوارت راسل ، أستاذ علوم الكمبيوتر بجامعة كاليفورنيا ، بيركلي ومؤلف كتاب "الذكاء الاصطناعي - نهج حديث" ، من أن الروبوتات التي تعمل بالذكاء الاصطناعي مثل ChatGPT قد تنفد قريبًا من النص في الكون . "" ، وأسلوب تدريب الروبوتات من خلال جمع كميات كبيرة من النصوص "بدأ يواجه صعوبات." تقدر شركة الأبحاث Epoch أن مجموعات بيانات التعلم الآلي يمكن أن تستنفد جميع "بيانات اللغة عالية الجودة" بحلول عام 2026.

"ستكون جودة البيانات وحجم البيانات عاملاً أساسيًا لظهور قدرات نموذجية واسعة النطاق في المرحلة التالية." شارك وو تشاو ، مدير لجنة الخبراء في CITIC Think Tank ومدير معهد أبحاث الأوراق المالية في الصين للأوراق المالية ، خطاب في المؤتمر العالمي للذكاء الاصطناعي لعام 2023 (WAIC) تشير التقديرات إلى أن "20٪ من جودة النموذج في المستقبل سيتم تحديدها بواسطة الخوارزمية ، وسيتم تحديد 80٪ من خلال جودة البيانات. التالي ، مرتفع - ستكون بيانات الجودة هي المفتاح لتحسين أداء النموذج ".

ومع ذلك ، من أين تأتي البيانات عالية الجودة؟ في الوقت الحالي ، لا تزال صناعة البيانات تواجه العديد من المشكلات الملحة ، مثل ما هو معيار جودة البيانات ، وكيفية تعزيز مشاركة البيانات وتداولها ، وكيفية تصميم نظام التسعير وإيرادات التوزيع.

بيانات عالية الجودة عاجلة

قال وي تشيلين ، نائب المدير العام لشركة Shanghai Data Exchange ، في مقابلة مع The Paper (بما في ذلك الوسائط) في 8 يوليو أنه في "الترويكا" للبيانات ، وقوة الحوسبة ، والخوارزميات ، تكون البيانات هي الجوهر ، والأطول ، و العناصر الأساسية.

يتمتع نموذج اللغة واسع النطاق (LLM) بأداء مذهل اليوم ، ويتم تلخيص الآلية الكامنة وراءه على أنها "الظهور الذكي". وبعبارة بسيطة ، يمكن الآن تعلم مهارات الذكاء الاصطناعي التي لم يتم تدريسها من قبل. ويعد العدد الكبير من مجموعات البيانات أساسًا مهمًا "لظهور الذكاء".

نموذج اللغة الكبير عبارة عن شبكة عصبية عميقة بها مليارات إلى تريليونات من المعلمات ، وهي "مُدربة مسبقًا" على مجموعة ضخمة من اللغات الطبيعية من عدة تيرابايت (تيرابايت ، 1 تيرابايت = 1024 ميجابايت) ، بما في ذلك البيانات المنظمة والكتب عبر الإنترنت والمحتويات الأخرى. صرح شان هايجون ، نائب رئيس معهد الصين للأبحاث جينكسين للإلكترونيات ، لـ Peng Mei Technology خلال مؤتمر الذكاء الاصطناعي العالمي لعام 2023 أن النماذج الكبيرة هي في الأساس نماذج جيل احتمالي ، وتكمن أبرز نقاطها الأساسية في القدرة على فهم (التعلم الفوري للسياق) والاستدلال ( سلسلة التفكير) ولها قيم (التعلم المعزز للتغذية الراجعة البشرية). كان أكبر تقدم في ChatGPT عندما ظهر GPT-3 ، مع حوالي 175 مليار معلمة وحجم بيانات 45 تيرابايت.

عرض شامل لجميع مجموعات البيانات من GPT-1 إلى نماذج اللغة المنسقة من Gopher من 2018 إلى أوائل 2022. الحجم غير الموزون بالجيجابايت. الائتمان: آلان د.طومسون

"تعمل OpenAI دائمًا من أجل البحث عن المزيد من البيانات عالية الجودة والتحليل العميق للبيانات الموجودة ، وذلك لجعل قدراتها أكثر قوة." أخبرت The Paper ، "الحصول على بيانات واسعة النطاق وعالية الجودة ومتنوعة ، والتحليل المتعمق لهذه البيانات قد يكون أحد الأفكار المهمة لتعزيز تطوير النماذج الكبيرة."

ومع ذلك ، هناك نقص في البيانات عالية الجودة.

قدرت دراسة أجرتها Epoch ، وهي مجموعة من باحثي الذكاء الاصطناعي في نوفمبر الماضي ، أن مجموعات بيانات التعلم الآلي يمكن أن تستنفد جميع "بيانات اللغة عالية الجودة" بحلول عام 2026. وعندما نُشرت الدراسة ، لم يكن الازدهار العالمي في النماذج الكبيرة قد حدث حتى. وفقًا للدراسة ، جاءت البيانات اللغوية في مجموعات "عالية الجودة" من "الكتب والمقالات الإخبارية والأوراق العلمية وويكيبيديا ومحتوى الويب المفلتر".

في الوقت نفسه ، أصبحت ممارسات جمع البيانات لمنظمات تطوير الذكاء الاصطناعي التوليدية مثل OpenAI لتدريب نماذج اللغات الكبيرة أكثر إثارة للجدل. في نهاية شهر يونيو ، تعرضت شركة OpenAI لدعوى جماعية ، بتهمة سرقة "كمية كبيرة من البيانات الشخصية" لتدريب ChatGPT. عبرت وسائل التواصل الاجتماعي ، بما في ذلك Reddit و Twitter ، عن استيائها من الاستخدام العشوائي للبيانات على منصاتها ، وفي 1 يوليو ، فرض ماسك حداً مؤقتاً لعدد التغريدات المقروءة لهذا السبب.

في مقابلة مع وسائل الإعلام التكنولوجية والمالية Insider في 12 يوليو ، قال راسل إن العديد من التقارير ، على الرغم من عدم تأكيدها ، توضح أن شركة OpenAI اشترت مجموعات بيانات نصية من مصادر خاصة. في حين أن هناك تفسيرات مختلفة محتملة لعملية الشراء هذه ، "الاستنتاج الطبيعي هو أنه لا توجد بيانات عامة كافية عالية الجودة".

اقترح بعض الخبراء أنه ربما ستظهر حلول جديدة قبل استنفاد البيانات. على سبيل المثال ، يمكن للنموذج الكبير أن يولد باستمرار بيانات جديدة من تلقاء نفسه ، ثم يخضع لبعض ترشيح الجودة ، والتي بدورها يمكن استخدامها لتدريب النموذج ، وهذا ما يسمى التعلم الذاتي أو "التغذية الراجعة". ومع ذلك ، وفقًا لورقة بحثية نُشرت على منصة arXiv لما قبل الطباعة من قبل باحثين من جامعة أكسفورد وجامعة كامبريدج وإمبريال كوليدج لندن في مايو من هذا العام ، فإن التدريب على الذكاء الاصطناعي باستخدام البيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي سيؤدي إلى عيوب لا رجعة فيها في نموذج الذكاء الاصطناعي. انها نموذج طي. هذا يعني أن البيانات عالية الجودة المستخدمة في تدريب النموذج في المستقبل ستصبح أكثر تكلفة ، وستصبح الشبكة مجزأة ومغلقة ، وسيبذل منشئو المحتوى قصارى جهدهم لمنع الزحف إلى محتواهم مجانًا.

ليس من الصعب أن نرى أن الحصول على بيانات عالية الجودة سيصبح أكثر صعوبة. "تأتي معظم بياناتنا الآن من الإنترنت. من أين ستأتي البيانات في النصف الثاني من العام؟ أعتقد أن هذا مهم للغاية. في النهاية ، سيشارك الجميع البيانات الخاصة ، أو لديك بيانات لا أملكها" لقد تحدث العالم الشاب في مختبر شنغهاي للذكاء الاصطناعي ، المسؤول عن OpenDataLab He Conghui عن ذلك في المؤتمر العالمي للذكاء الاصطناعي لعام 2023.

أخبر Wu Chao أيضًا The Paper أن أي شخص لديه بيانات عالية الجودة بعد ذلك ، أو يمكنه إنشاء دفق مستمر من البيانات عالية الجودة ، سيصبح المفتاح لتحسين الأداء.

مشاكل "تتمحور حول البيانات"

يعتقد هي Conghui أن نموذج تطوير النموذج بأكمله سيتغير تدريجياً من "المتمحور حول النموذج" إلى "المتمحور حول البيانات". ولكن هناك مشكلة تتعلق بمركزية البيانات - الافتقار إلى المعايير ، وغالبًا ما يتم ذكر أهمية جودة البيانات ، ولكن في الواقع يصعب على أي شخص حاليًا أن يقول بوضوح ما هي جودة البيانات الجيدة وما هو المعيار.

في عملية الممارسة ، واجه He Conghui أيضًا مثل هذه المشكلة ، "تتمثل ممارستنا في هذه العملية في تقسيم البيانات ، وجعلها أكثر وأكثر تفصيلاً. مع كل حقل تقسيم فرعي وموضوع تقسيم فرعي ، يكون معيار جودة البيانات تدريجيًا يصبح أصغر وأصغر. لقد تم اقتراحه. وفي الوقت نفسه ، لا يكفي النظر إلى البيانات وحدها ، ولكن أيضًا النظر إلى ما وراء البيانات. سنجمع بين البيانات وتحسين أداء النموذج للهدف المقابل لـ البيانات ، وصياغة مجموعة من آليات تكرار جودة البيانات معًا. "

في العام الماضي ، أطلق مختبر شنغهاي للذكاء الاصطناعي حيث يعمل He Conghui منصة البيانات المفتوحة OpenDataLab للذكاء الاصطناعي ، مما يوفر أكثر من 5500 مجموعة بيانات عالية الجودة ، "ولكن هذا فقط على مستوى مجموعات البيانات العامة. نأمل أن تكون البيانات سيتم إنشاء التبادل قبل يومين. ويمكن لتحالف بيانات المجموعة واسع النطاق أن يزود المؤسسات البحثية والشركات بأساليب أفضل لتداول البيانات ".

في 6 يوليو ، في المؤتمر العالمي للذكاء الاصطناعي لعام 2023 ، مختبر شنغهاي للذكاء الاصطناعي ، معهد الصين للمعلومات العلمية والتكنولوجية ، مجموعة شنغهاي للبيانات ، جمعية شنغهاي للأعمال الرقمية ، المركز الوطني للأرصاد الجوية ، راديو وتلفزيون الصين المركزي ، مجموعة شنغهاي لصناعة الصحافة. أعلن تحالف البيانات النموذجية التي تم إطلاقها بالاشتراك مع وحدات أخرى عن التأسيس الرسمي.

في 7 يوليو ، أطلق الموقع الرسمي لبورصة شنغهاي للبيانات المدونة رسميًا ، وتم إدراج ما يقرب من 30 منتجًا من منتجات بيانات المجموعة ، بما في ذلك النصوص والصوت والصورة وغيرها من الوسائط المتعددة ، والتي تغطي مجالات التمويل والنقل والطب.

لكن بناء مثل هذا الهيكل ليس مسألة طبيعية. قال تانغ كيفنغ ، المدير العام لتبادل البيانات في شنغهاي ، في المؤتمر العالمي للذكاء الاصطناعي لعام 2023 ، "هل يمكن أن تكون هناك مجموعة عالية الجودة مطلوبة من قبل الشركات الكبيرة؟ هل سيكون الجمهور المستهدف على استعداد لفتح البيانات؟" درجة الانفتاح وجودة البيانات بطريقتين.

شارك Wei Zhilin أن توفير البيانات يواجه الآن العديد من التحديات ، حيث لا ترغب الشركات المصنعة الرائدة في فتح البيانات. وفي الوقت نفسه ، يشعر الجميع بالقلق أيضًا بشأن آلية الأمان في عملية مشاركة البيانات. هناك مسألة مهمة أخرى وهي أنه لا تزال هناك شكوك حول آلية توزيع الإيرادات للتداول المفتوح للبيانات.

على وجه التحديد ، تحتاج مشاركة البيانات إلى حل ثلاث مشاكل. أوضح Lin Le ، المؤسس والرئيس التنفيذي لشركة Shanghai Lingshu Technology Co. ، Ltd. لشركة Pengpai Technology أنه ، أولاً ، من السهل تزوير البيانات ، ومن الضروري التأكد من أن البيانات موثوقة وذات مصداقية. والثاني هو سهولة نسخ البيانات ، مما يعني أن علاقة الملكية غير واضحة ، وأن blockchain مطلوب للتأكيد والاستخدام المصرح به. ثالثًا ، أنه من السهل تسريب الخصوصية.يمكن دمج Blockchain مع تقنية حوسبة الخصوصية لجعل البيانات متاحة وغير مرئية.

كيفية حل توزيع الدخل

أشار Tang Qifeng إلى أنه بالنسبة للموردين الذين يتمتعون بجودة بيانات عالية ولكن انفتاح منخفض ، يمكن حل مشكلة الثقة المتعلقة بتداول بيانات المجموعة بشكل فعال من خلال سلسلة معاملات البيانات. "تكمن إحدى المحاور في مسألة حقوق الملكية وتوزيع الفوائد بعد المشاركة في النموذج واسع النطاق ".

يقوم Lin Changle ، نائب الرئيس التنفيذي لمعهد أبحاث تكنولوجيا المعلومات الأساسية متعدد التخصصات بجامعة Tsinghua ، بتصميم نظام نظري حول كيفية بيانات الأسعار وتوزيع الفوائد.

"إلى حد ما ، يمكن استخدام الكثير من المعرفة البشرية مثل ChatGPT مجانًا في غضون بضعة أشهر. ونرى أن النموذج الكبير يمكنه تعلم بعض مقالات الكتاب ، أو كتابة نفس نمط المقالات ، أو إنشاء لوحات فان جوخ ، ولكن لا يلزم أن يكون هذا الدفع ، فلم يستفد منه موضوعات مصادر البيانات هذه. "قال لين تشانجل في المؤتمر العالمي للذكاء الاصطناعي لعام 2023 ، لذلك قد تكون هناك وجهة نظر أكثر جذرية: حقوق الملكية الفكرية في عصر لا توجد نماذج كبيرة ، أو يقال إن حماية الملكية الفكرية التقليدية غير موجودة.

ومع ذلك ، يعتقد Lin Changle أنه بعد عصر النماذج واسعة النطاق ، ستتطور حماية حقوق الملكية الفكرية لتأكيد حقوق البيانات والتسعير والمعاملات. "عندما يتعمق تطوير النماذج واسعة النطاق ، مثل نماذج الصناعة واسعة النطاق ، فإن البيانات المطلوبة ليست مجانية وبيانات مفتوحة على الإنترنت. لتدريب النماذج بدقة عالية للغاية ، فإن المطلوب هو خبرة صناعية أو حتى تجارية الأسرار. المعرفة. لكي يساهم الجميع في مثل هذه المجموعة ، يجب أن تكون هناك آلية لتوزيع الحقوق والمصالح ".

إن "خريطة أصول البيانات" التي يعمل عليها Lin Changle الآن هي استخدام الرياضيات لإثبات مجموعة من آليات توزيع الدخل لتوزيع حقوق البيانات بشكل عادل.

** كيفية حل مشكلة تداول البيانات **

ليو كوان ، نائب كبير المهندسين في معهد CCID للأبحاث التابع لوزارة الصناعة وتكنولوجيا المعلومات وأكاديمي أجنبي من الأكاديمية الروسية للعلوم الطبيعية ، ورد ذكره في WAIC "تكامل الأرقام والواقع ، الذكاء يقود المستقبل" الصناعية Blockchain البيئية المنتدى الذي ظهر مؤخرًا نسخة بكين من "عشرون مقالًا من البيانات" في الصناعة.استجابة كبيرة جدًا ، فهي تحل المشكلة الأساسية في عملية تداول البيانات. من الواضح أن مسألة من يمتلك البيانات الحكومية قد تم توضيحها - فالبيانات العامة ملك للحكومة. ماذا عن بيانات الشركة والبيانات الشخصية؟ "يمكن أن يُعهد إلى مركز تبادل البيانات المحلي في بكين بإجراء العمليات الموكلة".

في 5 يوليو ، أصدرت لجنة بلدية بكين للحزب الشيوعي الصيني والحكومة الشعبية لبلدية بكين إشعارًا حول "آراء تنفيذية حول تحسين أداء دور عناصر البيانات وزيادة تسريع تنمية الاقتصاد الرقمي". تنقسم "آراء التنفيذ" إلى تسعة أجزاء. وهي تبني نظام بيانات أساسيًا من جوانب حقوق ملكية البيانات ، ومعاملات التداول ، وتوزيع الدخل ، وإدارة الأمن. وتقترح ما مجموعه 23 متطلبًا محددًا ، والتي تسمى إصدار بكين من "عشرون مقالة بيانات" في الصناعة.

"من وجهة نظر محلية ، وفقًا للإحصاءات ، يتركز 80٪ من موارد البيانات في المؤسسات العامة والحكومية. نريد حل مشكلة توفير البيانات ، إلى حد كبير ، نأمل أن تستند إلى 20 مادة من البيانات ( "اللجنة المركزية للحزب الشيوعي الصيني ومجلس الدولة بشأن بناء آراء نظام أساسي للبيانات حول تحسين أداء دور عناصر البيانات") يمكن أن تشكل المشاركة المفتوحة للبيانات العامة مجموعة من الآليات والنماذج القابلة للتكرار لتعزيز البيانات التي تم تشكيلها في المرافق العامة ثم خدمة الجمهور ".

قال وي تشيلين إنه وفقًا للإحصاءات الحالية ، يحتل مخزون موارد البيانات في الصين ككل المرتبة الثانية في العالم ، لكن هذه البيانات مبعثرة في أماكن مختلفة. وفقًا لـ Zhan Yubao ، نائب مدير معهد الصين للأبحاث الرقمية التابع لمركز معلومات الدولة ، في المؤتمر العالمي للذكاء الاصطناعي لعام 2023 في 7 يوليو ، يشتمل نظام تداول البيانات الوطني الحالي في الصين على: هناك تبادلان للبيانات ، أحدهما تبادل بيانات شنغهاي واحد. هي بورصة بيانات Shenzhen ؛ يوجد 17 مركزًا لتبادل البيانات في الصين ، بما في ذلك مركز تبادل البيانات في بكين.

شاهد النسخة الأصلية

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.