تم إزالة مجموعة البيانات مفتوحة المصدر التي تستخدمها LLaMA من الرفوف: فهي تحتوي على ما يقرب من 200000 كتاب ويتم قياسها مقابل مجموعة بيانات OpenAI

巴比特_

2023-08-21 06:22:01

المصدر الأصلي: Qubit

مصدر الصورة: تم إنشاؤه بواسطة Unbounded AI‌

تمت إزالة مجموعة البيانات مفتوحة المصدر من الرفوف بسبب انتهاك حقوق النشر.

تم تدريب مثل LLaMA و GPT-J وما إلى ذلك.

اليوم ، قام موقع الويب الذي استضافه لمدة 3 سنوات بحذف جميع المحتويات ذات الصلة بين عشية وضحاها.

هذه ** Books3 ** ، وهي مجموعة بيانات تتكون من ما يقرب من 200000 كتاب ، بحجم يقارب 37 جيجابايت.

ذكرت منظمة دنماركية لمكافحة القرصنة أنه تم العثور على 150 كتابًا لأعضائها في مجموعة البيانات ، مما يشكل انتهاكًا ، لذلك طلبت من المنصة إزالتها.

الآن رابط صفحة الويب Books3 على المنصة أصبح "404".

قال المطور الأصلي لمجموعة البيانات بلا حول ولا قوة أن إزالة Books3 هي مأساة في دائرة مفتوحة المصدر.

ما هو Books3؟

تم إصدار Books3 في عام 2020 ، وتم تحميله بواسطة مطور AI Shawn Presser ، وتم تضمينه في مجموعة البيانات المفتوحة المصدر Pile من Eleuther AI.

يحتوي على إجمالي 197000 كتاب ، بما في ذلك جميع الكتب من موقع الويب المقرصن Bibliotik ، والذي يهدف إلى قياس مجموعة بيانات OpenAI ، ولكن ** المصدر الرئيسي المفتوح **.

هذا هو المكان الذي يأتي منه اسم ** Books3 ** -

بعد إصدار GPT-3 ، تم الكشف رسميًا عن أن 15٪ من المحتوى في مجموعة بيانات التدريب الخاصة بها جاء من مجموعتين من الكتب الإلكترونية تدعى "Books1" و "Books2" ، ولكن لم يتم الكشف عن المحتوى المحدد.

يوفر Books3 مفتوح المصدر المزيد من المشاريع مع فرصة للتنافس مع OpenAI.

على سبيل المثال ، LLaMA ، التي انفجرت هذا العام ، و GPT-J من Eleuther AI ، كلها تستخدم Books3.

يجب أن تعلم أن بيانات الكتاب كانت دائمًا مادة أساسية في التدريب المسبق للنموذج الكبير ، ويمكن أن توفر مرجعًا للنموذج لإخراج نص طويل عالي الجودة.

مجموعات بيانات الكتاب التي يستخدمها العديد من عمالقة الذكاء الاصطناعي ليست مفتوحة المصدر ، أو حتى غامضة للغاية. على سبيل المثال ، الكتب 1/2 ، فهم مصدرها وحجمها هو في الغالب تكهنات من جميع مناحي الحياة.

لذلك ، تعتبر مجموعات البيانات مفتوحة المصدر مهمة جدًا لدائرة الذكاء الاصطناعي.

لتسهيل الوصول ، تمت استضافة Books3 على موقع The Eye. هذه منصة يمكنها أرشفة المعلومات واستخراج البيانات العامة.

وهذه المرة تم إزالته من على الرفوف ، وكان الأمر أيضًا متعلقًا بهذه المنصة.

تقدمت مجموعة Rights Alliance الدنماركية لمكافحة القرصنة بطلب إلى The Eye لإزالتها ، وتم منحه.

لكن الخبر السار هو أن ** Books3 لم يختف تمامًا ** ، ولا تزال هناك طرق أخرى للحصول عليه.

هناك أيضًا نسخ احتياطية على Wayback Machine ، أو يمكن تنزيلها من عميل تورنت.

أعطى شقيق المؤلف وسائل متعددة على تويتر.

"بدون Books3 ، لا يمكنك إجراء الدردشة الخاصة بك"

في الواقع ، لدى مؤلف مجموعة البيانات الكثير ليقوله حول حادث الشطب هذا.

قال إن الطريقة الوحيدة لإنشاء نموذج مثل ChatGPT هي إنشاء مجموعة بيانات مثل Books3.

تقوم كل شركة ربحية بإنشاء مجموعات بيانات سراً ، فإذا لم يكن هناك Books3 ، فهذا يعني أن عمالقة التكنولوجيا فقط مثل OpenAI يمكنهم الوصول إلى بيانات الكتاب هذه ، لذلك لن تتمكن من إنشاء ChatGPT الخاصة بك.

من وجهة نظر المؤلف ، فإن ChatGPT يشبه موقع الويب الشخصي في التسعينيات ، ومن المهم جدًا أن يتمكن أي شخص من القيام بذلك.

ومع ذلك ، نظرًا لأن جزءًا كبيرًا من بيانات Books3 يأتي من مواقع الويب المقرصنة ، فقد أعرب المؤلف أيضًا عن أمله في أن يقوم شخص ما بإنشاء مجموعة بيانات أفضل من Books3 في المستقبل ، مما لن يؤدي فقط إلى تحسين جودة البيانات ، ولكن أيضًا احترام حقوق الطبع والنشر للكتب .

حدث هذا الموقف المماثل أيضًا في OpenAI.

منذ أكثر من شهر ، رفع مؤلفان بدوام كامل دعوى قضائية ضد شركة OpenAI لاستخدامها أعمالهما في تدريب ChatGPT دون إذن.

السبب في حدوث ذلك هو أن مجموعة البيانات Books2 الخاصة بـ OpenAI قد حصلت على الكثير من البيانات من مكتبة الظل (موقع القرصنة على الويب).

لذلك ، قالت بعض الأصوات مازحة إن الذكاء الاصطناعي لم يحقق اختراقات تكنولوجية جديدة فحسب ، بل جلب أيضًا مهامًا جديدة لمنظمات مكافحة القرصنة.

ارتباط مرجعي: [1] [2] [3] [4]

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.