أول قضية حقوق طبع ونشر في ChatGPT: تواجه شركة OpenAI ست رسوم وتم "التقاطها" لإخراج ملخصات الكتب

2023-08-07 02:33:22

المصدر الأصلي: Tencent Technology

مصدر الصورة: تم إنشاؤه بواسطة Unbounded AI‌

في 28 يونيو 2023 ، ظهرت أخيرًا أول دعوى قضائية تمثيلية لانتهاك حقوق الطبع والنشر لشركة ChatGPT في نظر الجمهور. رفع اثنان من الكتاب دعوى جماعية لحقوق الطبع والنشر ضد Open AI في محكمة المقاطعة الشمالية في كاليفورنيا ، متهماً الأخير باستخدام كتبهما المحمية بحقوق الطبع والنشر لتدريب ChatGPT دون إذن لتحقيق مكاسب تجارية.

المدعيان ، بول ترمبلاي ومنى عوض ، يعيشان في ولاية ماساتشوستس ويمتلكان على التوالي حقوق الطبع والنشر للأعمال المتضمنة في قضية "المقصورة في نهاية العالم" و "13 طريقة للنظر إلى فتاة سمينة وأرنب" ؛ المدعى عليه Open AI تم إنشاء وتشغيل الإصدار التوليدي. يتم حاليًا تشغيل منتج الذكاء الاصطناعي ChatGPT بشكل أساسي من خلال نموذجين أساسيين للغة ، GPT-3.5 و GPT-4.

أشارت الشكوى إلى أنه على الرغم من أن المدعي لم يأذن لـ Open AI باستخدام كتبه الخاصة المحمية بحقوق الطبع والنشر للتدريب النموذجي ، إلا أن ChatGPT كان قادرًا على إخراج ملخصات الكتب وفقًا لأمر s ، والذي لا يمكن أن يحدث إلا إذا قام المدعى عليه بتضمين الكتب المتضمنة في المجموعة. للتدريب.

01 تم "التقاطه" لإخراج ملخصات الكتب

ذكر المدعي أن قدرًا كبيرًا من المحتوى الموجود في مجموعة بيانات تدريب Open AI هو عمل محمي بحقوق الطبع والنشر ، بما في ذلك الكتب التي يمتلك المدعي حقوق الطبع والنشر لها. ومع ذلك ، لم تحصل Open AI على موافقة المدعي ، ولم تحدد مصدر المحتوى ، ولم تدفع الرسوم اللازمة. تحتوي الكتب المنشورة من قبل المدعي على معلومات إدارة حقوق الطبع والنشر واضحة ، بما في ذلك رقم النشر ورقم حقوق النشر واسم مالك حقوق النشر وشروط الاستخدام.

** يمكن للمدعي أن يستنتج من الحقائق والمعلومات الموجودة أن السبب الوحيد المفسر وراء قدرة ChatGPT على إنشاء ملخص دقيق لكتاب معين هو أن Open AI حصل ونسخ الكتاب المعني ، واستخدمه في نموذج اللغة الكبير (GPT3. 5 أو GPT4) التدريب. **

وجد اختبار المدعي أنه عندما طُلب من ChatGPT تلخيص الكتابين المتورطين في القضية من خلال s ، يمكن لـ ChatGPT إنشاء ملخص أكثر دقة (على الرغم من وجود قدر ضئيل من المحتوى الخاطئ). يوضح هذا أن ChatGPT يحافظ على محتوى عمل معين في مجموعة بيانات التدريب ويمكنه إخراج النص المقابل. في الوقت نفسه ، من خلال تصميم مبدأ إنشاء المحتوى لنموذج اللغة الكبيرة ، لن يحتوي محتوى مخرجات ChatGPT على معلومات إدارة حقوق النشر الأصلية.

02 "ChatGPT ، كيف تجري!"

** الشيء المثير للاهتمام في هذه القضية هو أنه في عملية إثبات انتهاك Open AI ، استند تقديم المدعي للمبادئ الأساسية لـ ChatGPT إلى إجراء حوار مع ChatGPT ومطالبتهم "بتقديم نفسه". يتم تلخيص المحتوى المحدد على النحو التالي. **

أصدرت Open AI سلسلة من نماذج اللغات الكبيرة ، بما في ذلك GPT-1 (2018.6) و GPT-2 (2019.2) و GPT-3 (2020.5) و GPT-3.5 (2022.3) وأحدث GPT-4 (2023 · 3) . بشكل عام ، تهدف برامج الذكاء الاصطناعي إلى استخدام الأساليب الإحصائية لمحاكاة المنطق والاستدلال البشري من خلال الخوارزميات. نموذج اللغة الكبيرة هو نوع من برامج الذكاء الاصطناعي المتخصصة المستخدمة لتحليل وإخراج اللغة الطبيعية.

** من ناحية أخرى ، يوفر Open AI ChatGPT للمستخدمين من خلال صفحة ويب بسعر 20 دولارًا شهريًا. ** يمكن للمستخدمين اختيار نسختين من ChatGPT ، نموذج GPT-3.5 أو نموذج GPT-4 المحدث. ** من ناحية أخرى ، يتم توفير ChatGPT أيضًا لمطوري البرامج في شكل API. ** تسمح واجهة API للمطورين بكتابة برامج لتبادل البيانات مع ChatGPT ، وفي هذه الحالة يتم محاسبتها وفقًا للاستخدام.

** سواء تم تقديم الخدمة في شكل صفحة أو واجهة برمجة تطبيقات ، فإن ChatGPT ستستجيب بنشاط لطلب المستخدم. ** إذا سأل المستخدم ChatGPT سؤالًا ، فسيعطي الإجابة ؛ إذا أعطى المستخدم تعليمات ChatGPT ، فسيقوم ChatGPT بتنفيذها ؛ إذا طلب المستخدم من ChatGPT تلخيص ملخص الكتاب ، فسيظل ChatGPT يفعل ذلك.

03 الكتب هي النواة الأساسية لتدريب النماذج الكبيرة

وجهة نظر المدعي هي أنه ، على عكس البرامج التقليدية ، التي يكتبها المهندسون ، تم تطوير نموذج اللغة الكبير من خلال "التدريب" - حيث يتم تجميع مجموعات محتوى ضخمة من مصادر مختلفة و "إطعامها" إلى النموذج. المعروف باسم مجموعة بيانات التدريب (مجموعة بيانات التدريب).

سيقوم نموذج اللغة الكبير بضبط مخرجاته باستمرار ليكون أقرب ما يمكن إلى تسلسل مجموعات النص في الأعمال المدربة. ** تجدر الإشارة إلى أنه على الرغم من استخدام العديد من المحتويات لتدريب النماذج اللغوية الكبيرة ، إلا أن الكتب كانت دائمًا مواد المجموعة الأساسية في مجموعة بيانات التدريب لأنها تقدم أفضل الأمثلة على الكتابة الطويلة عالية الجودة. **

في ورقة الشركة "تحسين فهم اللغة من خلال التدريب الأولي التوليدي" المنشورة في يونيو 2018 ، كشفت Open AI أن تدريب GPT-1 يعتمد على مجموعة بيانات "BookCorpus". يحتوي "BookCorpus" على 7000 كتاب في مجالات مختلفة مثل المغامرة والفانتازيا والرومانسية. ** أشارت منظمة Open AI إلى أن سبب أهمية الكتب بشكل خاص كمجموعة تدريبية هو أنها تحتوي على نصوص طويلة مستمرة ، مما يسمح للنماذج التوليدية بتعلم كيفية معالجة المعلومات النصية الطويلة. **

** تستخدم العديد من شركات البحث والتطوير في مجال الذكاء الاصطناعي ، بما في ذلك Open AI و Google و Amazon وغيرها ، "BookCorpus" للتدريب النموذجي. ** في عام 2015 ، أنشأ فريق أبحاث الذكاء الاصطناعي مجموعة البيانات هذه ، والتي تحتوي على كتب من موقع Smashwords.com ، لكن "BookCorpus" لم تحصل على إذن من مالك حقوق النشر عند تضمين هذه الكتب.

04 إزالة الغموض عن مجموعة الكتب التي تقف وراء GPT

من خلال البحث العلني عن مبادرة Open AI للكشف عن المعلومات (أوراق المؤسسة) ، يأمل المدعي في إثبات أن تدريب سلسلة نماذج GPT يعتمد على الاستخدام غير المصرح به لمحتوى الكتاب الضخم. ** في الورقة البحثية الخاصة بالشركة "نماذج اللغة متعلمين عينة صغيرة" التي نُشرت في يوليو 2020 ، كشفت Open AI أن 15٪ من المحتوى في مجموعة بيانات تدريب GPT-3 جاء من قاعدتي بيانات إلكترونيتين باسم "Books1" و "Books2". مجموعة الكتاب. **

على الرغم من أن Open AI لم يشرح تفاصيل محتويات "Books1" و "Books2" ، إلا أنه يمكن الاستدلال عليه من القرائن ذات الصلة: أولاً ، المجموعتان من الإنترنت ؛ ثانيًا ، حجم المجموعتين أكبر بكثير من "BookCorpus". وفقًا لإفشاء Open AI ، فإن مقياس "Books1" يبلغ 9 أضعاف مقياس BookCorpus (حوالي 63000 كتاب) ، و Books2 يبلغ 42 ضعفًا (حوالي 294000 كتاب). ** في الواقع ، لا يمكن إلا لعدد قليل جدًا من قواعد البيانات توفير مثل هذه المجموعة الكبيرة من الكتب. من ناحية أخرى ، ربما تأتي "Books1" من "Project Gutenberg" أو "Project Gutenberg Corpus Standardization". ** مشروع جوتنبرج هو مكتبة إلكترونية للكتب الإلكترونية "تتجاوز مدة حماية حقوق التأليف والنشر". في سبتمبر 2020 ، أعلن مشروع جوتنبرج أنه تضمن أكثر من 60 ألف كتاب. نظرًا لأنه غير محمي بموجب حقوق الطبع والنشر ، فقد تم استخدام Project Gutenberg على نطاق واسع لتدريب نموذج الذكاء الاصطناعي. في عام 2018 ، أنشأ فريق أبحاث الذكاء الاصطناعي "Standardized Project Gutenberg Corpus" (مشروع قياسي Gutenberg Corpus) لأكثر من 50000 كتاب استنادًا إلى "Project Gutenberg". ** من ناحية أخرى ، يُرجح أن "Books2" مشتق من "مكتبة الظل" على الإنترنت. ** تحتوي مجموعة بيانات "Books2" على ما يقرب من 29400 كتاب ، ويمكن فقط لـ "مكتبة الظل" التي تعرضت لانتقادات شديدة أن توفر مثل هذه المجموعة الكبيرة من الكتب. تتضمن الأمثلة Library Genesis و Z-Library و Sci-Hub و Bibliotik وغيرها. صاغ مجلس أبحاث العلوم الاجتماعية بالولايات المتحدة مصطلح "مكتبة الظل" في مقال بعنوان "قرصنة الوسائط في الاقتصادات الناشئة" نُشر في عام 2011. ** في مارس 2023 ، أصدرت Open AI ورقة المؤسسة GPT-4 ، لكنها ذكرت أنه "بالنظر إلى حالة المنافسة في الصناعة وأمن تطبيق المنتج ، لن يتم الكشف عن هيكل ومحتوى مجموعة بيانات التدريب." **

05 يواجه Open AI ستة ادعاءات بالانتهاك

** قدم المدعي ما مجموعه ستة ادعاءات ضد منظمة Open AI ، تضمنت الدعوى الثلاثة الأولى انتهاكًا لحقوق الطبع والنشر ، والرابع يتضمن منافسة غير عادلة ، والرابع يتضمن نوعين أساسيين من المسؤولية المدنية - واجب الرعاية والإثراء غير المشروع. **

** أولا ، التعدي المباشر على حق المؤلف. ** لم يصرح المدعي لـ Open AI بإعادة إنتاج أو عمل أعمال مشتقة من كتبه ، كما أنه لم يأذن لـ Open AI لعرض أو توزيع النسخ المذكورة أعلاه أو الأعمال المشتقة.

بالإضافة إلى ذلك ، أكد المدعي أنه نظرًا لأن نموذج اللغة الكبيرة المفتوح لمنظمة العفو الدولية يحتاج إلى استخراج وحفظ المعلومات التعبيرية من كتب المدعي للعمل ، فإن نموذج اللغة الكبير نفسه يشكل عملاً مشتقًا منتهكًا دون إذن المدعي.

** ثانيا ، التعدي على حق المؤلف البديل. ** أكد المدعي أنه في حالة عدم وجود ترخيص ، فإن كل مخرجات من النموذج الكبير تشكل عملاً مشتقًا مخالفًا. نظرًا لأنه يتمتع بالحق والقدرة على التحكم في إخراج محتوى نموذج اللغة الكبير والحصول على فوائد اقتصادية منه ، فإن Open AI يشكل انتهاكًا لاستبدال حقوق الطبع والنشر.

بموجب نظام السوابق القضائية الأمريكية ، فإن "الانتهاك البديل" و "المساعدة على الانتهاك" و "التحريض على الانتهاك" تشكل معًا نظامًا كاملاً للانتهاك غير المباشر لحقوق النشر. التعدي غير المباشر هو عكس الانتهاك المباشر ، مما يعني أنه على الرغم من أن المتعدي لا ينخرط بشكل مباشر في السلوك الذي تنظمه الحقوق الحصرية لحقوق الطبع والنشر (أي التعدي المباشر على حقوق الطبع والنشر) ، فإنه يوفر شروطًا معينة للانتهاك المباشر لحقوق الطبع والنشر.

** ثالثًا ، ينتهك أحكام معلومات إدارة حقوق الطبع والنشر في قانون الألفية الجديدة لحقوق طبع ونشر المواد الرقمية. ** من منظور آلية تصميم المنتج ، لن يحتفظ ناتج المحتوى بواسطة ChatGPT "بمعلومات إدارة حقوق الطبع والنشر" (CMI) للعمل ، وبالتالي فإن سلوك المدعى عليه في إزالة معلومات إدارة حقوق النشر الخاصة بعمل المدعي ينتهك "Digital قانون الألفية للملكية الفكرية "(DMCA) أحكام. بالإضافة إلى ذلك ، انتهك المدعى عليهم أيضًا قانون الألفية الجديدة لحقوق طبع ونشر المواد الرقمية من خلال توزيع أعمال مشتقة منتهكة دون معلومات إدارة حقوق الطبع والنشر دون إذن.

"معلومات إدارة حقوق الطبع والنشر" هي معلومات يمكنها تحديد مالك العمل وملكية الحقوق وشروط الاستخدام. سواء في الولايات المتحدة أو بلدي ، من غير القانوني حذف أو تغيير معلومات إدارة حقوق النشر ، أو إتاحتها للأعمال العامة مع حذف معلومات إدارة حقوق النشر أو تغييرها.

** رابعاً: المنافسة غير المشروعة. ** يعد استخدام منظمة العفو الدولية المفتوحة غير المصرح به لعمل المدعي المحمي بحقوق الطبع والنشر لتدريب النموذج انتهاكًا لقانون الأعمال والمهن في كاليفورنيا لأنه غير لائق وغير أخلاقي وقسري ويضر بمزايا المستهلكين.

قام المدعى عليه بتصميم ChatGPT عمدًا لإخراج مقتطفات وملخصات من عمل المدعي دون الإشارة إلى مصدر المحتوى. تقوم ChatGPT بتطوير منتجات تجارية لاكتساب مزايا وسمعة غير عادلة من خلال إخفاء المؤلف ونسخ محتوى وآراء الأعمال المنتهكة.

** خامساً: التعدي بالإهمال انتهاك لواجب الرعاية. ** يحتاج الذكاء الاصطناعي المفتوح إلى تحمل واجب الرعاية المنصوص عليه في "القانون المدني لولاية كاليفورنيا" - يجب على جميع الأشخاص تبني سلوك معقول تجاه الآخرين. يعتمد هذا الالتزام على العرف الصناعي ، والممارسات التجارية ، والمعلومات التي بحوزة المدعى عليه ، والقدرة على التحكم بناءً على المعلومات.

بمجرد أن يجمع المدعى عليه الأعمال المحمية بحقوق الطبع والنشر للمدعي لغرض تدريب نموذج GPT ، فإنه يحتاج إلى تحمل واجب رعاية معين: عندما يكون من المتوقع أن يتسبب الاستخدام غير المصرح به للأعمال في التدريب النموذجي في إلحاق الضرر بالمدعي ، يجب ألا تنتهك هذه الأعمال وتستخدمها مرة أخرى.

** سادساً الإثراء الجائر. ** كرس المدعي وقتًا وجهدًا كبيرين لإنشاء الكتاب المعني. نظرًا لاستخدام عمله الخاص في تدريب نموذج GPT دون إذن ، فقد حُرم المدعي من حق الاستفادة من العمل. ليس من العدل أن يحصل المدعى عليه على منافع تجارية باستخدام عمل المدعي لتدريب نموذج GPT. ما لم يكن سلوك المدعى عليه محظورًا أو مقيدًا ، من شأنه أن يتسبب في ضرر لا يمكن إصلاحه للمدعي.

** مكتوب في النهاية: ثلاث قضايا ستناقش في هذه الحالة. **

** كأول دعوى قضائية تمثيلية لانتهاك حقوق الطبع والنشر لشركة ChatGPT ، ستظل عملية طويلة قبل أن تصدر محكمة المقاطعة الشمالية في كاليفورنيا حكمًا رسميًا. ولكن قبل ذلك ، لا تزال هناك بعض القضايا الجديرة بالاهتمام والنظر فيما يتعلق بالمحتوى المحدد لشكوى المدعي. **

** الاهتمام الأول: ليس من السهل العثور على انتهاك نموذجي. **

يعد تدريب النماذج اللغوية الكبيرة في الأساس نوعًا من السلوك الداخلي وغير الصريح لاستخدام المصنفات ، ويواجه مالكو حقوق النشر مشكلة حقيقية تتمثل في اكتشاف تعرض أعمالهم للانتهاك. بشكل عام ، فقط من خلال مقارنة المحتوى الذي تم إنشاؤه بواسطة النموذج مع عمله الخاص بشكل مشابه إلى حد كبير ، يمكن استنتاج أن هناك استخدام غير مصرح به للعمل أثناء مرحلة تدريب النموذج. في هذه الحالة ، كان السبب الذي جعل المدعي قادرًا على اتهام كتابه بانتهاك نموذج اللغة الكبير تحت Open AI هو أنه اكتشف أن ChatGPT قد أنتج ملخصًا لعمله.

ولكن ما إذا كان هذا الادعاء يحمل الماء يبقى أن نرى. ** إذا كان ملخص عمل ChatGPT يعتمد فقط على مجموعة مواد التعريف العامة لكتب المدعي على الإنترنت ، بدلاً من النسخ المباشر لكتب المدعي وتدريبها ، فإن شرعية ادعاء الانتهاك ستهتز. ** اعترف المدعي أيضًا بوجود بعض الأخطاء الواقعية في ملخص إخراج الكتاب بواسطة ChatGPT ، مما يشير أيضًا إلى حد معين إلى أن النموذج الكبير ربما لم يدرس الكتب المعنية بشكل كامل.

** مصدر القلق 2: ما هو نوع الحقوق المنتهكة يجب إثباته. **

في الوقت الحالي ، على الرغم من أن "تخزين بيانات العمل" يمكن أن يندرج رسميًا ضمن لائحة "حق النسخ" في قانون حقوق الطبع والنشر ، ما إذا كان "السلوك التدريبي لبيانات العمل" يمثل انتهاكًا وما نوع الحقوق الواردة في قانون حقوق الطبع والنشر لم يتم التعدي عليها بعد ، وهناك استنتاجات بالإجماع. في هذه الحالة ، شدد المدعي على أن التشغيل العادي ومخرجات المحتوى لنموذج اللغة الكبير يعتمد على تدريب مجموعة العمل ، وبالتالي فإن تدريب النموذج الكبير يشكل انتهاكًا لحقوق الطبع والنشر ، ويشكل النموذج الكبير نفسه انتهاكًا العمل المشتق.

هذا الادعاء أيضا أن يتم استكشافه. ** باستثناء بعض متطلبات إنشاء المحتوى الخاصة مثل "تتطلب التعميم والتلخيص والترجمة لأعمال محددة لحقوق الطبع والنشر في شكل s" في هذه الحالة ، في معظم الحالات ، يقبل النموذج الكبير تعليمات إنشاء المحتوى المفتوح (على سبيل المثال لا الحصر) الأعمال ، أسلوب كاتب معين) ، لن ينتج بشكل أساسي أعمالًا محددة أو حتى أجزاء من أعمال معينة ، لذلك لا يشكل انتهاكًا لحقوق الطبع والنشر. **

** مصدر القلق 3: يجب توضيح مسؤوليات المنبع والمصب. **

في مجال حقوق الطبع والنشر للنموذج الكبير ، يتمتع مطور النموذج بالحقوق ذات الصلة بالنموذج الكبير نفسه ، لذلك فهو يتحمل مسؤولية حقوق الطبع والنشر التي ينطوي عليها تدريب النموذج ؛ أما بالنسبة لمحتوى مخرجات النموذج الكبير ، بناءً على الممارسات الصناعية الحالية ، فإن الممارسة هي توضيح الحقوق من خلال العقود والمسؤولية تعود إلى المستخدم. في 10 يوليو 2023 ، أقرت "الإجراءات المؤقتة لإدارة خدمات الذكاء الاصطناعي التوليدية" الصادرة عن إدارة الفضاء السيبراني في الصين بوضوح أنه "يجب على مقدمي الخدمة توقيع اتفاقيات الخدمة مع المستخدمين لتوضيح حقوق والتزامات كلا الطرفين".

** تستحق الاهتمام ، وانطلاقًا من ادعاء المدعي ، فهي تتبع أيضًا مرحلتين من التدريب النموذجي ومخرجات المحتوى ، وفكرة تقسيم الحقوق والمسؤوليات. ** تركز مطالبة المدعي بشأن الانتهاك المباشر لحقوق الطبع والنشر على مرحلة التدريب على نموذج Open AI: أولاً ، تم عمل نسخ من الكتب أثناء عملية التدريب النموذجي دون إذن المدعي ؛ ثانيًا ، بدون إذن المدعي ، يمثل نموذج اللغة الكبير نفسه انتهاكًا العمل المشتق. ** ادعاء المدعي بانتهاك محتوى مخرجات ChatGPT هو فقط للادعاء بأن Open AI يشكل انتهاكًا غير مباشر لحقوق الطبع والنشر (انتهاك بديل). هذا يعني أيضًا أنه بالنسبة لمحتوى مخرجات النموذج الكبير ، يكون المستخدم مسؤولاً عن الانتهاك المباشر لحقوق النشر ، لأنه يمتلك الحقوق المقابلة. **

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.