قبل بضعة أيام ، قامت Google فجأة بتحديث سياسة الخصوصية الخاصة بها ، مما يوضح أنها ستستخدم جميع البيانات العامة على الإنترنت لتدريب نموذج الذكاء الاصطناعي الخاص بها.
بمعنى آخر ، وفقًا للسياسة الجديدة ، قد يتم الزحف إلى أي معلومات تنشرها بشكل عام على الإنترنت بواسطة Google ، بما في ذلك على سبيل المثال لا الحصر منشوراتك والكلمات الرئيسية التي تبحث عنها ومقاطع الفيديو التي تشاهدها.
أليس هذا هو خط الإنترنت المناسب!
لم يمض وقت طويل على مقاضاة شركة OpenAI لانتهاك البيانات ، وكانت Google في عجلة من أمرها لضرب البندقية.
في هذا المنعطف ، هناك احتمال كبير أنه لا علاقة له برسوم البيانات.إذا لم تجمع Google هذه الموجة من الصوف الحر ، فمن المحتمل جدًا أنها لن تتمكن من جمعها في المستقبل. **
لم تتوقف هذه المسألة أبدًا منذ أن أصبحت ChatGPT شائعة.
سوف يعطيك Shichao يا رفاق ملخصًا للجدول الزمني أولاً.
في مارس من هذا العام ، تولى ماسك زمام المبادرة في إطلاق الطلقة الأولى على رسوم البيانات ، معلناً أن واجهة API الخاصة بتويتر لم تعد مجانية.
بعد ذلك مباشرة ، لم يعد بإمكان Reddit ، النسخة الأمريكية من شريط البريد ، تحمله بعد الآن.
في الشهر الماضي ، كانت حملة "تعتيم" Reddit بمثابة احتجاج على سياسة رسوم API الرسمية.
عندما كتب Shichao عن هذا من قبل ، كان لا يزال يخمن ما إذا كان مسؤولو Reddit سيقدمون تنازلات في النهاية.
انطلاقًا من المتابعة الحالية ، تم تأكيد إيقاف تشغيل معظم برامج الجهات الخارجية ، و Reddit مصمم على فرض رسوم على البيانات.
خلال هذه الفترة الزمنية ، قام Twitter بتعديل حد المعدل مرة أخرى.يمكن للحسابات التي لا تنفق أموالًا للمصادقة قراءة 600 منشور فقط في اليوم. والغرض أيضًا هو منع الروبوتات من الحصول على بيانات المستخدم.
هل البيانات ذات قيمة كبيرة؟
شعر شي تشاو أنه لا يزال خطأ ** AI. **
إذا أراد نموذج الذكاء الاصطناعي الكبير أن يصبح أكثر ذكاءً ، فإنه يحتاج إلى تدفق مستمر من البيانات "لتغذية".
أولئك الذين يمكنهم صنع نماذج كبيرة الآن ، إما أن يكون لديهم بياناتهم الخاصة ، مثل Baidu و Ali و Tencent ؛ أو الزحف إلى بيانات الآخرين ، إليك اسم OpenAI.
نظرًا لأن العديد من مواقع الويب تحتوي على واجهات API مفتوحة ومجانية ، فقد تم منح عمالقة مثل Microsoft و OpenAI فرصة.
لكن اليوم يختلف عن الماضي ، فبعد أن أعادت منظمة العفو الدولية منح قيمة البيانات ، أصبحت المنصات التي تحتوي على شرائح في أيديهم بالطبع غير راغبة على الإطلاق في ممارسة الدعارة مقابل لا شيء. **
حتى الرئيس التنفيذي لشركة Reddit هوفمان أوضح أنه لا يريد تقديم البيانات للعمالقة مجانًا.
لذلك ، من المحتمل أن يكون سبب مقاضاة شركة OpenAI هو حقيقة أن المنصات قد اتحدت "لقتل الدجاج والقردة" وعلاج الميول غير الصحية للذكاء الاصطناعي.
ومع ذلك ، من الصعب القول ما إذا كان القانون سيقف إلى جانب أوبن إيه آي هذه المرة.
لأن حقوق نشر البيانات تتضمن 3 قضايا رئيسية:
** 1. هل سلوك زاحف البيانات نفسه قانوني؟ **
** 2. هل البيانات محمية بموجب حقوق النشر؟ **
** 3. هل المصنفات التي يتم إنشاؤها من البيانات محمية بموجب حقوق النشر؟ **
بادئ ذي بدء ، السؤال الأول ، للحصول على البيانات ، ليس أكثر من دفع ثمن المشتريات ، أو جمع البيانات المتاحة للجمهور على الإنترنت.
ومع ذلك ، تجدر الإشارة إلى أن ** البيانات التي تم الكشف عنها لا تعادل الاستخدام المصرح به ** ، كما أنها تعتمد على ما إذا كان موقع الويب يحتوي على بنود ذات صلة تقيد سلوك برامج زحف البيانات.
إذا تم تجاوز موافقة مالك حقوق الطبع والنشر بشكل مباشر ، أو تم الحصول على البيانات قسرًا عن طريق تجاوز قيود موقع الويب ، فإن الحصول على بيانات نظام معلومات الكمبيوتر بشكل غير قانوني يعد جريمة.
حتى إذا ادعت OpenAI أنها تزحف إلى البيانات من مواقع الويب العامة ، فإن ما إذا كان سلوك الزحف إلى البيانات قانونيًا بحد ذاته يعتمد على ما إذا كان مالك حقوق الطبع والنشر قد منح الإذن أم لا.
ثانيًا ، حول ما إذا كانت ** البيانات نفسها تخضع لحقوق الطبع والنشر **.
وفقًا لقانون حقوق النشر الأمريكي ، إذا كانت البيانات المستخدمة في تدريب نموذج الذكاء الاصطناعي تقع ضمن نطاق "الاستخدام العادل" ، فلن يشكل ذلك انتهاكًا.
لكن المشكلة تكمن في هذا "** الاستخدام العادل **".
تشمل العناصر المكونة لـ "الاستخدام العادل" ما إذا كان الاستخدام التجاري متضمنًا ، وما إذا كان العمل نفسه محميًا بموجب قانون حقوق النشر ، وعدد الأجزاء المستخدمة ، والتأثير على العمل نفسه بعد الاستخدام.
مثل التقارير الإخبارية والأبحاث الأكاديمية ، لا بأس من الاستشهادات المناسبة تمامًا.
هل يمكن أن يظل استخدام البيانات لمئات الملايين من المستويات في نماذج الذكاء الاصطناعي وبرمجيات الذكاء الاصطناعي التجارية "استخدامًا عادلًا"؟
أخيرًا ، هناك قضية حقوق الطبع والنشر الخاصة بالأعمال التي تم إنشاؤها ** AI **.
نظرًا لأن حقوق الطبع والنشر لبيانات التدريب غير واضحة ، فإن المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي سيكون بطبيعة الحال محل نزاعات بشأن حقوق النشر. قبل بضعة أيام ، أزال Steam أيضًا لعبة تم إنشاؤها باستخدام AIGC على أساس وجود مشكلة تتعلق بحقوق النشر.
لنأخذ الرسم بالذكاء الاصطناعي كمثال ، إن توليد الصور يعادل عملية التقسيم وإعادة التنظيم ، على الرغم من أن النتيجة النهائية "جديدة" تمامًا ، إلا أنها لا تزال تحتفظ ببعض خصائص صورة التدريب.
ومع ذلك ، سواء تم اعتبار هذا الوضع بمثابة انتهاك أم لا ، فهناك آراء مختلفة من مختلف البلدان.
نظرًا لأن بيانات التدريب ملك للآخرين ، فقد قرر مكتب حقوق الطبع والنشر في الولايات المتحدة أن الأعمال التي تم إنشاؤها بواسطة الذكاء الاصطناعي ليست محمية بموجب قانون حقوق النشر ، وربما تنتهك حقوق الطبع والنشر.
موقف الحكومة اليابانية مختلف تمامًا ، حيث تقول إن القانون الياباني لا يحمي حقوق الطبع والنشر للبيانات المستخدمة في تدريب الذكاء الاصطناعي.
على الأقل في ظل الإطار القانوني الحالي ، من الصعب الحصول على إجابة موحدة للأسئلة المذكورة أعلاه.
نظرًا لأن الإشراف ليس قويًا بما يكفي ، فلا خيار أمام مالك حقوق الطبع والنشر سوى القيام بذلك بنفسه. إذا كان يجب تحصيل الرسوم ، فيجب استرداد الرسوم التي يجب استردادها بسرعة.
*** ▼ مستندات OpenAI المرفوعة ضدها ***
من المتوقع أنه بعد Twitter و Reddit ، قد يكون هناك المزيد من أطراف حقوق الطبع والنشر للمحتوى التي تبني جدرانًا عالية.
هذا الأمر بالنسبة للمنصة هو بالطبع طريقة جديدة لكسب المال ، وبغض النظر عن مدى سوء عمالقة التكنولوجيا ، فإنهم سينفقون المزيد من الأموال.
لكن بالنسبة للإنترنت ككل ، فهذا ليس بالشيء الجيد.
في ذلك الوقت ، وُلدت الإنترنت بجين المشاركة المفتوحة ، مثل Wikipedia و Twitter ، والتي وفرت واجهات API مجانًا طوال العام ، مما جعلها مناسبة جدًا للمطورين للاتصال بالبيانات.
ولكن الآن إذا سُمح بتنفيذ رسوم البيانات على هذا النحو ، فمن الصعب تحديد النتيجة.
بعد كل شيء ، صغار المطورين ليس لديهم القدرة على دفع رسوم بيانات ضخمة. إذا كان الابتكار يحدث فقط في الشركات العملاقة ، أليس هذا احتكارًا خالصًا؟
الشيء الأكثر أهمية هو أن العديد من المواقع التي يمكن عرضها مجانًا الآن قد يتعين عرضها لاحقًا ، وهذا هو النقد الحقيقي للمستخدمين العاديين مثلنا.
في الواقع ، لا يمكن إلقاء اللوم على رسوم البيانات بالكامل على المنصة ، فهي تجعل عمالقة الذكاء الاصطناعي يخافون من "السرقة" ، وهي خطوة عاجزة لحماية الذات.
على الرغم من أن Google لديها "سياسة خصوصية" هذه المرة ، إلا أنه من الصعب تحديد النتيجة.
لذلك ، فإن المفتاح هو معرفة متى ستسقط مطرقة الإشراف.
يعد توضيح حقوق نشر البيانات عقبة لا يمكن تجنبها في تطوير الذكاء الاصطناعي ، والآن يبدو أنها مرتبطة أيضًا بالاتجاه المستقبلي للإنترنت.
أتساءل عما إذا كانت سفينة الذكاء الاصطناعي ستدفعنا إلى عصر أكثر انفتاحًا أو انغلاقًا؟
شاهد النسخة الأصلية
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
دع شركات الذكاء الاصطناعي الكبيرة "تسرق" بهذه الطريقة ، قد لا نرى مواقع ويب مجانية
المصدر الأصلي: مراجعة سيئة
قبل بضعة أيام ، قامت Google فجأة بتحديث سياسة الخصوصية الخاصة بها ، مما يوضح أنها ستستخدم جميع البيانات العامة على الإنترنت لتدريب نموذج الذكاء الاصطناعي الخاص بها.
لم يمض وقت طويل على مقاضاة شركة OpenAI لانتهاك البيانات ، وكانت Google في عجلة من أمرها لضرب البندقية.
لم تتوقف هذه المسألة أبدًا منذ أن أصبحت ChatGPT شائعة.
سوف يعطيك Shichao يا رفاق ملخصًا للجدول الزمني أولاً.
في مارس من هذا العام ، تولى ماسك زمام المبادرة في إطلاق الطلقة الأولى على رسوم البيانات ، معلناً أن واجهة API الخاصة بتويتر لم تعد مجانية.
في الشهر الماضي ، كانت حملة "تعتيم" Reddit بمثابة احتجاج على سياسة رسوم API الرسمية.
خلال هذه الفترة الزمنية ، قام Twitter بتعديل حد المعدل مرة أخرى.يمكن للحسابات التي لا تنفق أموالًا للمصادقة قراءة 600 منشور فقط في اليوم. والغرض أيضًا هو منع الروبوتات من الحصول على بيانات المستخدم.
شعر شي تشاو أنه لا يزال خطأ ** AI. **
أولئك الذين يمكنهم صنع نماذج كبيرة الآن ، إما أن يكون لديهم بياناتهم الخاصة ، مثل Baidu و Ali و Tencent ؛ أو الزحف إلى بيانات الآخرين ، إليك اسم OpenAI.
نظرًا لأن العديد من مواقع الويب تحتوي على واجهات API مفتوحة ومجانية ، فقد تم منح عمالقة مثل Microsoft و OpenAI فرصة.
حتى الرئيس التنفيذي لشركة Reddit هوفمان أوضح أنه لا يريد تقديم البيانات للعمالقة مجانًا.
ومع ذلك ، من الصعب القول ما إذا كان القانون سيقف إلى جانب أوبن إيه آي هذه المرة.
** 1. هل سلوك زاحف البيانات نفسه قانوني؟ **
** 2. هل البيانات محمية بموجب حقوق النشر؟ **
** 3. هل المصنفات التي يتم إنشاؤها من البيانات محمية بموجب حقوق النشر؟ **
بادئ ذي بدء ، السؤال الأول ، للحصول على البيانات ، ليس أكثر من دفع ثمن المشتريات ، أو جمع البيانات المتاحة للجمهور على الإنترنت.
ومع ذلك ، تجدر الإشارة إلى أن ** البيانات التي تم الكشف عنها لا تعادل الاستخدام المصرح به ** ، كما أنها تعتمد على ما إذا كان موقع الويب يحتوي على بنود ذات صلة تقيد سلوك برامج زحف البيانات.
ثانيًا ، حول ما إذا كانت ** البيانات نفسها تخضع لحقوق الطبع والنشر **.
وفقًا لقانون حقوق النشر الأمريكي ، إذا كانت البيانات المستخدمة في تدريب نموذج الذكاء الاصطناعي تقع ضمن نطاق "الاستخدام العادل" ، فلن يشكل ذلك انتهاكًا.
لكن المشكلة تكمن في هذا "** الاستخدام العادل **".
مثل التقارير الإخبارية والأبحاث الأكاديمية ، لا بأس من الاستشهادات المناسبة تمامًا.
هل يمكن أن يظل استخدام البيانات لمئات الملايين من المستويات في نماذج الذكاء الاصطناعي وبرمجيات الذكاء الاصطناعي التجارية "استخدامًا عادلًا"؟
أخيرًا ، هناك قضية حقوق الطبع والنشر الخاصة بالأعمال التي تم إنشاؤها ** AI **.
نظرًا لأن حقوق الطبع والنشر لبيانات التدريب غير واضحة ، فإن المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي سيكون بطبيعة الحال محل نزاعات بشأن حقوق النشر. قبل بضعة أيام ، أزال Steam أيضًا لعبة تم إنشاؤها باستخدام AIGC على أساس وجود مشكلة تتعلق بحقوق النشر.
نظرًا لأن بيانات التدريب ملك للآخرين ، فقد قرر مكتب حقوق الطبع والنشر في الولايات المتحدة أن الأعمال التي تم إنشاؤها بواسطة الذكاء الاصطناعي ليست محمية بموجب قانون حقوق النشر ، وربما تنتهك حقوق الطبع والنشر.
موقف الحكومة اليابانية مختلف تمامًا ، حيث تقول إن القانون الياباني لا يحمي حقوق الطبع والنشر للبيانات المستخدمة في تدريب الذكاء الاصطناعي.
*** ▼ مستندات OpenAI المرفوعة ضدها ***
هذا الأمر بالنسبة للمنصة هو بالطبع طريقة جديدة لكسب المال ، وبغض النظر عن مدى سوء عمالقة التكنولوجيا ، فإنهم سينفقون المزيد من الأموال.
في ذلك الوقت ، وُلدت الإنترنت بجين المشاركة المفتوحة ، مثل Wikipedia و Twitter ، والتي وفرت واجهات API مجانًا طوال العام ، مما جعلها مناسبة جدًا للمطورين للاتصال بالبيانات.
بعد كل شيء ، صغار المطورين ليس لديهم القدرة على دفع رسوم بيانات ضخمة. إذا كان الابتكار يحدث فقط في الشركات العملاقة ، أليس هذا احتكارًا خالصًا؟
الشيء الأكثر أهمية هو أن العديد من المواقع التي يمكن عرضها مجانًا الآن قد يتعين عرضها لاحقًا ، وهذا هو النقد الحقيقي للمستخدمين العاديين مثلنا.
لذلك ، فإن المفتاح هو معرفة متى ستسقط مطرقة الإشراف.
يعد توضيح حقوق نشر البيانات عقبة لا يمكن تجنبها في تطوير الذكاء الاصطناعي ، والآن يبدو أنها مرتبطة أيضًا بالاتجاه المستقبلي للإنترنت.
أتساءل عما إذا كانت سفينة الذكاء الاصطناعي ستدفعنا إلى عصر أكثر انفتاحًا أو انغلاقًا؟