** المصدر: ** "Science and Technology Innovation Board Daily"
** تحرير أغنية Ziqiao **
مصدر الصورة: تم إنشاؤه بواسطة Unbounded AI
تعتبر البيانات وقوة الحوسبة والخوارزميات العناصر الأساسية الثلاثة للذكاء الاصطناعي التوليدي ، ومن الصعب تحديد أيهما أكثر أهمية.
ومع ذلك ، بالنسبة لشركات النجوم مثل OpenAI ، فإن قوة الحوسبة هي في الأساس قضية اقتصادية. فالشركات الكبرى تخزن كمية كبيرة من الأجهزة باهظة الثمن بحكم "قدرتها المالية" ، ومشكلة ندرة البيانات هي مشكلة أكبر. لهم في أزمة أخلاقية.
بأخذ OpenAI كمثال ، فإن سلوكها في التقاط البيانات العامة لتدريب نماذج الذكاء الاصطناعي كان مثيراً للجدل منذ فترة طويلة. ** وفقًا لآخر تقرير صادر عن شركة Insider للتكنولوجيا الأجنبية ، اعترفت شركة OpenAI مؤخرًا بأنها أطلقت روبوتًا لزاحف الويب يسمى GPTBot ، والذي يستخدم للزحف وجمع البيانات لتدريب النماذج على نطاق واسع. **
** يُشتبه في أن OpenAI هو "سارق بيانات" **
زاحف الويب هو برنامج كمبيوتر يحاكي سلوك الإنسان (مستخدم الشبكة) ويتصفح ويجمع معلومات الشبكة تلقائيًا. يمكن لزاحف الويب حفظ البيانات التي يزورها ، ويقوم ملتقط البيانات بتحليل البيانات وإعادة استخدامها ، واستنتاج تفضيلات مستخدمي الإنترنت ، ثم دفعهم إلى مجموعات المستخدمين المطابقة.
** ليس من الواضح كم من الوقت كانت روبوتات الزاحف الخاصة بـ OpenAI كامنة على الإنترنت ، ويشتبه البعض في أن OpenAI كانت تجمع بيانات الجميع عبر الإنترنت سراً لأشهر أو سنوات. **
في مواجهة مثل هذه "الاتهامات" ، دافعت شركة OpenAI عن نفسها بنشاط. وذكرت الشركة أن GPTBot ستلتزم بصرامة بقواعد أي نظام حظر الاشتراك غير المدفوع ، ولن تلتقط المعلومات التي تتطلب الدفع ، ولن تجمع البيانات التي يمكن تتبعها لأشخاص يمكن التعرف عليهم شخصيًا.
بالإضافة إلى ذلك ، أطلقت OpenAI طريقة لحظر GPTbot. يمكن للمستخدمين تعديل ملف robots.txt أو حظر عناوين IP الخاصة بهم لرفض وصول برامج الزحف. كما أعلنت الشركة مؤخرًا عن صفقة مع The Associated Press ستدفع بموجبها OpenAI مقابل محتوى AP اللازم لبيانات التدريب الخاصة بالذكاء الاصطناعي.
** الثقة المفقودة **
كوسيلة لجمع البيانات ، لا تميز تقنية الزاحف نفسها بين القانوني وغير القانوني. ** ومع ذلك ، لا يبدو أن مبادرة OpenAI لوضع قيود على أدوات الزاحف لديها قادرة على استعادة ثقة الجمهور في هذه الشركة النموذجية الكبيرة. **
قال نيل كلارك ، رئيس تحرير مجلة الخيال العلمي المخضرم "Clarkworld" والحائز على جائزة Hugo: "لقد أثبتت شركة OpenAI وغيرها من الشركات النموذجية الكبيرة مرارًا وتكرارًا أنها لا تحترم حقوق المؤلفين والفنانين وغيرهم من المبدعين. استنادًا إلى حد كبير إلى أعمال الآخرين المحمية بحقوق الطبع والنشر ".
كما قدم مثالاً ، CCBot هو روبوت زاحف آخر تديره منظمة Common Crawl. تعد Common Crawl حاليًا المورد الرئيسي لبيانات التدريب لنماذج الذكاء الاصطناعي. "على حد علمي ، لم يطلب أحد من Common Crawl حذف البيانات قال كلارك "حاولت ولم أتلق أي رد".
من ناحية أخرى ، عندما يتعلق الأمر بالانسحاب ضد الشركات الكبرى ، يكون الناس العاديون في الغالب في وضع غير مؤات. كما قال كلارك ، بما أن شركة OpenAI مستعدة للدفع مقابل بيانات الشركات الكبرى مثل (Associated Press) ، فلماذا لا تدفع مقابل معلومات الآخرين؟ "سألت شركة OpenAI عن هذا الأمر ، لكنني لم أحصل على رد".
ومع ذلك ، يقف كلارك على الجانب الآخر من OpenAI ، حيث يواجه "عالم كلارك" الذي أسسه طوفانًا من المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي. أشار كلارك إلى أنه بعد افتتاح ChatGPT في أواخر العام الماضي ، ارتفعت عمليات إرسال البريد العشوائي التي تم إنشاؤها بواسطة الذكاء الاصطناعي ، وكانت تكلفة الكشف عن مثل هذه الأعمال عالية ، وعلقت المجلة مؤقتًا الدعوة للمخطوطات.
خاتمة
في السابق ، تم رفع دعوى قضائية ضد OpenAI من قبل عدة أطراف بسبب قضايا حقوق النشر ، بما في ذلك الدعوى الجماعية التي روجت لها شركة Clarkson Law Firm والمؤلفين الأكثر مبيعًا مثل Paul Tremblay و Mona Awad. رفع المشاهير دعوى قضائية بأسمائهم الحقيقية.
مع التكرار الإضافي لتكنولوجيا الذكاء الاصطناعي التوليدية ، ستزداد الخلافات المماثلة فقط.
من المرجح أن تصبح الشركات الكبيرة هدفًا للنقد العام ، حتى لو تجرأت على تحمل المسؤولية ، فليس من السهل تحقيق الامتثال الكامل للحصول على البيانات. نظرًا للكم الهائل من المعلمات ، يجب تدريب النماذج الكبيرة ونشرها بمساعدة تقنيات مثل الحوسبة الموزعة والخدمات السحابية ، مما يزيد من مخاطر سرقة البيانات أو العبث بها أو إساءة استخدامها أو تسربها.
إن كيفية تحقيق التوازن بين حماية الخصوصية الشخصية وتشجيع الابتكار التكنولوجي ، وكيفية إيجاد المسار الأمثل بين بقاء المؤسسة والإنتاج المتوافق هي بالفعل قضايا لا تستطيع كل شركة مكرسة للذكاء الاصطناعي التوليدي تجنبها.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
أوبن إيه آي تكافح أيضًا مع البيانات! تعترف الشركة بأن استخدام برامج الزحف للحد من نفسها يصعب تبديد الشك العام
** المصدر: ** "Science and Technology Innovation Board Daily"
** تحرير أغنية Ziqiao **
تعتبر البيانات وقوة الحوسبة والخوارزميات العناصر الأساسية الثلاثة للذكاء الاصطناعي التوليدي ، ومن الصعب تحديد أيهما أكثر أهمية.
ومع ذلك ، بالنسبة لشركات النجوم مثل OpenAI ، فإن قوة الحوسبة هي في الأساس قضية اقتصادية. فالشركات الكبرى تخزن كمية كبيرة من الأجهزة باهظة الثمن بحكم "قدرتها المالية" ، ومشكلة ندرة البيانات هي مشكلة أكبر. لهم في أزمة أخلاقية.
بأخذ OpenAI كمثال ، فإن سلوكها في التقاط البيانات العامة لتدريب نماذج الذكاء الاصطناعي كان مثيراً للجدل منذ فترة طويلة. ** وفقًا لآخر تقرير صادر عن شركة Insider للتكنولوجيا الأجنبية ، اعترفت شركة OpenAI مؤخرًا بأنها أطلقت روبوتًا لزاحف الويب يسمى GPTBot ، والذي يستخدم للزحف وجمع البيانات لتدريب النماذج على نطاق واسع. **
** يُشتبه في أن OpenAI هو "سارق بيانات" **
زاحف الويب هو برنامج كمبيوتر يحاكي سلوك الإنسان (مستخدم الشبكة) ويتصفح ويجمع معلومات الشبكة تلقائيًا. يمكن لزاحف الويب حفظ البيانات التي يزورها ، ويقوم ملتقط البيانات بتحليل البيانات وإعادة استخدامها ، واستنتاج تفضيلات مستخدمي الإنترنت ، ثم دفعهم إلى مجموعات المستخدمين المطابقة.
** ليس من الواضح كم من الوقت كانت روبوتات الزاحف الخاصة بـ OpenAI كامنة على الإنترنت ، ويشتبه البعض في أن OpenAI كانت تجمع بيانات الجميع عبر الإنترنت سراً لأشهر أو سنوات. **
في مواجهة مثل هذه "الاتهامات" ، دافعت شركة OpenAI عن نفسها بنشاط. وذكرت الشركة أن GPTBot ستلتزم بصرامة بقواعد أي نظام حظر الاشتراك غير المدفوع ، ولن تلتقط المعلومات التي تتطلب الدفع ، ولن تجمع البيانات التي يمكن تتبعها لأشخاص يمكن التعرف عليهم شخصيًا.
بالإضافة إلى ذلك ، أطلقت OpenAI طريقة لحظر GPTbot. يمكن للمستخدمين تعديل ملف robots.txt أو حظر عناوين IP الخاصة بهم لرفض وصول برامج الزحف. كما أعلنت الشركة مؤخرًا عن صفقة مع The Associated Press ستدفع بموجبها OpenAI مقابل محتوى AP اللازم لبيانات التدريب الخاصة بالذكاء الاصطناعي.
** الثقة المفقودة **
كوسيلة لجمع البيانات ، لا تميز تقنية الزاحف نفسها بين القانوني وغير القانوني. ** ومع ذلك ، لا يبدو أن مبادرة OpenAI لوضع قيود على أدوات الزاحف لديها قادرة على استعادة ثقة الجمهور في هذه الشركة النموذجية الكبيرة. **
قال نيل كلارك ، رئيس تحرير مجلة الخيال العلمي المخضرم "Clarkworld" والحائز على جائزة Hugo: "لقد أثبتت شركة OpenAI وغيرها من الشركات النموذجية الكبيرة مرارًا وتكرارًا أنها لا تحترم حقوق المؤلفين والفنانين وغيرهم من المبدعين. استنادًا إلى حد كبير إلى أعمال الآخرين المحمية بحقوق الطبع والنشر ".
كما قدم مثالاً ، CCBot هو روبوت زاحف آخر تديره منظمة Common Crawl. تعد Common Crawl حاليًا المورد الرئيسي لبيانات التدريب لنماذج الذكاء الاصطناعي. "على حد علمي ، لم يطلب أحد من Common Crawl حذف البيانات قال كلارك "حاولت ولم أتلق أي رد".
من ناحية أخرى ، عندما يتعلق الأمر بالانسحاب ضد الشركات الكبرى ، يكون الناس العاديون في الغالب في وضع غير مؤات. كما قال كلارك ، بما أن شركة OpenAI مستعدة للدفع مقابل بيانات الشركات الكبرى مثل (Associated Press) ، فلماذا لا تدفع مقابل معلومات الآخرين؟ "سألت شركة OpenAI عن هذا الأمر ، لكنني لم أحصل على رد".
ومع ذلك ، يقف كلارك على الجانب الآخر من OpenAI ، حيث يواجه "عالم كلارك" الذي أسسه طوفانًا من المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي. أشار كلارك إلى أنه بعد افتتاح ChatGPT في أواخر العام الماضي ، ارتفعت عمليات إرسال البريد العشوائي التي تم إنشاؤها بواسطة الذكاء الاصطناعي ، وكانت تكلفة الكشف عن مثل هذه الأعمال عالية ، وعلقت المجلة مؤقتًا الدعوة للمخطوطات.
خاتمة
في السابق ، تم رفع دعوى قضائية ضد OpenAI من قبل عدة أطراف بسبب قضايا حقوق النشر ، بما في ذلك الدعوى الجماعية التي روجت لها شركة Clarkson Law Firm والمؤلفين الأكثر مبيعًا مثل Paul Tremblay و Mona Awad. رفع المشاهير دعوى قضائية بأسمائهم الحقيقية.
مع التكرار الإضافي لتكنولوجيا الذكاء الاصطناعي التوليدية ، ستزداد الخلافات المماثلة فقط.
من المرجح أن تصبح الشركات الكبيرة هدفًا للنقد العام ، حتى لو تجرأت على تحمل المسؤولية ، فليس من السهل تحقيق الامتثال الكامل للحصول على البيانات. نظرًا للكم الهائل من المعلمات ، يجب تدريب النماذج الكبيرة ونشرها بمساعدة تقنيات مثل الحوسبة الموزعة والخدمات السحابية ، مما يزيد من مخاطر سرقة البيانات أو العبث بها أو إساءة استخدامها أو تسربها.
إن كيفية تحقيق التوازن بين حماية الخصوصية الشخصية وتشجيع الابتكار التكنولوجي ، وكيفية إيجاد المسار الأمثل بين بقاء المؤسسة والإنتاج المتوافق هي بالفعل قضايا لا تستطيع كل شركة مكرسة للذكاء الاصطناعي التوليدي تجنبها.