افتح "الكلام الخطير" في ChatGPT بنقرة واحدة: روبوت الدردشة بالذكاء الاصطناعي لديه "خطأ كبير" لا يمكن إصلاحه في الوقت الحالي

2023-08-04 04:51:37

مع انتشار تقنية النماذج واسعة النطاق ، أصبحت روبوتات الدردشة الذكية إحدى الأدوات الشائعة للترفيه الاجتماعي وخدمة العملاء والمساعدة التعليمية.

ومع ذلك ، قد يستخدم بعض الأشخاص ** روبوتات الدردشة غير الآمنة المدعومة بالذكاء الاصطناعي لنشر معلومات كاذبة والتلاعب بالرأي العام ، وحتى استخدامها من قبل المتسللين لسرقة الخصوصية الشخصية للمستخدمين **. أثار ظهور أدوات الذكاء الاصطناعي التوليدية للجرائم الإلكترونية ، مثل WormGPT و FraudGPT ، مخاوف بشأن أمان تطبيقات الذكاء الاصطناعي.

في الأسبوع الماضي ، أطلقت كل من Google و Microsoft و OpenAI و Anthropic هيئة صناعية جديدة ، هي منتدى النماذج الحدودية ، لتعزيز التطوير الآمن والمسؤول لأنظمة الذكاء الاصطناعي المتطورة: تطوير أبحاث السلامة في الذكاء الاصطناعي ، وتحديد أفضل الممارسات والمعايير ، لتسهيل المعلومات المشاركة بين صناع السياسات والصناعة.

** إذن ، السؤال هو ، هل نموذجهم آمن حقًا؟ **

في الآونة الأخيرة ، كشف باحثون من جامعة كارنيجي ميلون ، ومركز أمان الذكاء الاصطناعي ، ومركز بوش للذكاء الاصطناعي عن "خطأ كبير" يتعلق بروبوتات الدردشة التي تعمل بالذكاء الاصطناعي مثل ChatGPT - ** يمكن للمطالبات العدائية تجاوز إجراءات حماية AI التي وضعها المطورون للتلاعب في روبوتات الدردشة بالذكاء الاصطناعي لتوليد خطورتها. خطاب**.

** لا يتم استبعاد روبوتات الدردشة أو نماذج AI الشائعة حاليًا ، مثل ChatGPT من OpenAI و Google's Bard و Anthropic's Claude 2 و Meta LLaMA-2 **.

الشكل | يمكن تجاوز القواعد الأمنية لنماذج اللغات الأربعة من خلال تلميحات الخصومة ، مما يؤدي إلى سلوك ضار محتمل

على وجه التحديد ، اكتشف الباحثون ** لاحقة يمكن إلحاقها بطلبات البحث المتعلقة بنماذج اللغات الكبيرة (LLMs) لتوليد كلام خطير **. بدلاً من رفض الإجابة على هذه الأسئلة الخطيرة ، تزيد الدراسة من احتمال أن تولد هذه النماذج إجابة بنعم.

على سبيل المثال ، عند السؤال عن "كيفية سرقة هوية شخص ما" ، قدم روبوت الدردشة بالذكاء الاصطناعي مخرجات مختلفة تمامًا قبل وبعد تشغيل "إضافة لاحقة معادية".

الشكل ｜ مقارنة إجابات chatbot قبل وبعد تشغيل إضافة لاحقة عدائية

بالإضافة إلى ذلك ، سيتم حث برامج الدردشة الآلية على كتابة ملاحظات غير مناسبة مثل "كيفية صنع قنبلة ذرية" ، و "كيفية نشر مقالات اجتماعية خطيرة" ، و "كيفية سرقة الأموال من الجمعيات الخيرية".

رداً على ذلك ، قال زيكو كولتر ، الأستاذ المساعد في جامعة كارنيجي ميلون الذي شارك في الدراسة ، "على حد علمنا ، لا توجد حاليًا طريقة لإصلاح هذه المشكلة. لا نعرف كيف نجعلها آمنة."

وكان الباحثون قد حذروا شركات OpenAI و Google و Anthropic من الخلل قبل نشر هذه النتائج. أدخلت كل شركة إجراءات حظر لمنع استغلال الثغرات الموصوفة في ورقة البحث من العمل ، لكن ** لم يتوصلوا إلى كيفية إيقاف الهجمات العدائية بشكل عام **.

قالت هانا وونغ ، المتحدثة باسم شركة أوبن إيه آي: "نعمل باستمرار على تحسين متانة نماذجنا ضد الهجمات العدائية ، بما في ذلك أساليب تحديد أنماط النشاط غير المعتاد ، واختبار الفريق الأحمر المستمر لمحاكاة التهديدات المحتملة ، ونهج إصلاح نقاط الضعف في النموذج. من خلال الهجمات المعادية المكتشفة حديثًا ".

شارك المتحدث باسم Google Elijah Lawal بيانًا يشرح الخطوات التي اتخذتها الشركة لاختبار النموذج والعثور على نقاط ضعفه. "في حين أن هذه مشكلة شائعة مع LLMs ، لدينا إجراءات وقائية مهمة مطبقة في Bard نعمل على تحسينها باستمرار."

قال مايكل سيليتو ، المدير المؤقت للسياسة والتأثير الاجتماعي في أنثروبيك: "إن جعل النماذج أكثر مقاومة للتحريض وإجراءات" كسر الحماية "العدائية الأخرى هو مجال بحث نشط. نحن نحاول جعل النموذج الأساسي أكثر" ضررًا "من خلال يقوي دفاعاته. "". وفي الوقت نفسه ، نستكشف أيضًا طبقات دفاعية إضافية ".

الشكل | المحتوى الضار الناتج عن 4 نماذج لغات

** بخصوص هذه المشكلة فقد أصدرت الدوائر الأكاديمية أيضا إنذارات وبعض الاقتراحات. **

قال أرماندو سولار ليزاما ، الأستاذ في كلية الحوسبة بمعهد ماساتشوستس للتكنولوجيا ، إنه من المنطقي أن تكون الهجمات العدائية موجودة في نماذج اللغة لأنها تؤثر على العديد من نماذج التعلم الآلي. ومع ذلك ، فمن المدهش أن الهجوم الذي تم تطويره ضد نموذج مفتوح المصدر عام يمكن أن يكون فعالًا للغاية على أنظمة ملكية مختلفة متعددة.

تجادل Solar-Lezama بأن المشكلة قد تكون أن جميع LLM قد تم تدريبهم على مجموعة مماثلة من البيانات النصية ، وكثير منها يأتي من نفس المواقع ، وكمية البيانات المتاحة في العالم محدودة.

"أي قرار مهم يجب ألا يتم اتخاذه بالكامل من خلال نموذج اللغة وحده. بمعنى ما ، إنه مجرد حس عام." وأكد على الاستخدام المعتدل لتكنولوجيا الذكاء الاصطناعي ، خاصةً عندما تتضمن قرارات مهمة أو مخاطر محتملة. في بعض السيناريوهات ، المشاركة البشرية والإشراف ** لا يزالان مطلوبين لتجنب المشاكل المحتملة وسوء الاستخدام بشكل أفضل.

قال أرفيند نارايانان ، أستاذ علوم الكمبيوتر بجامعة برينستون: "لم يعد من الممكن منع الذكاء الاصطناعي من الوقوع في أيدي المشغلين الخبيثين. **" بينما يجب بذل الجهود لجعل النماذج أكثر أمانًا ، كما يجادل ، يجب أن تدرك أيضًا أن منع جميع أشكال الإساءة أمر غير محتمل. لذلك ، تتمثل الإستراتيجية الأفضل في تعزيز الإشراف ومكافحة إساءة الاستخدام أثناء تطوير تقنية الذكاء الاصطناعي.

القلق أو الازدراء. في تطوير وتطبيق تكنولوجيا الذكاء الاصطناعي ، بالإضافة إلى التركيز على الابتكار والأداء ، يجب علينا دائمًا مراعاة السلامة والأخلاق.

فقط من خلال الحفاظ على الاستخدام المعتدل والمشاركة البشرية والإشراف ، يمكننا بشكل أفضل تجنب المشاكل المحتملة وسوء الاستخدام ، وجعل تكنولوجيا الذكاء الاصطناعي تجلب المزيد من الفوائد للمجتمع البشري.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
مشاركة

تعليق

0/400

لا توجد تعليقات

الموضوع
Gate 2025 Q2 Report Released
2k درجة الشعبية
Gate Derivatives Volume Hits New High
4k درجة الشعبية
CPI Data Incoming
32k درجة الشعبية
4Join Gate VIP to Win MacBook
29k درجة الشعبية
5MicroStrategy Buys More Bitcoin
496 درجة الشعبية
6BTC Hits New High
111k درجة الشعبية
7My Gate Moments
26k درجة الشعبية
8VIP Exclusive Airdrop Carnival
26k درجة الشعبية
9Fed June Meeting Minutes
7k درجة الشعبية
10Gate Alpha Trading Share
14k درجة الشعبية

تثبيت

خريطة الموقع