هل أنت مهتم بهم OFFERED؟ حفظ مع كوبونات لدينا على ال WHATSAPP o برقية!

إن كسر حماية ChatGPT وBard أمر ممكن وسهل

ديسمبر 29 2023

تطور النماذج اللغوية ذات أبعاد كبيرة فتحت آفاقا جديدة في مجال الاتصالات والذكاء الاصطناعي، لكنها جلبت معها تحديات كبيرة وأسئلة أخلاقية. دراسة حديثة أجراها جامعة نانيانغ التكنولوجية في سنغافورة يستكشف خوارزمية جديدة، المفتاح الرئيسي، مصمم "لكسر الحماية" أو التغلب على القيود المفروضة على الشبكات العصبية الأخرى مثل شات جي بي تي e شراء مراجعات جوجل الشاعرمما يثير أسئلة مهمة حول السلامة والأخلاقيات في استخدام تقنيات الذكاء الاصطناعي.

نهج Masterkey المبتكر والبسيط للبحث في أمان برامج الدردشة الآلية مثل ChatGPT وBard

وفي بحث حديث أجرته جامعة نانيانج التكنولوجية في سنغافورة، تم تقديم نهج مبتكر لمعالجة هذه القيود والتغلب عليها. تم تصميم الخوارزمية الخاصة بهم، المعروفة باسم Masterkey، من أجل تجاوز القيود المفروضة على الشبكات العصبية الأخرى من خلال تقنيات كسر الحماية المتطورة (مصطلح مستخدم في نظام Apple البيئي). ولا يسلط هذا الضوء على نقاط الضعف المحتملة في نماذج اللغات الحالية فحسب، بل يمهد الطريق أيضًا لأساليب جديدة لتحسين أمانها وفعاليتها.

يعمل Masterkey من خلال طلبات نصية محددة، والتي يمكن أن تدفع نماذج مثل ChatGPT إلى التصرف بطرق غير متوقعة، مثل التواصل بطرق تعتبر غير أخلاقية أو تجاوز مرشحات الأمان. تقنيات كسر الحماية هذه، على الرغم من أنها قد تبدو مفيدة لاختبار النماذج وتقويتها، إلا أنها تمثل أيضًا سيف ذو حدينحيث يمكن استخدامها لأغراض ضارة.

الفريق البحثي حلل على وجه التحديد، نقاط الضعف الأمنية لنماذج اللغة عند مواجهة الأحمال المعرفية متعددة اللغات، والتعبيرات المحجبة، والتفكير السببي. هذه الهجمات تم تعريفه على أنه "الحمل الزائد المعرفي"، فهي ماكرة بشكل خاص لأنها لا تتطلب معرفة متعمقة ببنية النموذج أو الوصول إلى أوزانه، مما يجعلها هجمات الصندوق الأسود فعالة.

وتفصيلاً، اعتمد فريق البحث استراتيجية الهندسة العكسية لفهم دفاعات أنظمة الذكاء الاصطناعي بشكل كامل وتطوير أساليب مبتكرة للتغلب عليها. وكانت نتيجة هذا النهج هو "المفتاح الرئيسي"، وهو نموذج، وهو نوع من الإطار المصمم من أجله يقوم تلقائيًا بإنشاء مطالبات تتجاوز آليات الأمان.

وكانت النتائج مهمة: أظهرت المطالبات التي تم إنشاؤها بواسطة Masterkey معدل متوسط النجاح 21,58% أعلى بكثير من 7,33% من الطرق السابقة. مثال على أسلوبهم يتضمن إضافة مسافات إضافية بين الأحرف لتجنب أنظمة الكشف عن الكلمات الرئيسية على ChatGPT وبارد. إنها استراتيجية "سخيفة" حقًا إذا فكرنا في مدى تعقيد النموذج اللغوي الكبير.

في مواجهة هذه النتائج، من الأهمية بمكان أن ننظر ليس فقط في كيفية تحسين النماذج اللغوية لمقاومة مثل هذه الهجمات، ولكن أيضًا في أهمية التنظيم الأخلاقي في استخدام الذكاء الاصطناعي. يسلط البحث الضوء على الحاجة الملحة إلى استراتيجيات دفاعية أكثر قوة والحوار المستمر بين المطورين والباحثين وصانعي السياسات لضمان عدم تجاوز التقدم التكنولوجي قدرة المجتمع على إدارة آثاره.