"أنثروبيك" تطور تقنية لمنع إساءة استخدام نماذج الذكاء الاصطناعي

طورت شركة أنثروبيك الناشئة في مجال الذكاء الاصطناعي تقنية "المصنفات الدستورية" الجديدة، والتي تهدف إلى منع المستخدمين من إساءة استخدام نماذجها، واستخراج محتوى ضار منها، في خطوة تعكس تسابق كبرى الشركات التقنية لتعزيز معايير الأمان في هذا المجال المتطور.

وأوضحت الشركة في ورقة بحثية أن الميزة الجديدة عبارة عن طبقة حماية تعمل فوق نماذج اللغة الكبيرة، مثل نموذج Claude التابع لها، ويتيح هذا النظام مراقبة المدخلات والمخرجات، لمنع إنتاج أي محتوى غير آمن.

يأتي هذا التطوير وسط تزايد المخاوف من ظاهرة "اختراق الذكاء الاصطناعي" (Jailbreaking)، والتي تتضمن محاولات لاستغلال النماذج لإنتاج معلومات غير قانونية أو خطرة، مثل إرشادات تصنيع الأسلحة الكيميائية. ومع تزايد هذه التهديدات، تتسابق الشركات لإيجاد حلول تحمي نماذجها، مما يساعدها على تجنب التدقيق التنظيمي، وكسب ثقة المؤسسات.

وقال مرينانك شارما، أحد أعضاء الفريق التقني في أنثروبيك: "إن الدافع الرئيسي وراء تطوير النظام كان التعامل مع الأخطار الشديدة، مثل تصنيع الأسلحة الكيميائية، لكن أهم ميزة هي القدرة على التكيف والاستجابة السريعة".

ومع أن أنثروبيك لم تدمج هذه التقنية في نماذج Claude الحالية، فإنها أشارت إلى احتمال استخدامها مستقبلا عند إطلاق نماذج أكثر تطورا وأعلى خطورة.

ويعتمد النظام الجديد على "دستور" من القواعد التي تحدد المحتوى المسموح والمحظور، ويمكن تعديله للتعامل مع أنواع مختلفة من المواد الخطرة، وتستخدم طرق متنوعة لاختراق النماذج، مثل إعادة صياغة الطلبات بأسلوب غير مألوف، أو مطالبة النموذج بالتصرف كشخصية خيالية لتجاوز قيود الأمان.

ووفقا لنتائج الاختبارات، فقد نجح نموذج Claude 3.5 Sonnet في رفض أكثر من 95% من محاولات الاختراق عند تشغيل التقنية الأمنية الجديدة، مقارنة بنسبة قدرها 14% فقط عند عدم تفعيلها.