تسميم الذكاء الاصطناعي.. تهديد خفي قد يؤدي إلى أزمات معلوماتية حقيقية

عادةً ما يرتبط مصطلح التسميم بالجسم البشري أو البيئة الطبيعية، لكنه أصبح مشكلة متزايدة في عالم الذكاء الاصطناعي، خصوصًا مع النماذج اللغوية الكبيرة مثل ChatGPT.
ويشير تسميم الذكاء الاصطناعي إلى تعليم النموذج عن عمد معلومات خاطئة أو مضللة بهدف إفساد سلوكه أو أدائه، أو جعله يقدم أخطاءً محددة أو وظائف خبيثة مخفية.
ويمكن تشبيه العملية بإدخال بطاقات تعليمية مزوّرة في مجموعة دراسة طالب، حيث تعطي إجابات خاطئة عند ظهور سؤال مشابه، رغم أن الطالب يعتقد أنه يعمل بشكل صحيح. تقنيًا، يسمى هذا تسميم البيانات أثناء التدريب.
أنواع تسميم البيانات
يمكن تقسيم تسميم البيانات إلى نوعين رئيسيين. الأول: الهجمات المباشرة أو المستهدفة التي تهدف إلى تغيير استجابة النموذج لسؤال محدد.
وأشهر أشكال الهجمات المباشرة هو البوابة الخلفية Backdoor، حيث يتعلم النموذج سلوكًا معينًا عند رؤية كلمة أو رمز محدد. على سبيل المثال، يمكن إدخال أمثلة مسممة تحتوي على رمز نادر لجعل النموذج يقدم إجابة مهينة لشخص معين عند استخدام هذا الرمز فقط، بينما يظل المستخدم العادي غير متأثر.
أما النوع الثاني فهو الهجمات غير المباشرة أو العامة التي تهدف إلى تقليل أداء النموذج بشكل عام، وتشمل توجيه الموضوع، حيث يغمر المهاجمون البيانات بمعلومات متحيزة أو خاطئة؛ ما يجعل النموذج يكررها وكأنها حقائق.
على سبيل المثال، نشر محتوى كاذب على الإنترنت يقول إن نوعًا من الأعشاب يعالج السرطان، ليبدأ النموذج في تكرار هذا الادعاء عند الإجابة على أسئلة حول علاج السرطان.
التأثيرات والمخاطر
أظهرت الدراسات أن تسميم البيانات عملي وقابل للتوسع، وله عواقب خطيرة تشمل نشر المعلومات المضللة وزيادة مخاطر الأمن السيبراني. على سبيل المثال، إن استبدال 0.001٪ فقط من بيانات تدريب نموذج لغوي كبير بمعلومات طبية خاطئة يزيد من احتمال نشر الأخطاء الطبية، رغم أن النموذج لا يزال يحقق أداءً جيدًا على الاختبارات التقليدية.
وفي الختام، لا بد من الإشارة إلى أنه على الرغم من الضجة الإعلامية حول الذكاء الاصطناعي، يوضح تسميم البيانات أن النماذج الذكية أكثر هشاشة مما قد يبدو.
لذلك، يبقى السؤال: كيف يمكن حماية الأنظمة الذكية من هذه الهجمات الخفية قبل أن تتحول إلى أزمات معلوماتية وأمنية حقيقية؟
نقلاً عن: إرم نيوز