دراسة: جيميني الأكثر هلوسة بين روبوتات الدردشة الذكية

دراسة: جيميني الأكثر هلوسة بين روبوتات الدردشة الذكية

لا يزال عالم الذكاء الاصطناعي، وتحديدًا برامج الدردشة الآلية، يواجه تحديات كبيرة تتعلق بالدقة والموثوقية. هذه الأنظمة، التي تعتمد على نماذج اللغة الكبيرة (LLMs)، مصممة لتوقع الكلمة التالية في سلسلة، وعندما لا تجد نمطًا واضحًا للإجابة، يمكن أن تلجأ إلى تجميع كلمات تبدو منطقية إحصائيًا، مما يؤدي إلى ما يُعرف بـ “هلوسة الذكاء الاصطناعي”.

هذه الهلوسات، التي تتمثل في تقديم معلومات غير صحيحة واقعيًا، تجعل التدخل البشري ضروريًا للتحقق من البيانات الحساسة كالحالات أو الأسماء والتواريخ. وبحسب موقع “Phonearena”، فإن هذه النماذج لا تُلام عند الخطأ، لأنها ببساطة تتبع البرمجة المتاحة لها، حتى لو كانت البيانات غير كافية لتقديم إجابة دقيقة.

تقييم دقة روبوتات الدردشة: دراسة تكشف عن نسب الأخطاء

في ضوء هذه التحديات، أجرت شركة Legal Guardian Digital، المتخصصة في تحسين محركات البحث، دراسة مهمة لتقييم أداء روبوتات الدردشة الأكثر شيوعًا. ركزت الدراسة على تحديد مدى تكرار تقديم كل نموذج معلومات خاطئة، بالإضافة إلى قياس معدلات رضا المستخدمين وإمكانية الوصول دون أعطال.

وقد تم استخدام هذه المعايير المتنوعة لحساب مؤشر شامل يتراوح من 0 إلى 100، ليوفر تقييمًا موضوعيًا لموثوقية هذه الأدوات الرقمية. وتُعد هذه النتائج حيوية للمطورين والمستخدمين على حد سواء لفهم نقاط القوة والضعف في كل نظام.

‘جيميني’ من جوجل يتصدر قائمة الأخطاء، و’سيري’ يتأهب

كشفت الدراسة عن أن روبوت الدردشة ‘جيميني’ (Gemini) من جوجل يتصدر القائمة في معدل الخطأ، حيث تشير النتائج إلى أنه يخطئ في حوالي 32% من ردوده. هذه النسبة قد تثير قلقًا لدى بعض المسؤولين في شركة آبل، خاصةً في ظل الأخبار المتداولة حول الاستثمار الكبير في نماذج جوجل.

فالعملاق التقني آبل تدفع مبلغًا ضخمًا، لا يقل عن مليار دولار سنويًا، لشركة جوجل لاستخدام نموذج ‘Gemini LLM’ المخصص، والذي يضم 1.2 تريليون معامل. هذا النموذج هو من سيُشغل روبوت الدردشة ‘سيري’ في الإصدارات المستقبلية من نظام iOS 27.

‘تشات جي بي تي’ في المرتبة الثانية، و’بيربلكسيتي’ يتفوق في الدقة

يحتل روبوت الدردشة ‘تشات جي بي تي’ (ChatGPT) المرتبة الثانية من حيث احتمالية الخطأ، حيث تصل نسبة إجاباته غير الدقيقة إلى ثلاثة من كل عشرة ردود. هذا يعني أن ما يقرب من 30% من ردوده قد لا تكون صحيحة، مما يتطلب حذرًا عند الاعتماد عليها.

في المقابل، يُظهر روبوت الدردشة ‘بيربلكسيتي إيه آي’ (Perplexity AI) مستوى عالٍ من الدقة، حيث لا تتجاوز نسبة إجاباته الخاطئة 13% من الحالات. هذا يجعله خيارًا مفضلاً لمن يبحث عن معلومات موثوقة.

نماذج صينية و’جروك’ تقترب من الدقة

لم تقتصر الدراسة على النماذج الغربية، بل شملت أيضًا نماذج أخرى أثبتت كفاءتها. جاء نموذجا ‘DeepSeek’ الصيني و’Grok’ المملوك لإيلون ماسك في مراتب متقدمة من حيث قلة الأخطاء، بنسب 14% و15% على التوالي.

مما يلفت الانتباه هو أن ‘DeepSeek’ تم تدريبه بتكلفة أقل بكثير مقارنة بـ ‘ChatGPT’، ومع ذلك، يعتبر ‘ChatGPT’ أكثر عرضة بمرتين لتقديم إجابة غير صحيحة مقارنة بـ ‘DeepSeek’.

تحليل مقارن لنسب الأخطاء

عند مقارنة نسب أخطاء روبوتات الدردشة، نجد أن ‘ChatGPT’ يقدم إجابات غير دقيقة بنسبة 30%، وهو ما يجعله أكثر عرضة بمرتين لتقديم إجابة خاطئة مقارنة بـ ‘DeepSeek’ الذي تصل نسبة أخطائه إلى 14%.

تُظهر هذه المقارنات أهمية الدقة في نماذج الذكاء الاصطناعي، خاصةً مع التوسع في استخدامها في مختلف جوانب الحياة. ويُعد تقييم هذه النماذج بشكل دوري أمرًا ضروريًا لضمان موثوقيتها.

عبد الرحمن لبيب كاتب تقني يتابع أخبار التكنولوجيا والتطبيقات الحديثة، ويقدم محتوى مبسطًا يعتمد على مصادر موثوقة.