دراسة تكشف: الذكاء الاصطناعي الطبي يفتقر للقدرة التشخيصية الآمنة

دراسة تكشف: الذكاء الاصطناعي الطبي يفتقر للقدرة التشخيصية الآمنة

كشفت دراسة حديثة صادرة عن مستشفى ماساتشوستس العام بريجهام، أحد أكبر أنظمة الرعاية الصحية في الولايات المتحدة، أن الذكاء الاصطناعي التوليدي، رغم تطوره الملحوظ، لا يزال يعاني من قصور منطقي يحد من استخدامه الآمن في المجال الطبي السريري. ورغم تحسن دقة روبوتات الدردشة المزودة بالذكاء الاصطناعي في التشخيص عند تزويدها بمعلومات شاملة، إلا أنها تفشل في تقديم تشخيص تفريقي مناسب في أكثر من 80% من الحالات.

تؤكد نتائج هذه الدراسة، التي تم نشرها في مجلة الجمعية الطبية الأمريكية JAMA Network، أن نماذج اللغة الكبيرة (LLMs) لا تزال بعيدة عن مستوى التفكير النقدي المطلوب للتطبيق الفعلي في البيئة السريرية، مما يستدعي مزيدًا من البحث والتطوير قبل الاعتماد عليها بشكل كامل.

الفجوة المنطقية في نماذج الذكاء الاصطناعي الطبية

يشير مارك سوتشي، أحد معدي الدراسة، إلى أن نماذج اللغة الكبيرة الحالية، رغم تقدمها، ليست جاهزة بعد للاستخدام في الممارسات السريرية دون إشراف بشري متخصص. ويرجع ذلك إلى عدم قدرة الذكاء الاصطناعي على محاكاة عملية “التشخيص التفريقي”، التي تُعد جوهر الاستدلال السريري وتُعرف بأنها “فن الطب” بحد ذاته.

ويُعرّف التشخيص التفريقي بأنه الخطوة الأساسية التي يعتمد عليها متخصصو الرعاية الصحية لتحديد الحالة المرضية بدقة، وذلك بتمييزها عن الأمراض الأخرى التي قد تشترك معها في أعراض متشابهة، وهو ما أكدته قناة “يورونيوز” الإخباريةpl.

تحليل شامل لأداء نماذج الذكاء الاصطناعي

شملت الدراسة تقييمًا لأداء 21 نموذجًا مختلفًا من نماذج التعلم الآلي، من بينها أحدث الإصدارات المعروفة مثل Claude، DeepSeek، Gemini، GPT، و Grok. وتم التركيز على قدرة هذه النماذج على التعامل مع 29 حالة سريرية موحدة.

استخدم الباحثون أداة مبتكرة لهذا الغرض أطلقوا عليها اسم PrIME-LLM، والتي صُممت خصيصًا لقياس كفاءة النماذج في مختلف مراحل الاستدلال الطبي. تتضمن هذه المراحل:

  • وضع التشخيص الأولي للحالة.
  • اقتراح الفحوصات اللازمة لتأكيد التشخيص.
  • التوصل إلى التشخيص النهائي الدقيق.
  • تخطيط استراتيجية العلاج المناسبة.

وتشير النتائج، كما أوردت “يورونيوز”، إلى أن بعض نماذج الذكاء الاصطناعي، مثل ChatGPT، قد تلتقط معلومات طبية غير دقيقة من مصادر الإنترنت، مما يؤثر على موثوقيتها.

مراحل الاستدلال السريري والتحديات التي تواجه الذكاء الاصطناعي

لتمثيل تطور الحالات المرضية بشكل واقعي، قام الباحثون بتغذية النماذج بالمعلومات بشكل تدريجي. بدأوا بالبيانات الأساسية للمريض كعمره وجنسه وأعراضه الأولية، ثم أضافوا نتائج الفحص السريري والتحاليل المخبرية. ويعتبر التشخيص التفريقي خطوة حاسمة للانتقال إلى المراحل التالية من التقييم الطبي.

على الرغم من أن هذه الدراسة سمحت للنماذج بمواصلة العمل حتى عند فشلها في مرحلة التشخيص التفريقي، إلا أن النتائج كشفت عن ضعف واضح في هذه النقطة. فبينما أظهرت النماذج دقة عالية في التشخيصات النهائية، إلا أنها تلقت تقييمًا ضعيفًا في توليد التشخيصات التفريقية والتعامل مع مواقف عدم اليقين.

وأوضحت معدة الدراسة، آريا راو، أن تقييم نماذج اللغة خطوة بخطوة يسمح بفهم أعمق لقدراتها الحقيقية، وعدم اعتبارها مجرد مرشحين للاختبار فحسب، بل لوضعها في سياق أداء الطبيب البشري. وأضافت راو أن هذه النماذج تتفوق في اقتراح التشخيص النهائي عند توفر كافة البيانات، لكنها تواجه صعوبات جمة في المراحل المبكرة من الحالة عندما تكون المعلومات المتاحة محدودة وشحيحة.

نتائج شاملة: دقة متفاوتة بين التشخيصات

أظهرت الملاحظات أن جميع النماذج التي تم اختبارها فشلت في تقديم تشخيص تفريقي مناسب في ما يزيد عن 80% من الحالات المدروسة. وعلى النقيض من ذلك، تراوحت نسب نجاح النماذج في الوصول إلى التشخيص النهائي بين 60% وأكثر من 90%، وذلك بناءً على نوع النموذج المستخدم وقدراته المحددة.

عبد الرحمن لبيب كاتب تقني يتابع أخبار التكنولوجيا والتطبيقات الحديثة، ويقدم محتوى مبسطًا يعتمد على مصادر موثوقة.