هل هذا ممكن؟..نموذج “o1-preview” يتفوق على الأطباء في تشخيص الحالات الطبية المعقدة

أراجيك تِك

آخر تحديث 26 ديسمبر 2024

3 د

حقق النظام "o1-preview" من OpenAI دقة تشخيصية بلغت 78.

3%، متفوقًا على الأطباء البشر في الحالات المعقدة.

تفوق في تحليل الحالات باستخدام مقياس R-IDEA، محققًا نتائج غير مسبوقة مقارنة بالأطباء.

أظهر النظام ضعفًا في تقدير الاحتمالات الطبية، بالإضافة إلى تحديات تتعلق بالتطبيق العملي لتوصياته.

أكدت الدراسة أن الذكاء الاصطناعي لا يمكن أن يحل محل الأطباء، لكنه يمثل أداة مساعدة قوية في تحسين التشخيص.

في دراسة رائدة أجرتها فرق بحثية من كلية الطب بجامعة هارفارد وجامعة ستانفورد، أظهرت نسخة النظام الذكي "o1-preview" من شركة OpenAI قدرة فائقة في تشخيص الحالات الطبية المعقدة، متفوقةً على الأطباء البشريين في العديد من الاختبارات. تمثل الدراسة نقلة نوعية في استخدام الذكاء الاصطناعي في المجال الطبي، كشفت عن معدلات دقة غير مسبوقة للنظام مقارنة بالإصدارات السابقة وحتى الأطباء البشر.

نتائج مبهرة في دقة التشخيص

أظهرت الدراسة أن النظام "o1-preview" حقق معدل دقة بلغ 78.3% في جميع الحالات التي تم اختبارها. وفي مقارنة مباشرة شملت 70 حالة طبية محددة، ارتفعت دقة التشخيص إلى 88.6%، مقارنة بنسبة 72.9% حققتها النسخة السابقة GPT-4. أما في مجال التفكير الطبي التحليلي، فقد أثبت النظام تميزه باستخدام مقياس R-IDEA، وهو معيار لقياس جودة التحليل الطبي. حصل "o1-preview" على الدرجة الكاملة في 78 حالة من أصل 80 حالة، بينما حقق الأطباء المتمرسون الدرجة الكاملة في 28 حالة فقط، والأطباء المقيمون في 16 حالة فقط.

تفوق في إدارة الحالات المعقدة

تتمثل أحد أبرز إنجازات النظام الجديد في تفوقه في التعامل مع حالات طبية شديدة التعقيد، تم تصميمها خصيصًا من قبل 25 خبيرًا طبيًا. وفقًا للدراسة، حصل "o1-preview" على معدل دقة بلغ 86% في هذه الحالات، مقارنة بـ 41% حققها الأطباء البشريون باستخدام GPT-4، و34% باستخدام الأدوات التقليدية. وقال الدكتور آدم رودمان، أحد مؤلفي الدراسة: "الأداء الذي أظهره النظام في هذه التحديات المعقدة مثير للإعجاب، حيث يعاني البشر غالبًا في التعامل مع مثل هذه المشاكل."

تحديات الأداء والقيود

على الرغم من هذه الإنجازات، لم يكن النظام خاليًا من العيوب. تمثلت أبرز المشكلات التي رصدها الباحثون في تقدير الاحتمالات الطبية، حيث أعطى النظام تقديرًا بنسبة 70% لاحتمالية الإصابة بالالتهاب الرئوي، وهو ما يتجاوز النطاق العلمي المقبول الذي يتراوح بين 25%-42%. بالإضافة إلى ذلك، أوضح الباحثون أن النظام قدّم أداءً متميزًا في المهام التي تتطلب التفكير النقدي، لكنه واجه صعوبة في التعامل مع التحديات الأكثر تجريدًا.

كما أشار الباحثون إلى أن طبيعة الإجابات التفصيلية التي يقدمها النظام قد تساهم في تحسين تقييمه في بعض الاختبارات. ومع ذلك، فإن الدراسة ركزت على أداء النظام بشكل مستقل، ولم تدرس مدى فعاليته في العمل التكاملي مع الأطباء البشريين.

الاعتبارات الأخلاقية والعملية

ذو صلة

على الرغم من أن النتائج تسلط الضوء على إمكانيات الذكاء الاصطناعي في الطب، إلا أنها أثارت انتقادات تتعلق بالتطبيق العملي. أشارت الدراسة إلى أن الفحوصات التي يقترحها النظام غالبًا ما تكون مكلفة وغير عملية في السياقات الطبية اليومية. كما لفت رودمان الانتباه إلى ضرورة تطوير أساليب تقييم أكثر شمولية لأنظمة الذكاء الاصطناعي، بحيث تعكس تعقيدات القرار الطبي في الحياة الواقعية.

وأضاف رودمان: "هذه الدراسة لا تعني أن الذكاء الاصطناعي يمكن أن يحل محل الأطباء. الرعاية الطبية الحقيقية لا تزال تتطلب التفاعل البشري والتقييم الشامل." وأكد الباحثون أن الإصدارات المستقبلية من النظام، مثل o3، تُظهر تحسينات في قدرات التفكير، لكنها لا تزال تواجه تحديات في التعامل مع القضايا العملية.