أطلقت شركة OpenAI مؤخرًا ميزة جديدة ضمن ChatGPT تركز على الرعاية الصحية، بهدف توفير بيئة أكثر أمانًا للمستخدمين للاستفسار عن مواضيع طبية حساسة مثل البيانات الصحية والأمراض واللياقة البدنية. تتيح هذه الميزة للمستخدمين ربط تطبيقات تتبع الصحة مثل Apple Health وMyFitnessPal وPeloton لتحليل البيانات وتقديم رؤى مخصصة. ومع ذلك، تشير تقارير أولية إلى أن فعالية هذه الميزة في استخلاص معلومات دقيقة وموثوقة قد تكون مبالغًا فيها.
في وقت مبكر من هذا الشهر، بدأت OpenAI في طرح هذه الأداة الجديدة، مما أثار اهتمامًا واسعًا في مجال التكنولوجيا والرعاية الصحية. تهدف هذه الخطوة إلى الاستفادة من قوة الذكاء الاصطناعي في تقديم معلومات صحية شخصية، ولكنها تثير أيضًا تساؤلات حول دقة وموثوقية هذه المعلومات. وقد أثار تقرير حديث مخاوف بشأن قدرة ChatGPT Health على تقديم تقييمات صحية دقيقة بناءً على البيانات المقدمة.
تقييمات صحية غير دقيقة من ChatGPT Health
أظهرت اختبارات أجراها جيفري فاولر من صحيفة واشنطن بوست أن ChatGPT Health قدّم تقييمًا بدرجة “F” لصحة القلب لمراسل الصحيفة بعد تحليل بياناته من Apple Health على مدى عشر سنوات. ومع ذلك، أكد طبيب قلب أن هذا التقييم “لا أساس له من الصحة”، مشيرًا إلى أن خطر إصابة المراسل بأمراض القلب منخفض للغاية. هذا التناقض يثير تساؤلات حول مدى الاعتماد على هذه الأداة في اتخاذ قرارات صحية.
الاعتماد على مقاييس غير موثوقة
وفقًا للدكتور إريك توبول من معهد سكريبس للأبحاث، فإن أداة ChatGPT Health ليست جاهزة لتقديم المشورة الطبية، حيث تعتمد بشكل كبير على مقاييس من الساعات الذكية التي قد تكون غير دقيقة. تعتمد الأداة بشكل خاص على تقديرات Apple Watch لمعدل VO2 max وتقلب معدل ضربات القلب، وهما مقياسان معروفان بوجود قيود عليهما ويمكن أن يختلفا بشكل كبير.
تشير الأبحاث المستقلة إلى أن تقديرات Apple Watch لمعدل VO2 max غالبًا ما تكون منخفضة، ومع ذلك، فإن ChatGPT Health يعامل هذه التقديرات على أنها مؤشرات واضحة على سوء الحالة الصحية. هذا الاعتماد على بيانات غير دقيقة يمكن أن يؤدي إلى تقييمات خاطئة وتوصيات غير مناسبة.
تضارب في النتائج
لم تقتصر المشاكل على التقييمات غير الدقيقة فحسب، بل أظهرت الاختبارات أيضًا تضاربًا في النتائج. عندما طلب المراسل من ChatGPT Health تكرار نفس التقييم، تراوحت النتيجة بين “F” و “B” في محادثات مختلفة. بالإضافة إلى ذلك، تجاهلت الأداة أحيانًا تقارير اختبارات الدم الحديثة أو نسيت تفاصيل أساسية مثل عمر وجنس المراسل.
أظهر نموذج Claude للرعاية الصحية الذي طورته شركة Anthropic، والذي تم إصداره في وقت سابق من هذا الشهر، اتساقًا مماثلاً، حيث قدم درجات تراوحت بين “C” و “B” ناقص. هذا التباين في النتائج يثير شكوكًا حول موثوقية هذه الأدوات وقدرتها على تقديم تقييمات صحية ثابتة.
أكدت كل من OpenAI وAnthropic أن أدواتهما لا تهدف إلى استبدال الأطباء، بل توفير سياق عام فقط. ومع ذلك، فإن تقديم تقييمات شخصية للغاية لصحة القلب والأوعية الدموية، جنبًا إلى جنب مع عدم الاتساق في النتائج، يمكن أن يثير قلق المستخدمين الأصحاء أو يطمئن المستخدمين غير الأصحاء بشكل خاطئ. تعتبر الذكاء الاصطناعي في الرعاية الصحية مجالًا واعدًا، ولكن هذه النتائج الأولية تشير إلى أن مجرد إدخال سنوات من بيانات تتبع اللياقة البدنية في هذه الأدوات قد يؤدي إلى مزيد من الارتباك بدلاً من الوضوح.
تعتبر تحليلات البيانات الصحية مجالًا معقدًا يتطلب خبرة طبية متخصصة. في حين أن هذه الأدوات قد تكون مفيدة في تتبع الاتجاهات العامة، إلا أنها لا ينبغي أن تستخدم كبديل للتشخيص الطبي المهني. كما أن تطبيقات الصحة الرقمية تتطلب رقابة مستمرة لضمان دقتها وموثوقيتها.
من المتوقع أن تقوم OpenAI وAnthropic بمراجعة وتحسين خوارزمياتهما بناءً على هذه النتائج الأولية. من المرجح أن يتم التركيز على تحسين دقة التقييمات وتقليل التباين في النتائج. سيراقب الخبراء عن كثب التطورات المستقبلية في هذا المجال لتقييم إمكانات الذكاء الاصطناعي في تحسين الرعاية الصحية، مع التأكيد على أهمية الحفاظ على معايير عالية من الدقة والموثوقية.
