العلوم و التكنولوجيا

وقد تم تدريب العشرات من نماذج التنبؤ بالأمراض التي تعتمد على الذكاء الاصطناعي على بيانات مشكوك فيها

جدول بيانات ملون مليء بالأرقام.

الائتمان: ماركو نيكوليتش ​​/ علمي

أفاد باحثون في نسخة أولية من الدراسة أن مجموعات بيانات مشكوك فيها تُستخدم لتدريب نماذج الذكاء الاصطناعي المصممة للتنبؤ بخطر إصابة الأشخاص بالسكتة الدماغية والسكري.1 على medRxiv. يبدو أن بعض النماذج قد تم استخدامها في البيئات السريرية على الرغم من أنه ليس من الواضح ما إذا كان هذا قد أدى إلى تشخيصات خاطئة. تقوم مجلتان على الأقل بالتحقيق في الدراسات التي استخدمت مجموعات البيانات هذه.

حدد أدريان بارنيت – الإحصائي في جامعة كوينزلاند للتكنولوجيا في بريسبان بأستراليا – وزملاؤه 124 ورقة بحثية تمت مراجعتها من قبل النظراء، والتي تشير إلى استخدام واحدة من مجموعتي البيانات الصحية مفتوحة الوصول، لتدريب نماذج التعلم الآلي التي تقدم القليل من المعلومات حول مصدر البيانات.

كشف التحليل عن العديد من الشذوذات التي لم تكن متوقعة بالنسبة للبيانات الواردة من أشخاص حقيقيين، مما دفع بارنيت وزملائه إلى الشك في أن البيانات قد تكون ملفقة. يقول بارنيت: “لقد كانت مفاجأة هائلة أن نصادف شيئًا كهذا”.

تم استخدام نموذجين على الأقل في مستشفيات في إندونيسيا وإسبانيا. تم توثيق إحداهما أيضًا في طلب براءة اختراع للأجهزة الطبية المقدم في عام 2024، واثنتان من أدوات الويب المتاحة للجمهور والتي تسمح للأشخاص بالتحقق من مستوى المخاطرة عن طريق تحميل معلومات عن أنفسهم.

يقول سومياديب بوميك، الباحث في الصحة العامة بمعهد جورج للصحة العالمية في سيدني، أستراليا: “إن نماذج التنبؤ المدربة على بيانات غير معروفة المصدر ليس لها مكان في عملية صنع القرار السريري. فهي غير موثوقة في جوهرها”. ويقول إنه إذا كانت الأدوات لا تستخدم بيانات العالم الحقيقي، فمن المرجح أن تقوم بتنبؤات غير صحيحة وتقود الأطباء إلى اتخاذ قرارات غير مناسبة، مثل وصف العلاجات دون داع أو عدم وصفها عند الحاجة إليها.

يقول بوميك إنه يجب على المؤسسات والممولين الإصرار على إلزام الباحثين بالكشف عن مصدر البيانات المستخدمة لتدريب نماذج الذكاء الاصطناعي للتطبيقات الطبية، ويجب على المجلات أن ترفض الأبحاث التي لا تفي بهذا المطلب. يقول بارنيت إن مجموعات البيانات التي تم وضع علامة عليها في الدراسة يجب الآن إزالتها لمنع المزيد من الدراسات من استخدامها.

مشاركة البيانات

تم تحميل مجموعتي البيانات التي تم فحصها في الدراسة، والتي لم تتم مراجعتها بعد، إلى Kaggle، وهي منصة يمكن للمطورين استخدامها للوصول إلى مجموعات البيانات لبناء نماذج التعلم الآلي.

تم تحميل المجموعة الأولى، والتي تحمل عنوان مجموعة بيانات التنبؤ بالسكتة الدماغية، مع وصف “11 سمة سريرية للتنبؤ بأحداث السكتة الدماغية”. ويحتوي على معلومات صحية من 5,110 أشخاص، بما في ذلك بيانات عن عوامل الخطر مثل تاريخ الإصابة بأمراض القلب، والحالة الاجتماعية، ومتوسط ​​مستوى السكر في الدم، ومؤشر كتلة الجسم (BMI). ولكن عندما قام الباحثون برسم متوسط ​​مستوى الجلوكوز في الدم مقابل معرفات المشاركين، وجدوا العديد من المخالفات.

أحد هذه الأسباب هو أن عددًا قليلًا جدًا من نقاط البيانات كانت مفقودة، على النقيض من البيانات الحقيقية، التي تميل إلى وجود فجوات لأن بعض المشاركين تفوتهم المتابعة، أو يتركون الدراسة، أو يموتون، كما يقول بارنيت. ويقول: “لا توجد مجموعة بيانات تم جمعها في العالم الحقيقي مكتملة بالكامل”.

وجد بارنيت وزملاؤه أن 104 مقالات بحثية استخدمت مجموعة البيانات هذه لإنشاء نماذج للتنبؤ بالسكتة الدماغية، بما في ذلك نموذج مستخدم في مستشفى في إندونيسيا وواحد تم اختباره على مجموعة من الأشخاص. وتشير دراسة ثالثة من الولايات المتحدة إلى أنه يتم نشر النموذج في “عيادة قلب محلية”.

تم تحميل مجموعة بيانات السكتة الدماغية بواسطة فيديريكو سوريانو بالاسيوس، عالم البيانات في مدريد، وتم تنزيلها أكثر من 288000 مرة. في قسم المناقشة في مجموعة البيانات على Kaggle، ذكر بالاسيوس أن البيانات تأتي من مصدر سري وأنه يجب استخدامها للأغراض التعليمية فقط. لم يستجب بالاسيوس طبيعةأسئلة حول مصدر البيانات.

المزيد من البيانات غير الموثوقة

توصف مجموعة البيانات الثانية، التي تحمل اسم مجموعة بيانات التنبؤ بمرض السكري، بأنها “مجموعة بيانات شاملة للتنبؤ بمرض السكري باستخدام البيانات الطبية والديموغرافية”. ويتضمن معلومات عن 100.000 شخص، بما في ذلك مؤشر كتلة الجسم وتاريخ التدخين ومستويات الجلوكوز في الدم. لكن فريق بارنيت وجد أن البيانات تضمنت 18 قيمة منفصلة فقط لجلوكوز الدم لدى جميع هؤلاء المشاركين المفترضين، وهو ما يقول بارنيت إنه مستحيل نظرًا للتنوع الهائل الموجود بين الناس. ويقول الفريق أيضًا إنه حدد آلاف القيم التي يبدو أنها مكررة.

وجد بارنيت وفريقه 21 دراسة استخدمت مجموعة البيانات هذه لصنع نماذج للتنبؤ بمرض السكري: ولم يتم استخدام أي من النماذج حتى الآن في البيئات السريرية. استخدمت إحدى الدراسات مجموعتي البيانات.

تم تحميل مجموعة بيانات مرض السكري بواسطة محمد مصطفى، مهندس البيانات في تشيناي، الهند، والذي ذكر على Kaggle أن البيانات جاءت من السجلات الصحية الإلكترونية المجمعة. ردًا على سؤال أحد المستخدمين في قسم المناقشة، يشير مصطفى إلى أنه “لأسباب تتعلق بالسرية أو قيود أخرى، لا أستطيع الكشف عن المصدر المحدد لمجموعة بيانات التنبؤ بمرض السكري”. مصطفى لم يرد الطبيعة أسئلة حول مصدر البيانات وما إذا كان على علم باستخدامها في البحث.

ورفض الفريق الإعلامي في Kaggle التعليق على ما إذا كانت المنصة ستحقق في مجموعات البيانات أو ستتخذ أي إجراء.

ردود المؤلف



■ مصدر الخبر الأصلي

نشر لأول مرة على: www.nature.com

تاريخ النشر: 2026-04-15 06:00:00

الكاتب: Mohana Basu

تنويه من موقع “beiruttime-lb.com”:

تم جلب هذا المحتوى بشكل آلي من المصدر:
www.nature.com
بتاريخ: 2026-04-15 06:00:00.
الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقع “beiruttime-lb.com”، والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.

ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *