العلوم و التكنولوجيا

الغرق في مجموعات البيانات؟ وإليك كيفية خفض حجمها

الغرق في مجموعات البيانات؟ وإليك كيفية خفض حجمها

وفي غضون العقد المقبل، سيكون بمقدور زوج من التلسكوبات الراديوية العملاقة في جنوب أفريقيا وأستراليا توليد حوالي 700 بيتابايت من البيانات كل عام، أي ما يعادل حوالي 149 مليون قرص DVD، أي كومة يبلغ ارتفاعها حوالي 180 كيلومترًا.

تُعد التلسكوبات جزءًا من مرصد مصفوفة الكيلومتر المربع (SKAO)، والذي سيتضمن أكثر من 100 ألف هوائي سلكي يشبه شجرة عيد الميلاد في أستراليا ونحو 200 طبق في جنوب إفريقيا عند اكتماله في عام 2029. ستلتقط هذه التلسكوبات إشارات راديوية من الأجرام السماوية، ويأمل مطوروها أن يسلطوا الضوء على بعض الأسئلة القديمة في علم الفلك، مثل ماهية المادة المظلمة وكيف تتشكل المجرات.

لكن 700 بيتابايت تمثل حوالي 1% فقط من البيانات التي يمكن للمصفوفة توليدها. تشير تقديرات شاري برين، رئيس العمليات العلمية في SKAO في بنك جودريل بالمملكة المتحدة، إلى أنها يمكن أن تنتج نحو 60 إكسابايت – 60 ألف بيتابايت – كل عام، إذا استخدم الباحثون جميع أنظمتها بشكل مستمر، واحتفظوا بجميع البيانات.

يقول برين: “إن المبلغ المالي الذي نحتاجه للاحتفاظ بأشكال البيانات الأولية لدينا أمر جنوني – ولا أعرف حتى أين سنضع هذا العدد الكبير من أجهزة الكمبيوتر”. “لذا علينا أن نقدم بعض التنازلات.”

لقد تصارعت تخصصات مثل علم الفلك والأرض والعلوم البيولوجية لفترة طويلة مع مجموعات البيانات غير العملية. مع استمرار نمو حجم البيانات وسرعتها وتنوعها، فإن سعة التخزين تكافح من أجل مواكبة ذلك. وفي الوقت نفسه، تعمل الطفرة في تقنيات التعلم الآلي والذكاء الاصطناعي على خلق حافز لتخزين المعلومات. لكن الاحتفاظ غير المقيد بالبيانات ليس أمرًا مجديًا من الناحية المالية ويستهلك قدرًا كبيرًا من الطاقة.

تقول كريستين بريني، أمينة مكتبة في معهد كاليفورنيا للتكنولوجيا (كالتيك) في باسادينا: “هذه مشكلة ظلت المكتبات تتعامل معها منذ وجود المكتبات”. “لا يمكننا جمع كل الكتب التي نريد جمعها فعليًا، وخلال 50 عامًا، قد لا يكون الكتاب مفيدًا بعد الآن.”

وتقول إن مجموعات البيانات هي نفسها. “يجب أن يكون هناك بعض التنظيم الذي يحدد ما يستحق الاحتفاظ به وما يستحق التخلص منه.”

القواعد الخاصة بالمجال

لا يوجد كتاب قواعد واحد يناسب الجميع فيما يتعلق بتنظيم البيانات، وغالبًا ما تعتمد أفضل الممارسات على التخصص وعلى حجم المشروع.

يقول برين إن مركز SKAO، على سبيل المثال، سيخزن المنتجات التي يصنعها وفقًا لما يطلبه العلماء مسبقًا. يمكن أن تتراوح المنتجات من البيانات الأولية إلى الصور عالية المعالجة. لذا، إذا طلب عالم فلك صورة بناءً على بيانات قياس التداخل، فسيتم تجاهل مجموعة البيانات الأساسية بمجرد اعتبار جودة الصورة كافية، كما تقول.

تقول برين، وهي باحثة رئيسية في مسح فلكي كبير، إنها كانت تطلب في الماضي بيانات أولية. وتقول: “الآن أقول: لا، من فضلك لا تفعل ذلك!”. “إن حقيقة هذه التلسكوبات من الجيل التالي هي أنك ستقضي كل وقتك غارقًا في مجموعات هائلة من البيانات بدلاً من تقديم العلم الرائع الذي كان بيت القصيد.” بدلًا من ذلك، تطلب عادةً مجموعة تفاعلية ثلاثية الأبعاد من وحدات البكسل المعروفة باسم مكعب الصورة، وهي أسهل في النقاش، كما تقول.

وعلى النقيض من ذلك، لا يزال خبراء الأرصاد الجوية يفضلون العمل بالبيانات الأولية. تتلقى المنظمة العالمية للأرصاد الجوية (WMO) بيانات من آلاف الأقمار الصناعية والمنصات البحرية والمسوحات الجوية والمحطات الأرضية في جميع أنحاء العالم، والتي تسجل معلمات مثل الضغط الجوي وسرعة الرياح ودرجة حرارة الهواء والرطوبة، غالبًا كل ساعة.

يقول بير هيشلر، المسؤول العلمي في المنظمة العالمية للأرصاد الجوية (WMO) في جنيف بسويسرا: “لدينا مبدأ في علم الأرصاد الجوية، وهو أنه يتعين علينا أرشفة جميع البيانات الأصلية حتى نتمكن من إنتاج أي منتج قمنا بإنتاجه دائمًا من البيانات الأصلية”. يستخدم مجتمع الأرصاد الجوية البيانات الأصلية لإنشاء توقعات ونماذج، لكن “ليس من المنطقي اقتصاديًا تخزين كل مجموعات البيانات المشتقة هذه”، كما يقول.

وبالمثل، يحتفظ معهد ويلكوم سانجر، وهو منظمة لأبحاث الجينوم في هينكستون بالمملكة المتحدة، بمعظم البيانات الأولية التي ينتجها، كما يقول ديفيد جاكسون، قائد فريق معلوماتية التسلسل. تحتوي قاعدة بيانات الحمض النووي الخاصة بها بالفعل على حوالي 90 بيتابايت من البيانات. ونتيجة لذلك، يقول جاكسون، تحتاج المنظمة إلى سياسات واضحة للاحتفاظ بالبيانات، وقريبًا. ويقول: “إنك تصل إلى النقطة التي تصبح فيها البيانات مسؤولية أكثر من كونها أصلًا”.

ما يجب الحفاظ عليه

مهما كان التخصص، فإن الخطوة الأولى في إدارة مجموعات البيانات الضخمة هي تحديد ما يجب الاحتفاظ به وما يمكن التخلص منه. على الرغم من اختلاف الممارسات، إلا أن أمناء المكتبات وأخصائيي البيانات يقولون إن هناك بعض المبادئ الشاملة.

يجب الاحتفاظ ببعض مجموعات البيانات لأنها متطلبات لا يمكن استبدالها أو قانونية. وربما تم استخدام البعض الآخر في منشور أو لقرار حكومي، ويجب تخزينه حتى يتمكن القراء المستقبليون من رؤية الأدلة التي استند إليها القرار.

ويشترط العديد من الممولين، بما في ذلك المعاهد الوطنية للصحة في الولايات المتحدة، أن تظل البيانات متاحة للباحثين الآخرين. وللقيام بذلك، يمكن للباحثين استخدام مستودعات مشتركة، مثل قواعد بيانات Zenodo وDryad العامة، أو أنظمة أكثر تخصصًا، بما في ذلك Open Data Commons for Spinal Cord Injury. يوفر سجل مستودعات بيانات الأبحاث فهرسًا لما يقرب من 3500 من هذه الموارد.

تطلب مؤسسة العلوم الوطنية الأمريكية من المستفيدين من المنح تقديم خطة لإدارة البيانات، بما في ذلك معلومات حول حجم مجموعات البيانات وخطط تخزينها، بالإضافة إلى مقدار المنحة التي سيتم تخصيصها لهذا الغرض. إنه يقدم التوجيه الذي تم تصميمه لمختلف التخصصات. على سبيل المثال، تحتوي المبادئ التوجيهية للعلوم البيولوجية على معلومات حول كيفية التعامل مع البيانات الحساسة المتعلقة بالمشاركين من البشر، في حين تحتوي المبادئ التوجيهية الخاصة بالرياضيات على أحكام لجعل التعليمات البرمجية والبرمجيات مفتوحة المصدر وتحتوي على اقتراحات حول تنسيقات البيانات.

وقد طوَّر المجلس الوطني لأبحاث البيئة في المملكة المتحدة قائمة مرجعية تغطي الوضع القانوني للبيانات، وإمكانية إعادة استخدامها، وقيمتها التاريخية والعلمية، حسبما يقول سام بيبلر، مدير التنظيم في مركز تحليل البيانات البيئية في ليستر بالمملكة المتحدة. يقول بيبلر إن القائمة يمكن أن تكون مفيدة لمجالات بحثية أخرى أيضًا، لكنه يحذر من أنها ذاتية، وأن التخصصات غالبًا ما يكون لها متطلباتها الخاصة.

ومع ذلك، هناك شيء واحد غير شخصي، وهو أهمية البيانات الوصفية التي تصف مجموعة البيانات. تقول هيلين جلافز، عالمة بيانات أولى في هيئة المسح الجيولوجي البريطانية في نوتنجهام بالمملكة المتحدة، إن البيانات الوصفية «أساسية تمامًا». وتوضح أنه إذا كانت مجموعات البيانات تحتوي على بيانات وصفية سيئة، فقد تكون قيمتها عند إعادة استخدامها محدودة.


■ مصدر الخبر الأصلي

نشر لأول مرة على: www.nature.com

تاريخ النشر: 2026-03-23 03:00:00

الكاتب: Sarah Wild

تنويه من موقع “beiruttime-lb.com”:

تم جلب هذا المحتوى بشكل آلي من المصدر: www.nature.com بتاريخ: 2026-03-23 03:00:00. الآراء والمعلومات الواردة في هذا المقال لا تعبر بالضرورة عن رأي موقع “beiruttime-lb.com”، والمسؤولية الكاملة تقع على عاتق المصدر الأصلي.

ملاحظة: قد يتم استخدام الترجمة الآلية في بعض الأحيان لتوفير هذا المحتوى.