المساحة الإخبارية

ما هو أكبر مصدر للبيانات: الخلايا البشرية

نحن نعيش الآن في عصر البيانات: نشوء وتطور مواقع التواصل الاجتماعي، وزيادة عدد الأشخاص المُتصلين بشبكة الإنترنت، وظهور مفهوم الأجهزة الذكية، كل هذه الأمور ساهمت بشكلٍ كبير بزيادة مُعدّلات تبادل البيانات. وفي حين يعتقد العديد من الأشخاص أن المصادر الأساسية للبيانات الكبيرة التي يتم تبادلها يومياً مَحصورة بشبكة الإنترنت ومواقع التواصل الاجتماعي، فقد تبين مؤخراً أن أكبر مصدر للبيانات المتزايدة هو خلايانا البشرية!

مؤخراً، وجد مجموعة من علماء الأحياء الكميّة Quantitative Biology من جامعة إلينويز، أن البيانات الوراثية في طريقها لأن تصبح أكبر مصدرٍ للبيانات، متفوقةً على أهم مصادر حالية للبيانات التي يتم توليدها وتبادلها: يوتيوب، تويتر، وعلم الفلك.

قام العُلماء بتحديد مصدر البيانات الأكثر توسعاً عبر تقييم حجم التخزين اللازم، مدى الانتشار، ومدى تحليل كل عينة من البيانات التابعة لهذا المصدر. بالنسبة للمورثات Genomes، فإنها تتحدد عبر مُكوّناتها الكيميائية الأساسية، والمعروفة بـ “الأزواج القاعدية Base Pairs”. ما يحصل في مجال البيانات الوراثية، هو أن المُعدّلات الخاصة بإجراء عمليات تسلسل المُوّرثات Genome Sequencing يتضاعف مرة كل سبعة أشهر. إذا تم الحفاظ على هذا المُعدل، فإننا سنحصل بحلول عام 2020 على مليار مليار زوج قاعدي من المورثات تم إجراء عملية تسلسل لها وتخزينها، وذلك خلال سنة الواحدة. بحلول عام 2025، يقدر الباحثون أن العدد سيصل إلى ترليون مليار زوج قاعدي، قد تم إجراء عملية تسلسل لها وتخزينها في سنةٍ واحدة.

بالنسبة لعملية تحليل البيانات الوراثية، فإن 90% منها يعود للبيانات الوراثية الخاصة بالبشر، ويُقدّر العلماء أنه بحلول عام 2025 سيتم إجراء عمليات تسلسل المُوّرثات لحوالي 100 مليون إلى 2 مليار شخص حول العالم. هذا يعني أن حجم النّمو الخاص بالبيانات الوراثية يعادل 4 أو 5 مرات تضاعف كل 10 سنين، والذي يزيد بكثير عن مُعدلات التضاعف الخاصة بمصادر البيانات الأخرى.

يعتقد علماء الأحياء والمختصون بمجال علم الوراثة أن الحصول على البيانات الخاصة بالمورثات البشرية سيُساهم بشكلٍ كبير بالحصول على كمياتٍ كبيرة من المعلومات والتي ستُساهم بتحسين التوقعات الخاصة بالإصابة بالأمراض المُستعصية (خصوصاً السرطان)، وكذلك في إيجاد العلاجات المناسبة لها. ولكن، وقبل أن تكون هذه المعلومات والبيانات الوراثية مُفيدة للاستخدام الطبي، يجب أن يتم ربط البيانات مع مجموعاتٍ أخرى من البيانات والمعلومات، والتي تتضمن أيضاً المعلومات النسيجية Tissue Information. (استعرضنا في مقالٍ سابق لنا الدور الذي قد تلعبه تقنيات وتكنولوجيا تسلسل المورثات في تحسين خدمات التشخيص والعلاج الطبي، لقراءة المقال: اضغط هنا ).

أحد الأسباب التي تجعل معدل الزيادة في حجم البيانات الوراثية كبير جداً، هو أن العلماء قد بدأوا بإجراء عمليات التسلسل الوراثي للخلايا المنفصلة. تساهم عمليات التسلسل الوراثي الخاصة بالخلايا السرطانية المنفصلة بالكشف عن تسلسلات جينية متغيرة، وهو ما يساعد كثيراً في مجال التشخيص الطبي. يمتلك المرضى في بعض الأحيان عدة تسلسلات وراثية لخلايا منفصلة، وهو ما يؤدي بالنتيجة للحصول على 7 مليار جينة تم إجراء عملية تسلسل وراثي لها.

هذا يعني أن عدد الجينات التي تم إجراء عمليات تسلسل لها أكبر من عدد سكان الكرة الأرضية، أي أنه يوجد كميات كبيرة جداً من البيانات التي يجب تجميعها، تصنيفها، وتحليلها.

بالنسبة للمصادر الأخرى للبيانات الضخمة مثل اليوتيوب، فإن التقديرات الحالية تشير إلى المستخدمين يقومون برفع ما مدته 300 ساعة من الفيديوهات في كل دقيقة، ويتوقع الباحثون أن المعدل سيرتفع إلى 1700 ساعة من الفيديوهات في كل دقيقة بحلول عام 2025، وهو ما يعني الحصول على كمية بيانات قدرها 2 إكسا بايت في كل سنة، فقط على اليوتيوب. من أجل ذلك، تعمل شركة غوغل (المالك الحالي لموقع يوتيوب) على تأمين بنى تحتية أفضل ليوتيوب، فهم يعملون على تأمين خدمات اتصال أسرع، مساحات تخزين أكبر، وخوارزميات بحث تعطي نتائج أفضل.

يأمل العلماء أن البيانات الضخمة التي يتم الحصول عليها من عمليات تسلسل الجينات ستساهم بتوفير قاعدة معلومات ضخمة تساهم بتطوير مجال التشخيص والعلاج الطبي، وذلك اعتماداً على خوارزميات التعرف على الأنماط، التي ستتولى مهمة التعرف على أنماطٍ محددة ضمن البيانات الخاصة بمئات ملايين وحتى مليارات الأشخاص.

المصدر: IEEE Spectrum

للمزيد من المقالات:

ما هو حجم البيانات التي يتم توليدها يومياً؟

كم يساوي “1” غيغا بايت من البيانات؟

معدل إرسال المعلومات من تلسكوب هابل الفضائي

هل تستطيع التكنولوجيا تحسين الطب؟

مقالات ذات صلة

زر الذهاب إلى الأعلى