15 جمادى الثانية 1439 الموافق 2018.03.03
مدين - خالد عبدالله البلوي
تؤثر البيانات الضخمة على حياتنا بطرق غير متوقعة، وتستخدمها المنظمات على نطاق واسع من أجل التنافسية في السوق. ومع تعدد أدوات إدارة وتصميم البيانات الضخمة، يمكن الإشارة إلى تميز بعضها بحسب أعداد المستخدمين وآراء أصحاب الإختصاص وهي:
1- أباتشي هادوب Apache Hadoop
هو إطار برنامج مفتوح المصدر يُستخدم لتخزين وتجهيز وتوزيع مجموعات البيانات الضخمة بإستخدام نماذج البرمجة "مابريديوس MapReduce". تتم كتابة إطارات هادوب بلغة البرمجة جافا Java مع بعض التعليمات من اللغة الأم C. يعتمد هادوب على نظم ملفات موزعة ويقوم بتقسيم الملفات المختلفة إلى كتل كبيرة ثم يوزعها عبر عُقد مختلفة في مجموعات عنقودية ليعالج البيانات بالتوازي. ويتكون إطار عمل هادوب من مجموعة نماذج مثل : Hadoop Common, HDFS, Hadoop YARN and Hadoop MapReduce.
2- كاسندرا Cassandra
مصدر مفتوح يوزع أنظمة قواعد البيانات الغير معتمدة على لغة الإستفسارات الهيكلية NoSQL. مصمم للتعامل مع كمية ضخمة من البيانات عبر العديد من الخدمات، مما يعطي توافرية عالية حتى إن حدث خلل بنقطة معينة (على عكس نموذج هدوبي). وهو يوفر دعماً قوياً التي تتوزع على مراكز بيانات مختلفة. ومن أهم مزاياه اللامركزية، ودعمه للنسخ المتماثلة ومراكز البيانات المتماثلة، ويتيح تجاهل الأخطاء مع احتفاظه بالنسق الإنضباطي. كما أنه يدعم MapRedue ويدعم الاستعلام بلغة استعلامات كاسندرا CQL كبديل للغة الاستفسارات الهيكلية SQL
3- KNIME
وهو مأخوذ من Konstanz Information Miner ومثل سابقيه، مصدر مفتوح لتحليل البيانات وتكاملها ومنصات التقارير. وهو يدمج مكونات مختلفة من "البيانات المنقبة" و "تعلم الآلات" من خلال مفهوم نمذجة البيانات. يستخدم واجهة رسومية للمستخدمين تتيح تجميع البيانات قبل المعالجة، وتنمذج البيانات، وتُبصّر تحليل البيانات. استُخدم النموذج على نطاق واسع في البحوث الصيدلانية. من مزايا النظام أنه يستخدم لغة برمجة معروفة Java مما يجعل القدرة على إضافة الإمتدادات والوظائف الإضافية سهلاً. كما أنه يسمح للمستخدمين إضافة تدفق البيانات وتنفيذها بشكل إنتقائي أو كلي. كما يسمح بتفقد النماذج والنتائج ومناظير التفاعل لتدفق البيانات. كما أن "سير العمل Workflows" يمكن أن يُستخدم مثل مجموعات البيانات لإصدار قوالب تقارير يمكن تصديرها بصيغ مختلفة.
4- رابيد ماينر Rapid Miner
هذه الأداة بالأساس منصة برمجيات لعلوم البيانات. يتم استخدامها في تطبيقات تجارية وتطبيقات أعمال إضافة إلى التعليم والبحوث والنماذج الأولية وتطوير التطبيقات والتدريب. تدعم جميع الخطوات من معالجة تعلّم الآلة شاملة تجهيز البيانات والتحقق من صحة النموذج والنتائج والتصورات والتحسينات. تم تطويرها على أسس مفتوحة المصدر، وتوفر واجهة مستخدم رسومية. ويمكن أن يتم استدعائها من برامج أخرى بإستخدام API. من مزاياها أنها توفر اُطُر عمل تعتمد على القوالب المختلفة، مما يسرع تسليم وتقليل الأخطاء دون الحاجة لكتابة برمجية. كما توفر العديد من إجراءات التعلم الآلي ومهام تنقيب البيانات متضمنة تحميل البيانات ونقلها والتحليل التنبؤي والنماذج الإحصائية..الخ. كُتبت بإستخدام لغة Java وتوفر منصة للمطورين لإنشاء خوارزميات تحليل البيانات.