المقدمة
مع التطور الهائل في البيانات والمعلومات المحدثة باستمرار والتى تنتج من العديد من المصادر المختلفة حيث يمكن الوصول إليها بصفة مباشرة عن طريق البحث البسيط أو المتقدم بمحركات البحث المختلفة، إلا أنه توجد قواعد بيانات وقواعد محركات لا يمكن الوصول لبياناتها إلا بالتنقيب، وليست عملية التنقيب سهلة بما كان ليستطيع أي مستفيد أو باحث القيام بها يدوياً أو إلكترونياً بدون أدوات مساعدة لذلك، ومن ثم كان لابد من الوصول لأدوات تُساعد فى التنقيب عن البيانات بقواعد البيانات المختلفة، منها ما هو مُتاح مجاناً أو بمقابل.
تهدف هذه المقالة لتعريف القارئ بأدوات التنقيب عن البيانات مفتوحة المصدر وتقييمها لتقرير مزاياها وعيوبها والوظائف التي يمكن القيام بها.
مفهوم التنقيب عن البيانات
هى تقنية تهدف إلى استنتاج المعرفة من كميات هائلة من البيانات للاستفادة منها فى العديد من المجالات وذلك باستخدام طرق مختلفة.
عناصر التنقيب عن البيانات
التنقيب عن البيانات يعتمد على أربعة عناصر أساسية وهي:
- البيانات
هي عبارة عن الحقائق والأرقام والنصوص التي يمكن أن تتم مُعالجتها.
- المعلومات
النماذج والعلاقات بين تلك البيانات التي تشكل معلومات مفيدة.
- المعرفة
المعلومات يمكن أن تتحول إلى معرفة حول الأنماط التاريخية أو التوقعات المستقبلية،على سبيل المثال معلومات عن حركة المبيعات والمشتريات للعملاء يمكن أن تزود المعرفة عن سلوك العملاء الشرائي.
- مستودعات البيانات
يتم استخدامها في التحليلات الزمنية واكتشاف المعرفة واتخاذ القرارات، فهي مُصممة لاستخلاص البيانات ومُعالجتها وتمثيلها وتقديمها بصورة مناسبة لهذه الأغراض، ويتم تخزين كمية ضخمة من البيانات قد تكون من مصادر مختلفة، مثلا عدة قواعد بيانات من عدة نماذج.
تصنيف قواعد البيانات التى يتم عليها التنقيب
- التنقيب عن قواعد البيانات العلائقية
هي مجموعة من الجداول، ويتكون كل جدول من مجموعة من العلاقات ويمكن الحصول من تنقيب قواعد البيانات العلائقية على الاتجاهات ونموذج البيانات مثل مثل: دخل المستفيد، عمره، مستوى تعليمه، وبواسطة قاعدة البيانات العلائقية التجارية يمكن تحديد التسويق المستهدف للعملاء.
- تنقيب مستودعات البيانات
مستودع البيانات (Data Warehouse) عبارة عن مجموعة من البيانات الموجهة والمتكاملة والثابتة ، تستخدم في دعم القرارات، كما يمكن استخدامه كمصدر مُتكامل واحد للبيانات لمعالجة المعلومات، فهو يودع البيانات المجمعة التي تم معالجتها لإيجاد النماذج الخفية والعلاقة لتكوين نموذج تحليلي هيكلي لتصنيف البيانات ووضع التوقعات المحتملة.
- التنقيب عن قاعدة بيانات جديدة
تتضمن قاعدة البيانات الجديدة قاعدة بيانات مكانية، وقاعدة بيانات وقتية، وقاعدة بينات نصية، وقاعدة بيانات وسائط متعددة، وتتضمن هذه البيانات بيانات مكانية، نصية، صورا، وصوتا، وبيانات ويب.
مهام التنقيب عن البيانات
يقوم التنقيب عن البيانات بعمليتين أساسيتين متمثلتين فيما يلي:
- التنبؤ
يهدف التنقيب عن البيانات إلى وضع توقعات، ويتم استخدام نموذج التعلم المتاح للتنبؤ، ويعد التصنيف والانحدار نوعين أساسيين من نموذج التنبؤ حيث يُستخدم التصنيف للتنبؤ بالقيمة المنفصلة أو الرمزية، أما الانحدار فيُستخدم للتنبؤ بالقيم المستمرة.
- الوصف
يُستخدم تحليل العلاقة عادة لوصف نموذج بخصائص علائقية قوية لاشتقاق النماذج المهمة لإيجاد العلاقة بين البيانات حيث يمكن تقسيم تصنيف التنقيب عن البيانات إلى التنقيب عن البيانات المباشر وغير المباشر.
أدوات التنقيب عن البيانات
ظهرت العديد من الخوارزميات والطرق والتقنيات التي تُتيح للمستفيدين القيام بالعديد من الوظائف باستخدام هذه التقنيات وتوجد أدوات للتنقيب فى البيانات حيث توجد معايير تقييم أدوات التنقيب عن البيانات ومنها:
- الأداء حيث يركز على قدرة الأداة وسهولة معالجة البيانات تحت ظروف مختلفة
- القدرة على الإستخدام
- امكانيات الأداة حيث يتضمن مجموعة من الإمكانيات، والتقنيات والمنهجيات للتنقيب عن البيانات
- الدعم حيث ان المقصود به أداء العديد من الوظائف الثانوية المطلوبة في عملية التنقيب عن البيانات، وتتضمن هذه المهام اختيار البيانات، وتنظيفها، وفلترة البيانات
- الكفاءة فى اظهار النتائج
- نظام التشغيل من حيث هل البرنامج يعمل على نظم تشغيل متنوعة ام نظام تشغيل محدد
- تركيب البرنامج حيث هل يستخدم البرنامج تركيب الخادم – العميل؟ أو يستخدم تركيبا وهيكلاً مُستقلاً؟ وهل يحق للمستفيدين اختيار الهيكل أو التركيب
- واجهة البرنامج هل تقدم الواجهة النتائج بطريقة مفهومة وواضحة
- القدرة على التعديل
- هل البرنامج يتناسب مع مجموعات البيانات الكبيرة؟
- امكانية الأداة من خلال قياس قدرة الأداءة على العمل دون توقف او انهيار
- التنوع حيث هل يوفر البرنامج مجموعة مختلفة من تقنيات التنقيب والخوارزميات لدعم القرارات؟
- المنهجية حيث هل يساعد البرنامج المستفيد بتقديم منهجية التنقيب بالخطوات
- أنواع المستفيدين حيث هل الأداة مصممة للمبتدئين والمتوسطين والمتقدمين من المستفيدين أو تدمج بين أنواع المستفيدين؟
تصنيف أدوات التنقيب عن البيانات مفتوحة المصدر
- R IDE/Editors ومن أمثلتها مشروع آر R
- التنقيب عن البيانات
- Clustering وهي البرامج التي تقوم بأحد مهام التنقيب عن البيانات فقط وهي العنقدة
- Association Rules والمقصود بها البرامج التي تقوم بأدوار التجميع فقط وما يتعلق بها
- Sequence Analysis
- Social Network Analysis
- Process Mining
- Spatial Data Analysis
الخاتمة
أدى التطور في العلم والاقتصاد وتكنولوجيا المعلومات والاتصالات إلى زيادة كمية البيانات الرقمية، ومع هذه الكميات الهائلة من البيانات لم تعد وسائل التحليل التقليدية )الإحصائية مثلا ( قادرة على التعامل معها. لذا ظهرت العديد من لذلك ظهر مع التنقيب عن البيانات أدوات وبرمجيات تساعد في التنقيب عن الكم الهائل والمتزايد من البيانات حيث تنتج هذه البيانات بواسطة مواقع التواصل الإجتماعى،والمؤسسات المختلفة مثل البنوك، شركات التأمين، والتجارة الإلكترونية فلابد من التنقيب فى هذا الكم من البيانات والإستفادة منه للوصول إلى المعرفة في قواعد البيانات المختلفة، وتيسر هذه الأدوات العمل فى مختلف المجالات حيث يتم تطبيق التنقيب عن البيانات في تحليل بيانات التجارة،والتسوق، والتنبؤ بالمخاطر المالية، وجودة المنتج، والهندسة الجينية، واكتشاف نماذج الوصول لمواقع الإنترنت، والبحث عن المعلومات والتصنيف وغيرها من المجالات.
المراجع
- https://link.springer.com/content/pdf/10.1007%2F978-3-319-31232-3_24.pdf
- https://www.invensis.net/blog/data-processing/12-data-mining-tools-techniques/
- https://towardsdatascience.com/data-mining-tools-f701645e0f4c
- http://sis.binus.ac.id/2017/05/03/six-of-the-best-open-source-data-mining-tools/
- https://blog.galvanize.com/four-data-mining-techniques-for-businesses-that-everyone-should-know/
- https://www.searchtechnologies.com/blog/web-data-mining-tools-techniques
- http://bigdata-madesimple.com/top-30-big-data-tools-data-analysis/
السلام عليكم
لماذا تقفلون عملية النسح من الموقع…. هذه معلومات يستفيد منها الجميع .. و هي في ميزان حسناتكم… هذا تخلف تكنولجي علمي
وعليكم السلام ورحمة الله وبركاته
أولا اذا عملت حساب على الموقع بامكانك النسخ واللصق من الموق.
ثانيا لماذا تريد النسخ واللصق؟ هل الهدف أخذ المعلومات واستخدامها في موقع آخر؟ أم ماذا؟
ثالثاً هناك جهد يبذل في بناء وكتابة وتطوير الموقع ومن غير الاخلاق او الشرعي او لمنطقي التعدي على حقوق الملكية الفكرية للآخرين.
وشكرا لك ونتمنى لك يوما سعيداً
جهد علمي وتقني موفق
شكرا لك ونعتز بهذه الشهادة