الأربعاء، 16 نوفمبر 2011

التنقيب عن البيانات

ان التطور في العلم و الاقتصاد وتكنولوجيا المعلومات و الاتصالات ادى الى زيادة كمية البيانات الرقمية في الاونة الاخيرة । هذه الكميات الهائلة من البيانات لم تعد وسائل التحليل التقليدية (الاحصائية مثلاُ) قادرة على التعامل معها . ظهر التنقيب عن البيانات (Data mining) منذ اواخر الثمانيات واثبت وجوده كاحد الحلول الناجحة لتحليل كميات ضخمة من البيانات , وذلك بتحويلها من مجرد معلومات متراكمة وغير مفهومة (بيانات) الى معلومات قيمة يمكن استغلالها و الاستفادة منها بعد ذلك (معرفة).

حيث نشأ (Data mining) بإسهام من عدة تخصصات من بينها الاحصاء و قواعد البيانات و الذكاء الصناعي .
اما عن ماهية (Data mining) و ماذا تعي وفيما تستخدم سنذكر ما يلي:
- التعريف:
قبل ان نذكر التعريف نود ان نوضح شي حول التسمية (Data mining) في الحقيقة هناك خطا في التسمية حيث ان المقصود بالتنقيب (mining) هو استخلاص المعرفة من كميات كبيرة من البيانات(extracting knowledge from large amounts of data)
حيث يمكن ان تكون تسميتها المناسبة هي تنقيب المعرفة من البيانات (knowledge mining from data) ولكن هذا المصطلح طويل بعض الشي فيمكن تسميتها بمصطلح اقصر التنقيب عن المعرفة (Knowledge mining) لكن هذا المصطلح لا يعكس التوكيد على ان التنقيب من كميات كبيرة من البيانات .لهذا وجد ان مصطلح (Data mining) المصطلح المناسب لهذا العلم.

فيمكن ان نقول ان (Data mining) هي اكتشاف المعرفة من البيانات (قواعد البيانات) Knowledge Discovery from Data, or KDD.

او هي التنقيب عن البيانات (أحيانا تسمى إكتشاف المعرفة) هي عملية تحليل البيانات من منظورات مختلفة واستخلاص علاقات بينها وتلخيصها إلى معلومات مفيدة, مثل معلومات يمكن أن تسهم في زيادة الربح، تخفيض التكاليف، أَو كليهما معا.
او هو عملية الكشف والعثور عن معلومات ذات فائدة من خلال استعمال مجموعة من الأدوات المعقدة. بعض من هذه الأدوات تشمل أدوات الإحصاء الاعتيادية والذكاء الاصطناعي والرسوم البيانية من صنع الكمبيوتر.

ومن خلال ما سبق يمكن ان نقول ان (Data mining) تعتمد على ما يلي:
- البيانات Data: هي عبارة عن الحقائق والأرقام والنصوص التي يمكن أن تعالج من قبل الحاسب.
- المعلومات Information: النماذج والعلاقات بين تلك البيانات والتي تشكل معلومات مفيدة.
- المعرفة Knowledge: المعلومات السابقة يمكن أن تحول إلى معرفة حول الأنماط التاريخية أو التوقعات المستقبلية، مثال معلومات عن حركة المبيعات والمشتريات للزبائن يمكن أن تزودنا بمعرفة عن سلوكهم الشرائي، فيساعدنا ذلك في معرفة أي من المواد تحتاج إلى ترويج أكثر.
- مستودعات البيانات Data warehouse :المستخدمة في التحليلات الزمنية واكتشاف المعرفة واتخاذ القرارات, فهي مصممة خصيصا لاستخلاص البيانات ومعالجتها وتمثيلها وتقديمها بصورة مناسبة لهذه الأغراض، وتخزن كمية ضخمة من البيانات قد تكون من مصادر مختلفة، مثلا عدة قواعد بيانات من عدة نماذج.

- بماذا يمكن أن نستخدم التنقيب عن البيانات ؟
على فرض أنك تملك متجرا كبيرا يحتوي هذا المتجر على عدد كبير من السلع المختلفة، وهناك عوامل كثيرة تؤثر على عملك، منها “عوامل داخلية” مثل السلع و الأسعار ومهارات الباعة، و”عوامل خارجية” مثل وضع الزبون والمنافسة والمؤشرات الإقتصادية. ففي حال أردت الإستعلام عن منتج معين و تربط هذا الإستعلام بالعوامل الداخلية والخارجية فإنك تحتاج إلى التنقيب عن البياناتData Mining للحصول على نتيجة جيدة.
أمثلة عن التنقيب عن البيانات:
في إحدى المتاجر الكبيرة حيث يحتوي هذا المتجر على تنوع كبير من الأطعمة لاحظ الفريق المهتم بالزبائن أن معظم الزبائن الذي يشترون الحليب يشترون الخبز معه مما يمكن التاجر من إعادة ترتيب الأطعمة في المتجر وفقا لما يراه مناسب لزيادة أرباح المتجر, مثلا بوضع الخبز بجانب الحليب.
ليكن لدينا سلسلة من المطاعم وليكن لدينا زبائن يأخذون وجبة بشكل نموذجي, هنا يمكن ان ننقب بيانات شراء الزبائن لتحديد ماهي الوجبة المطلوبة.
بالتنقيب في بيانات متجر لبيع لوازم السفر والرحلات, وجد أن من يشتري أكياس نوم وأحذية سفر وخيمة فسيقوم أيضاً بشراء حقيبة ظهر للسفر.

اما عن كيفية عملية اكتشاف المعرفة فهناك سلسلة متكررة من الخطوات التالية:
1- تصفية البيانات Data cleaning : أي حذف البيانات المتضاربة وغير المهمة .
2- تكامل البيانات Data integration : اي مصادر البيانات المتعددة يمكن ان تدمج أينما تكون.
3- اختيار البيانات Data selection: أي استرجاع كل البيانات التي لها علاقة بمهمة التحليل من قاعدة البيانات.
4- تحويل البيانات Data transformation: أي البيانات تحول الى نماذج مخصصة للتنقيب بواسطة خلاصة الانجاز او عمليات التجميع.
5- تنقيب البيانات Data mining: أي استخدام طرق ذكية تطبق لاستخلاص انماط البيانات.
6- تقييم النمط Pattern evaluation: أي لتحديد (تمييز) الانماط المهمة حقا تمثل قاعدة المعرفة ببعض المقاييس المهمة.
7- عرض (تقديم) المعرفة Knowledge presentation: أي تقنيات تمثيل المعرفة و الرؤية تستخدم لتقديم المعرفة المنقب عنها للمستخدم.

أهداف للتنقيب في البيانات(Data mining)

هناك ثلاثة أهداف للتنقيب في البيانات (Data mining):
1) من أجل تعليل بعض الظواهر المرئية. مثال: لماذا زادت نسبة المدخنين في الوطن العربي؟
2) من أجل التثبت من نظرية ما. مثال: التثبت من النظرية التي تقول بأن الأسر الكبيرة تهتم بالضمان الصحي أكثر من الأسر الصغيرة عددا.
3) من أجل تحليل البيانات للحصول على علاقات جديدة وغير متوقعة. مثال: كيف سيكون الانفاق العام إن كان ملازما لعمليات خداع واسعة من قبل البطاقات الائتمانية.

وسائل التنقيب في البيانات (Data mining)
هناك عدة وسائل مختلفة من أجل التنقيب في البيانات. اختيار الوسيلة المناسبة يعتمد على طبيعة البيانات تحت الدراسة وعلى حجمها. يمكن اجراء عملية التنقيب في البيانات بالمقارنة مع سوق البيانات ومخزن البيانات.

بعض من هذه الوسائل هي: (يتبعها وظيفة كل وسيلة)

- التفكير واستخلاص النتائج والقوانين من أمثلة حية Case-Based reasoning
- الكشف عن قانون Rule Discovery: البحث عن منوال معين أو علاقة معينة في جزئية كبيرة من البيانات
- معالجة الاشارات Signal Processing: ايجاد الظواهر المتشابه مع بعضها البعض
- شبكات نووية Neural Nets: تطوير نماذج قابلة لتنبؤ النتائج. هذه النماذج تم تطويرها بناءا على أسس تم استنباطها من عقل الانسان.
- منحنيات غير ثابتة Fractals: تصغير البيانات الكبيرة من دون ضياع المعلومات


تطبيقات التنقيب في البيانات (Data mining)
وسائل التنقيب في البيانات تُستعمل وبنجاح في الكثير من التطبيقات الحقيقة حول العالم. التطبيقات التالية تشمل بعضا من الأمثلة: (يتبعها مثال لكل تطبيق)
- كتابة تقرير مختصر عن فئة معينة Profiling Populations: تطوير وإنشاء تقارير موجزة عن الزبائن المهمين وعن بطاقات الائتمان.
- تحليل النزعة التجارية Analysis of Business Trend: ايجاد الأسواق ذات قدرات النمو القوية أو الضعيفة.
- التسويق لفئة معينة Target Marketing: ايجاد الزبائن من أجل منح التخفيضات لهم لسبب معين.
- تحليل الاستعمال Usage Analysis: ايجاد منوال معين لاستعمال الخدمات والسلع
- فعالية الحملة Campaign Effectiveness: مقارنة استراتيجيات الحملات مع بعضها البعض من أجل ايجاد أكثرها فعالية وتأثيرا.
- جاذبية السلعة: ايجاد السلع التي تباع مع بعضها البعض.

تطبيقات التنقيب في البيانات بدأت تنمو بصورة كبيرة للأسباب التالية:
1) كمية البيانات الموجودة في مخزن البيانات وسوق البيانات تنمو بصورة أسية (exponential). ومن أجل ذلك، فإن المستخدم يحتاج إلى أدوات متطورة من مثل التنقيب في البيانات من اجل استخلاص الفائدة والمعرفة من هذه البيانات.
2) الكثير من أدوات التنقيب عن البيانات بدأت تظهر مؤخرا، وكل أداة أفضل من الأخرى.
3) المنافسة الشديدة الموجودة في السوق تدفع الشركات إلى الاستفادة القصوى من البيانات التي بيدها. عمليات التنقيب في البيانات تفعل ذلك تماما.


المصدر: 1- Data Mining Concepts and Techniques Second Edition.
2- مقالة لــ ( إيمان بن سالم و محمد خير الدين خلادي ) – جامعة منتوري قسنطينة.

ليست هناك تعليقات:

إرسال تعليق