في هذا المقال سوف نكتشف الفرق بين التعلم الآلي والتحليل الإحصائي، ومن ثمَّ اكتشاف كيف يمكن أن يكون التعميم كبحث أداة لاستخراج البيانات، وذلك من خلال التعرف على كيفية استخدام تقنيات دمج البيانات وتسلسلها لدمج البيانات التي تهتم بصحة نمذجة التحليلات الإحصائية لتحسين أداء استخراج البيانات الخاصة بالإحصائيات، فتابعونا....
* التعلم الآلي والتحليل الإحصائي
ينهمك علماء التحليل الإحصائي الذين يبحثون بشغف في هذا المجال التجاري من أجل استخراج البيانات بالإحصاءات المستوفاة الشروط بالإضافة إلى التسويق لها، وفي الحقيقة يجب ألا تبحث عن خط فاصل بين التعلم الآلي والإحصاء لأن هناك سلسلة متصلة ومتعددة الأبعاد في تقنيات تحليل البيانات، كما يستمد البعض من المهارات التي يتم تدريسها في دورات الإحصاء القياسية، ويرتبط البعض الآخر بشكل أوثق بنوع التعلم الآلي الذي نشأ عن علوم الكمبيوتر.
في العهود الماضية كان لدى الجانبين أساليب مختلفة إلى حد ما إذا تم إجبارهم على الإشارة إلى اختلاف واحد في التركيز، فقد تكون الإحصائيات أكثر اهتمامًا باختبار الفرضيات، في حين كان التعلم الآلي أكثر اهتمامًا بصياغة عملية التعميم كبحث عن فرضيات محتملة، ولكن هذا تبسيط مفرط، فالإحصائيات أكثر بكثير من مجرد اختبار الفرضيات، والعديد من تقنيات التعلم الآلي لا تتضمن أي بحث على الإطلاق.
بادئ ذي بدء تطورت أساليب مماثلة بالتوازي في التعلم الآلي والتحليلات الإحصائية، حيث قام أربعة إحصائيين (Breiman et al. 1984) بنشر كتاب بعنوان "أشجار التصنيف والانحدار" في منتصف الثمانينيات ، أما طوال السبعينيات وأوائل الثمانينيات من القرن الماضي فقد طور أحد الباحثين البارزين في مجال تعلم الآلات ويدعى J. Ross Quinlan نظامًا جديدًا لاستنتاج أشجار التصنيف مع الأمثلة، وقد أنتج هذان المشروعان المستقلان أساليب مماثلة لتوليد النظم البيانية في نتائج التحليل الإحصائي، ولم يدرك الباحثون آنذاك سوى عمل بعضهم البعض في وقت لاحق، أما المجال الثاني الذي نشأت فيه طرق مماثلة ينطوي على استخدام طرق الجوار الأقرب للتصنيف، وهذه هي التقنيات الإحصائية القياسية التي تم تكييفها على نطاق واسع من قبل باحثي التعلم الآلي، وذلك لتحسين أداء التصنيف ولجعل الإجراء أكثر كفاءة من الناحية الحسابية.
* كيفية استخدام تقنيات دمج البيانات وتسلسلها لدمج البيانات
عند إنشاء مجموعة المثال الأولي وتنقيحها، يتم تطبيق الأساليب الإحصائية القياسية مثل تصور البيانات، واختيار السمات، والتخلص من القيم الخارجية ، وما إلى ذلك، حيث تستخدم معظم خوارزميات التعلم اختبارات إحصائية عند إنشاء قواعد البيانات ولتصحيح النماذج "المجهزة"، حيث إنها تعتمد بشدة على تفاصيل الأمثلة المعينة المستخدمة لإنتاجها، كما تُستخدم اختبارات التحليل الإحصائي للتحقق من صحة نماذج التعلم الآلي وتقييم خوارزميات التعلم الآلي.
التعميم كبحث هي من ضمن التقنيات العملية لاستخراج بيانات الإحصاءات، حيث تتمثل إحدى طرق تصور مشكلة التعلم – وهي الطريقة التي تميزها عن الأساليب الإحصائية - في تخيل عملية بحث من خلال مساحة من الأوصاف المفاهيمية المحتملة لأحدها، والتي تناسب البيانات، وعلى الرغم من أن فكرة التعميم كبحث تعتبر أداة مفاهيمية قوية للتفكير في التعلم الآلي، إلا أنها ليست ضرورية لفهم الأساليب العملية بشكل عام، وعلى الرغم من وجود طرق لجعل إجراء التعداد أكثر جدوى، تظل هناك مشكلة خطيرة في الممارسة العملية، وهي أن من النادر أن تتقارب العملية مع وجود وصف فريد مقبول، فإما أن تكون العديد من الأوصاف لا تزال قيد التشغيل بعد معالجة الأمثلة، أو يتم حذف جميع الواصفات بالكامل، لذلك تنشأ الحالة الأولى عندما لا تكون الأمثلة شاملة بما يكفي لإزالة جميع الأوصاف الممكنة باستثناء الوصف "الصحيح"، ومن الضروري في الممارسة العملية أيضًا تطبيق بعض المعايير الأخرى لتحديد أفضل اختيار من بين مجموعة الوصف المتبقي.