آموزش داده کاویپیش پردازش داده هاداده کاوی
پیش پردازش داده ها Data Preprocessing
پیش پردازش داده ها (Data Preprocessing) اولین گام در داده کاوی می باشد و یکی از گام های مهم آن نیز به شمار می آید.
شاید اولین سوالی که پیش بیایید این است که پیش پردازش داده ها به چه دردی می خوره؟
داده های که امروز در پایگاه داده های مختلف نگهداری می شن معولا سه تا نقض بزرگ دارن : ۱- بعضی داده ها noisy هستن، بعضی از مقادیر داده ها وجود نداره (missing)، و بعضی موارد هم ناسازگاری بین داده ها وجود داره.. این نقایص توی داده های حجم بسیار بیشتر است و به همین خاطر توجه به آنها بسیار مهم است.
همانطور که بیان داده های نامناسب خروجی های داده کاوی نیز غیر مفید خواهند کرد. به همین خاطر ما تو پیش پردازش سعی میکنیم ۱- داده های noisy و missing و ناسازگار رو شناسایی کنیم ۲- و به بهترین شیوه ممکن این نقایض رو رفع کنیم. تا بتوانیم خروجی های مطلوبی از داده کاوی، داده های داشته باشیم.
مهمترین تکنیک های پیش پردازش داده ها عبارتند از
- تکنیکهای پاکسازی داده یا Data cleaning: که هدف اونها از بین برده دادههای noisy و ناسازگاریهای بین داده ها است.
- تکنیکهای پاکسازی داده Data integration: از آنجایی که ممکن است دادهها از منابع مختلفی جمع آوری شده باشند، نیاز به یکپارچگی بین آنها است.
- تکنیکهای کاهش داده Data reduction: توی حجم بالای داده ممکن است بعضی از دادههای غیر مفید هم وجود داشته باشه و نیاز نباشه همه دادهها توی پردازش نهایی باشن، تکنیکهای Data reduction اینجا کاربرد دارن
- تکنیکهای Data transformations: این الگوریتم هیا بیشتر زمانی به درد میخورند که قصد داشته باشیم نرمال سازی های رو روی دادهها انجام بدیم
تا اینجا فک کنم برای شروع پیش پردازش داده ها کافی باشه توی مطالب بعدی تک تک مفاهیم بیان شده در بالا رو توضیح میدیم به همراه مثالهای متنوع.
ممنون بسیار عالی بود