آموزش داده کاویپیش پردازش داده هاداده کاوی

پیش پردازش داده ها Data Preprocessing

پیش پردازش داده ها (Data Preprocessing) اولین گام در داده کاوی می باشد و یکی از گام های مهم آن نیز به شمار می آید.

شاید اولین سوالی که پیش بیایید این است که پیش پردازش داده ها به چه دردی می خوره؟

داده های که امروز در پایگاه داده های مختلف نگهداری می شن معولا سه تا نقض بزرگ دارن : ۱- بعضی داده ها noisy هستن، بعضی از مقادیر داده ها وجود نداره (missing)، و بعضی موارد هم ناسازگاری بین داده ها وجود داره.. این نقایص توی داده های حجم بسیار بیشتر است و به همین خاطر توجه به آنها بسیار مهم است.

همانطور که بیان داده های نامناسب خروجی های داده کاوی نیز غیر مفید خواهند کرد. به همین خاطر ما تو پیش پردازش سعی میکنیم ۱- داده های  noisy و missing و ناسازگار رو شناسایی کنیم ۲- و به بهترین شیوه ممکن این نقایض رو رفع کنیم. تا بتوانیم خروجی های مطلوبی از داده کاوی، داده های داشته باشیم.

مهمترین تکنیک های پیش پردازش داده ها عبارتند از

  1. تکنیک‌های پاکسازی داده یا Data cleaning: که هدف اونها از بین برده داده‌های noisy و ناسازگاری‌های بین داده ها است.
  2. تکنیک‌های پاکسازی داده Data integration: از آنجایی که ممکن است داده‌ها از منابع مختلفی جمع آوری شده باشند، نیاز به یکپارچگی بین آنها است.
  3. تکنیک‌های  کاهش داده Data reduction: توی حجم بالای داده ممکن است بعضی از داده‌های غیر مفید هم وجود داشته باشه و نیاز نباشه همه داده‌ها توی پردازش نهایی باشن، تکنیک‌های Data reduction اینجا کاربرد دارن
  4. تکنیک‌های Data transformations: این الگوریتم هیا بیشتر زمانی به درد می‌خورند که قصد داشته باشیم نرمال سازی های رو روی داده‌ها انجام بدیم

تا اینجا فک کنم برای شروع پیش پردازش داده ها کافی باشه توی مطالب بعدی تک تک مفاهیم بیان شده در بالا رو توضیح میدیم به همراه مثال‌های متنوع.

برچسب ها

نوشته های مشابه

1 نظر در “پیش پردازش داده ها Data Preprocessing”

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

بستن