آموزش داده کاویپیش پردازش داده هاداده کاوی
تکنیک های تخمین داده های ناموجود (Missing Values) – قسمت دوم
قبل از اینکه مطلب رو ادامه بدیم، ابتدا یک نگاه بندازیم ببینیم دقیقا ما کجا هستیم. در چرخه داده کاوی ما در گام پیش پردازش هستیم. و داریم تکنیک های مربوط به تخمین داده های گم شده یا داده های ناموجود رو بررسی می کنیم. دسته بندی کلی تکنیک های پیش پردازش داده به صورت زیر است
- پاکسازی داده
- تخمین داده های ناموجود
- هموار سازی نویز ها
- مشخص کردن داده های پرت
- تصحیح ناسازگاری ها در داده ها
- یکپارچه سازی داده
- کاهش داده
- بدیل داده
ما توی مطلب قبل روش حذف داده رو بررسی کردیم. در این مطلب روش های دیگری را مورد بررسی قرار می دهیم.
روش دوم تخمین داده های گم شده، تعیین داده ها توسط کاربر: در بعضی موارد می توان داده های گم شده را با کمک کاربر تعیین نمود.
این تکنیک دو عیب بزرگ دارد
- زمانبر بودن
- انجام این تکنیک برای داده های حجیم تقریبا غیر ممکن است.
نکته مهم در این بخش آن است کسی که دارد داده ها را پر میکند باید شناخت و اشراف کامل به داده داشته باشد. فرض کنید تاریخ خروج کالا برای بعضی از کالاها در فاکتورهای ما ثبت نشده است. کسی که می تواند در این حوزه به ما کمک کند مسئول انبار است. اما چگونه؟ با یک مثال چگونگی انجام کار را بیان میکنیم.
نمونه ۱ : فرض کنید یک مشتری خاص داریم که در یک بازه زمانی خاص کالاها را از انبار ما تحویل می گیرد و این را انباردار می داند. مثلا مشتری شماره ۱، تحویل کالاهای خود را در آبان ماه انجام میدهد در نتیجه اگر کالا توسط مشتری شماره ۱ تحویل گرفته شده باشد، انبار دار می تواند این داده را پر کند.
نمونه ۲ : فرض کنید انبادار بر اساس تجربه زمان های خروج کالاهای خاص می داند. به عبارت دیگر می داند که چه کالای در چه بازه زمانی توسط مشتریان درخواست می شود. به عنوان مثال بخاری ۲ ماه شروع فصل سرما بیشترین فروش خود را دارد در نتیجه اگر زمان خروج بخاری مشخص نباشد انباردار می تواند با کمک تجربه خود داده ها را تکمیل نماید.
همانطور که بیان شد پر کردن داده های ناموجود با این روش هم زمانبر است و هم در حجم بالا تقریبا غیر ممکن.
در مطالب بعدی سایر روش های تخمین داده های ناموجود را بررسی می کنیم.