آموزش داده کاویپیش پردازش داده هاداده کاوی
تکنیک های تخمین داده های ناموجود (Missing Values) – قسمت سوم
قبل از اینکه مطلب رو ادامه بدیم، ابتدا یک نگاه بندازیم ببینیم دقیقا ما کجا هستیم. در چرخه داده کاوی ما در گام پیش پردازش هستیم. و داریم تکنیک های مربوط به تخمین دادههای گم شده (داده های ناموجود) یا داده های ناموجود رو بررسی می کنیم. دسته بندی کلی تکنیک های پیش پردازش داده به صورت زیر است
- پاکسازی داده
- تخمین داده های ناموجود
- هموار سازی نویز ها
- مشخص کردن داده های پرت
- تصحیح ناسازگاری ها در داده ها
- یکپارچه سازی داده
- کاهش داده
- تبدیل داده
ما توی مطالب قبلی روش حذف داده و تعیین داده ها توسط کاربر رو بررسی کردیم. در این مطلب روش های دیگری را مورد بررسی قرار می دهیم.
روش سوم : استفاده از یک مقدار کلی و ثابت برای داده های ناموجود.
یکی دیگر از تکنیک های مربوط به پر کردن داده های ناموجود (دادههای گم شده ) قرار دادن یک مقدار ثابت برای همه آن ها است. مثلا فرض کنید همه داده های غیر موجود را با یک مقدار مانند “نشناخته” یا Unknown پر کنیم. این روش بسیار ساده است، ولی چندان کارآمدی نیست، به همین خاطر کمتر از آن استفاده می شود.
روس چهارم: استفاده از معیارهای مرکزیت (مانند میانه، میانگین و …)
این روش را میتوان بهبود یافته روش سوم دانست. در این روش یکی از معیارهای مرکزیت مانند میانگین، میانه، مد و یا هر معیار مرکزیت دیگری برای داده محاسبه میگردد و مقدار حاصله برای تمام دادههای گم شده استفاده میگردد.
یکی از محدودیت های این روش آن است که تنها در بین دادههای عددی قابل استفاده است و دادههای غیر عددی نمیتوانند از آن استفاده کنند.
یک نمونه از استفاده از این روش به شرح زیر است:
فرض کنید بر اثر اشتباه انسانی تعدادی از قیمتهای فروش “کالای شماره ۱” از فاکتورهای سال گذشته پاک شده است. این روش میتواند در این مورد کاربرد داشته باشد. روش کار به این صورت است
میانگین سالانه: میانگین قیمت کالای شماره ۱ را در فاکتورهای سال گذشته محاسبه میکنیم و مقدار بهدست آمده را برای فاکتورهای که قیمت کالای شماره ۱ را ندارند وارد میکنیم. با توجه به نوع مسئله این روش میتواند یک نمونه قابل قبول باشد.
منتظر سایر مطالب مرتبط با Missing Values باشید.