آموزش داده کاویپیش پردازش داده هاداده کاوی

تکنیک های تخمین داده های ناموجود (Missing Values) – قسمت سوم

قبل از اینکه مطلب رو ادامه بدیم، ابتدا یک نگاه بندازیم ببینیم دقیقا ما کجا هستیم.  در چرخه داده کاوی ما در گام پیش پردازش هستیم. و داریم تکنیک های مربوط به تخمین داده‌های گم شده (داده های ناموجود) یا داده های ناموجود رو بررسی می کنیم. دسته بندی کلی تکنیک های پیش پردازش داده به صورت زیر است

  • پاکسازی داده
    • تخمین داده های ناموجود
    • هموار سازی نویز ها
    • مشخص کردن داده های پرت
    • تصحیح ناسازگاری ها در داده ها
  • یکپارچه سازی داده
  • کاهش داده
  • تبدیل داده

ما توی مطالب قبلی روش حذف داده  و تعیین داده ها توسط کاربر   رو بررسی کردیم. در این مطلب روش های دیگری را مورد بررسی قرار می دهیم.

روش سوم : استفاده از یک مقدار کلی و ثابت برای داده های ناموجود.
یکی دیگر از تکنیک های مربوط به پر کردن داده های ناموجود (داده‌های گم شده ) قرار دادن یک مقدار ثابت برای همه آن ها است. مثلا فرض کنید همه داده های غیر موجود را با یک مقدار مانند “نشناخته” یا Unknown پر کنیم. این روش بسیار ساده است، ولی چندان کارآمدی نیست، به همین خاطر کمتر از آن استفاده می شود.

روس چهارم: استفاده از معیارهای مرکزیت (مانند میانه، میانگین و …)
این روش را می‌توان بهبود یافته روش سوم دانست. در این روش یکی از معیارهای مرکزیت مانند میانگین، میانه، مد و یا هر معیار مرکزیت دیگری برای داده محاسبه می‌گردد و مقدار حاصله برای تمام داده‌های گم شده استفاده می‌گردد.
یکی از محدودیت های این روش آن است که تنها در بین داده‌های عددی قابل استفاده است و داده‌های غیر عددی نمی‌توانند از آن استفاده کنند.
یک نمونه از استفاده از این روش به شرح زیر است:
فرض کنید بر اثر اشتباه انسانی تعدادی از قیمت‌های فروش “کالای شماره ۱” از فاکتورهای سال گذشته پاک شده است. این روش می‌تواند در این مورد کاربرد داشته باشد. روش کار به این صورت است
میانگین سالانه: میانگین قیمت کالای شماره ۱ را در فاکتورهای سال گذشته محاسبه می‌کنیم و مقدار به‌دست آمده را برای فاکتورهای که قیمت کالای شماره ۱ را ندارند وارد می‌کنیم. با توجه به نوع مسئله این روش می‌تواند یک نمونه قابل قبول باشد.

 

منتظر سایر مطالب مرتبط با Missing Values باشید.

 

برچسب ها

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

بستن