آموزش داده کاویپیش پردازش داده هاداده کاوی

مقایسه تکنیک های تعیین داده های گمشده

تا اینجا ما ۶ تا تکنیک های تعیین داده های گمشده (Missing Values) رو معرفی کردیم  ،توی این مطلب قصد داریم مقایسه ای رو بین این تکنیک ها انجام بدیم و مزایا و معایب هر کذوم رو بررسی کنیم.

  1. حذف داده
  2. تعیین داده ها توسط کاربر
  3. استفاده از یک مقدار کلی و ثابت برای داده های ناموجود
  4. استفاده از معیارهای مرکزیت (مانند میانه، میانگین و …)
  5. استفاده از معیارهای مرکزیت (مانند میانه، میانگین و …) داده های دسته بندی شده
  6. استفاده از محتمل ترین مقدار (the most probable value)

تکنیک های اول و سوم کمترین پردازش را برای تعیین داده گمشده را دارند و پردازش چندانی نیز برای تخمین داده های گمشده انجام نمی شود.

تکنیک دوم : این تکنیک بیشترین دخالت انسانی را به همراه دارد و در حجم بالای داده ناکارآمد است.

تکنیک های ۳ تا ۶ : در این تکنیک ها چون از الگوریتم های تخمین استفاده میکنیم، ممکن است مقدار تخمین زده شده درست نباشد. در بین این تکنیک ها، تکنیک  ۶ از همه محبوب تر و پر استفاده تر است و معمولا بهترین تخمین را نیز ارائه می دهد.

تکنیک های ۴ تا ۶ : در مقایسه با تکنیک های اول و دوم، در این تکنیک های از اطلاعات موجود در منابع اطلاعاتی استفاده می شود تا بتوانیم بهترین تخمین را برای داده های گمشده بزنیم.

تکنیک های ۳ تا ۶ : در حالت کلی مقادیر پیشنهادی بهتر و بهتر خواهند بود ولی محاسبات آن نیز پیچیده تر و سنگین تر می شود.

در یک بررسی کلی می توان گفت، بهترین تکنیک برای تعیین داده های گشمده ، تکنیک استفاده از محتمل ترین مقدار است. البته  نیاز پردازشی این تکنیک از سایر تکنیک ها بیشتراست اما مقدار تخمین زده شده بیشترین دقت را دارد.

یک نکته مهم رو دقت داشته باشید که عدم وجود داده همیشه به معنای missing value نیست. به عنوان مثال فرض کنید شما به “شماره گواهینامه رانندگی” مشتریان خود نیاز دارد، وقتی این داده وجود نداشته باشید به معنای missing value نیست ممکن است داده اصلا وجود خارجی نداشته باشد. مثلا سن فرد کمتر از سن قانونی برای دریافت گواهی نامه رانندگی باشد.

در اینجا تکنیک های تخمین داده های گمشده به پایان رسید و در گام بعدی بخش دوم تکنیک های پاکسازی داده ها (هموار سازی نویزها) را مورد بررسی قرار خواهیم داد.

  • پاکسازی داده
    • تخمین داده های ناموجود
    • هموار سازی نویز ها
    • مشخص کردن داده های پرت
    • تصحیح ناسازگاری ها در داده ها
  • یکپارچه سازی داده
  • کاهش داده
  • تبدیل داده

 

برچسب ها

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

بستن