داده کاویداده کاوی برای مدیرانمطالعه موردی داده کاوی

نقش ممیزی داده در داده کاوی کسب و کار

ما در مطلب قبلی در مورد ممیزی داده ها و اهمیت در داده کاوی کسب و کار صحبت کردیم. توی این مطلب قصد داریم بحث ممیزی داده رو دنبال کنیم.
انجام ممیزی داده ربطی به ماهیت خود داده ندارد، یعنی فرقی نمی کند، داده های که به آنها دسترسی داریم از یک منبع معتبر و آشنا بدست آمده است و یا از یک منبع نا آشنا بدست امده است. در هر دو این حالت نیاز است تا ممیزی داده انجام شود. حداقل مزیت انجام ممیزی است است که یک دید مناسب و قابل قبول از داده ها به ما می دهد.

اول گام ممیزی داده این است که یک نگاه اجمالی نسبت به داده ها داشته باشیم. در این گام ما به صورت تصادفی تعدادی از نمونه های داده رو انتخاب میکنیم و آنها را بررسی میکنیم تا با ساختار داده های که در دست داریم اشنا شویم. این گام data dump نامیده می شود.

انجام این گام با دو هدف اصلی انجام می شود

  • از آنجایی که داده های ممکن است از منابع مختلفی به دست آمده باشد، احتمال دارد داده ها به درستی یکپارچه نشده باشند در نتیجه نیاز است تا این یک بار داده ها به صورت تصادفی مورد بازبینی قرار بگیرند
  • هدف دیگر این کار آن است که، بدانیم ساختار داده ای که با آن سروکار چطوریه. ایا داده ها یک ساختار ساده و قابل فهم دارند یا نه بر عکس بسیار پیچیده هستند و ارتباطات زیادی بین اقلام داده ای وجود دارد.

فرض کنید ما یک سری داده داریم که سه مورد از اونها رو به صورت تصادفی انتخاب کردیم تا گام اول ممیزی داده رو انجام بدیم. داده های انتخاب شده در تصویر زیر نمایش داده شده اند

داده کاوی کسب و کار

داده کاوی کسب و کار : نمونه داده اولیه (دارای خطا)

 از روی داده ها می توان فهمید که اطلاعات مربوط به تاریخ تولد بدون مشکل است. اما اطلاعات مربوط به سایر اقلام داده ای اشتباه است. از روی داده ها می توان این استنباط را کرد که احتمالا داده تاریخ شروع برای شماره اکانت ۵۳۴۲۳۵ وجود ندارد و همین امر باعث شده است که اطلاعات همه یکی شیفت بخورند  و داده ها اشتباه شده اند. خوب می توان با یک جابجایی ساده داده ها این مشکل را رفع نمود. نتیجه این امر به صورت زیر می شود

داده کاوی کسب و کار

داده کاوی کسب و کار : نمونه داده تصحیح شده

باید توجه داشت که پیدا کردن مشکلات همیشه به همین سادگی نیست و نیاز به بررسی های دقیقتری دارد.

همانطور که در بخش قبل بیان شد از خروجی های ممیزی داده می توان به موراد زیر اشاره کرد:

•    لیست داده های ناموجود و نا معتبر
•    رنج (Rage) مقادیری که هر یک داده های نامعتبر یا ناموجود میتوانند داشته باشند
•    مقادیر مانند مقدار کمینه، بیشینه و میانگین داده های ناموجود و نامعتبر
•    تعداد مقادیر یکتایی (unique values) که داده های ناموجود و نامعتبر دارند

در مطلب بعدی مثال های را از این گونه خروجی ها بیان خواهیم کرد.

برچسب ها

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

بستن