داده کاویداده کاوی برای مدیرانمطالعه موردی داده کاوی
نمونه تحلیل کسب و کار با کمک میمزی داده
توی این مطلب قصد داریم مثال مربوط به ممیزی داده ها رو دنبال کنیم (اطلاعات کامل در مورد داده ها در این بخش وجود دارد). فرض کنید داده های که داریم به صورت زیر است
همانطور که در بخش قبل بیان شد یکی از خروجی های میزی داده، موارد زیر است
- لیست داده های گمشده (Miss Value) و نا معتبر
- رنج (Rage) مقادیری که هر یک داده های نامعتبر یا گمشده میتوانند داشته باشند
- مقادیر مانند مقدار کمینه، بیشینه و میانگین داده های ناموجود و نامعتبر
- تعداد مقادیر یکتایی (unique values) که داده های ناموجود و نامعتبر دارند
یکی از خروجی های حاصل از داد ها فوق به صورت زیر است (لیست داده های گمشده و تعداد مقادیر یکتا).
خروجی بالا چه چیزی رو به ما میگه؟ (به عبارت دیگه ما از داده های فوق چه استفاده ای رو می تونیم در کسب و کارمون بکنیم)
نکات قابل استخراج برای تحلیل کسب و کار از جدول فوق به صورت زیر است
- تحلیل کسب و کار با توجه به داده های گمشده : حدود ۹۰% داده های مربوط به household دارای مقدار گم شده هستند (از روی ستون آخر که اطلاعات مربوطه Miss Value ها نمایش داده است می توان به این عدد رسید) – در نتیجه اگر در تحلیل کسب و کار احتیاج به این داده داشته باشیم نمی توانیم از آن استفاده کنیم چون داده های ارزشمندی نیستند. از دیدگاه تحلیل گر نیز می توانیم این مسئله را این گونه بیان کنیم که، تحلیل گران نباید راهکارهای مبتنی بر این داده را ارائه دهند چون داده های گمشده زیادی وجود دارد و خروجی تحلیل معتبر نخواهد بود.
- تحلیل کسب و کار با توجه به تعداد مقادیر یکتا: داده های مربوط به product type مقدار داد های گم شده کمی دارد اما یک نکته مهم در مورد این داده آن است که ۳۰۰۰ تا مقدار یکتا برای این داده وجود دارد. اگر داده های ما پیوسته بودند مانند میزان حقوق دریافتی، ۳۰۰۰ مقدار یکتا مشکلی نداشت اما اینجا که داده ها، کراکتری هستند مشکل ساز است. (برای آشنایی با انواع داده های این مطلب را مطالعه کنید). فرض کنید ما product type را با P1 تا P3000 نام گزاری کردیم. فرض کنید این اطلاعات مربوط به خروج کالا از انبار است، خوب در این صورت ما به ازای هر خروج از انبار باید مشخص کنیم که کدوم کالا خارج شده و کدوم یکی خارج نشده. یعنی به ازاء هر خروج کالا باید ۳۰۰۰ تا مقدار داده ای yes/no وارد کنیم، به عبارت دیگر در هر قلم داده ای مربوط به خروج کالا از انبار، مقدار yes یعنی آن کالای متناظر با آن از انبار خارج شده است و مقدار no یعنی کالای متناظر با آن از انبار خارج نشده است.خوب ما چند تا رکورد داده ای داریم، (توی جدول مشخصه ۱۰۰٫۰۰۰ تا) خوب اگر ۱۰۰٫۰۰۰ رو در ۳۰۰۰ ضرب کنیم چه عددی میشه؟. این مکل از اونجا ناشی میشه که ما می خواهیم ساختار باینری رو برای نمایش داده ها استفاده کنیم. در ساختار باینری معمولا حجم داده ها بسیار بالا می رود ولی اطلاعاتی که ارائه می شود بسیار کم است (برای آشنایی با انواع داده های این مطلب را مطالعه کنید). در این گونه مشکلات و راه حل آنها بعدا مفصل صحبت خواهیم کرد.
در مطالب بعدی سایر تحلیل های حاصل از ممیزی داده ها در کسب و کار رو بررسی میکینم.