نمونه تحلیل کسب و کار با کمک میمزی داده

توی این مطلب قصد داریم مثال مربوط به ممیزی داده ها رو دنبال کنیم (اطلاعات کامل در مورد داده ها در این بخش وجود دارد). فرض کنید داده های که داریم به صورت زیر است
تحلیل کسب و کار

همانطور که در بخش قبل بیان شد یکی از خروجی های میزی داده، موارد زیر است

  • لیست داده های گمشده (Miss Value) و نا معتبر
  • رنج (Rage) مقادیری که هر یک داده های نامعتبر یا گمشده میتوانند داشته باشند
  • مقادیر مانند مقدار کمینه، بیشینه و میانگین داده های ناموجود و نامعتبر
  • تعداد مقادیر یکتایی (unique values) که داده های ناموجود و نامعتبر دارند

یکی از خروجی های حاصل از داد ها فوق به صورت زیر است (لیست داده های گمشده و تعداد مقادیر یکتا).

تحلیل کسب و کار
خروجی بالا چه چیزی رو به ما میگه؟ (به عبارت دیگه ما از داده های فوق چه استفاده ای رو می تونیم در کسب و کارمون بکنیم)
نکات قابل استخراج برای تحلیل کسب و کار از جدول فوق به صورت زیر است

  • تحلیل کسب و کار با توجه به داده های گمشده : حدود 90% داده های مربوط به household دارای مقدار گم شده هستند (از روی ستون آخر که اطلاعات مربوطه Miss Value ها نمایش داده است می توان به این عدد رسید) – در نتیجه اگر در تحلیل کسب و کار احتیاج به این داده داشته باشیم نمی توانیم از آن استفاده کنیم چون داده های ارزشمندی نیستند. از دیدگاه تحلیل گر نیز می توانیم این مسئله را این گونه بیان کنیم که، تحلیل گران نباید راهکارهای مبتنی بر این داده را ارائه دهند چون داده های گمشده زیادی وجود دارد و خروجی تحلیل معتبر نخواهد بود.
  • تحلیل کسب و کار با توجه به تعداد مقادیر یکتا: داده های مربوط به product type مقدار داد های گم شده کمی دارد اما یک نکته مهم در مورد این داده آن است که 3000 تا مقدار یکتا برای این داده وجود دارد. اگر داده های ما پیوسته بودند مانند میزان حقوق دریافتی، 3000 مقدار یکتا مشکلی نداشت اما اینجا که داده ها، کراکتری هستند مشکل ساز است. (برای آشنایی با انواع داده های این مطلب را مطالعه کنید). فرض کنید ما product type را با P1 تا P3000 نام گزاری کردیم. فرض کنید این اطلاعات مربوط به خروج کالا از انبار است، خوب در این صورت ما به ازای هر خروج از انبار باید مشخص کنیم که کدوم کالا خارج شده و کدوم یکی خارج نشده. یعنی به ازاء هر خروج کالا باید 3000 تا مقدار داده ای yes/no وارد کنیم، به عبارت دیگر در هر قلم داده ای مربوط به خروج کالا از انبار، مقدار yes یعنی آن کالای متناظر با آن از انبار خارج شده است و مقدار no  یعنی کالای متناظر با آن از انبار خارج نشده است.خوب ما چند تا رکورد داده ای داریم، (توی جدول مشخصه 100.000 تا) خوب اگر 100.000 رو در 3000 ضرب کنیم چه عددی میشه؟. این مکل از اونجا ناشی میشه که ما می خواهیم ساختار باینری رو برای نمایش داده ها استفاده کنیم. در ساختار باینری معمولا حجم داده ها بسیار بالا می رود ولی اطلاعاتی که ارائه می شود بسیار کم است (برای آشنایی با انواع داده های این مطلب را مطالعه کنید). در این گونه مشکلات و راه حل آنها بعدا مفصل صحبت خواهیم کرد.

در مطالب بعدی سایر تحلیل های حاصل از ممیزی داده ها در کسب و کار رو بررسی میکینم.

کانال تلگرامی MrMining.ir

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *