آموزش داده کاویپیش پردازش داده هاداده کاوی
هموار سازی داده ها با کمک تکنیک تحلیل داده های پرت
در مطلب قبلی ما روش رگرسیون رو به عنوان یکی از روش های سراسری هموار سازی داده ها مورد بررسی قرار دادیم. در این مطلب قصد داریم یکی دیگر از روش های مربوط به هموار سازی داده ها سراسری رو مورد بررسی قرار بدیم. تفاوت روش های هموار سازی محلی و سراسری رو در این مطلب به صورت کامل مورد بررسی قرار دادیم.
تحلیل داده های پرت: تحلیل داده های پرت یکی از روش های هموار سازی داده ها به صورت سراسری است که می تواند با کمک تکنیک های مختلفی انجام می شود. یکی از مهمترین تکنیک های که در این حوزه کاربرد دارد، تکنیک های خوشه بندی یا clustering است. ما بعدا مفصل در مورد خوشه بندی و انواع اون به تفصیل صحبت خواهیم کرد. در این مطلب تنها مفهوم آن را بررسی خواهیم کرد.
در تکنیک های خوشه بندی ما سعی میکنیم داده های شبیه به هم رو توی یک خوشه یا cluster جای بدیم. داده های ما دو حالت خواهند داشت که به صورت زیر قابل تفسیر است
- داده های خوشه بندی شده: یعنی یک سری داده هستند که بهم شبیه هستند و تعداد آنها به اندازه ای است که می توانند یک خوشه تشکیل دهند (درباه روش ها و اینکه چطوری تشخیص بدیم یک خوشه چقدر مناسب است، بعدا مفصل توضیح خواهیم داد)
- داده های پرت: داده های که با مجموعه داده ای بسیار متفاوت هستند و می توان آنها را از مجموعه داده ای حذف کرد.
بزارید با یک مثال تحلیل داده های پرت رو دنبال کنیم. فرض کنید ما داده های مربوط به مکان های جغرافیایی مربوط به مشتریان رو داریم و اونها رو روی نقشه مشخص کرده ایم، سپس با کمک تکنیک های خوشه بندی میاییم و خوشه ها رو مشخص می کنیم. همانطور که توی شکل مشخص مشتریان ما تقریبا توی سه منطقه جمع شدن. و سایر مشتریان از این سه خوشه بسیار متفاوت هستند. حالا ما می توانیم از داده ها استفاده کنیم برای تصمیم گیری. مثلا می تونیم از این اطلاعات برای تعیین بهترین مکان برای تاسیس واحد های پشتیبانی و ارتباط با مشتری استفاده کرد (مثلا مرکز خوشه ها بهترین مکان برای تاسیس این واحد ها است چون کمترین فاصله رو از مجموعه مشتریان آن خوشه دارد)
تحلیل داده های پرت مربوط به مکان های جغرافیایی مربوط به مشتریان