آموزش داده کاویپیش پردازش داده هاداده کاوی
تکنیک های هموارسازی داده ها : محلی (Local) و سراسری (Global)
قبل از اینکه بخواهیم سایر روش های مربوط به هموارسازی داده ها را بررسی کنیم، نیاز است تا یک مفهوم رو در مورد انواع تکنیک های هموارسازی داده ها بیان کنیم.
ما می توانیم تکنیک های هموارسازی داده ها را بر اساس داده های که بر روی هموار سازی یک داده تاثیر می گذارند را به دو دسته کلی تقسیم نمود. ۱- تکنیک های هموار سازی داده محلی (Local) و ۲- تکنیک های هموار سازی داده سراسری (Global)
مهمترین نقطه تمایز بین این دو روش، تعداد داده های است که در هموار سازی یک داده تاثیر می گذارند. در روش محلی معمولا تعداد داده های تاثیر گزار، کم است و این داده ها معمولا در همسایگی داده مورد نظر قرار دارند، ولی در روش سراسری معمولا سعی می شود از همه داده ها برای هموارسازی یک داده خاص استفاده شود.
تکنیک Binning که بررسی نمودیم ، از نوع محلی بود است، چون دو معیار مربوط به روش های محلی را دارد:
- اینکه تعداد داده های که بر روی هموار سازی یک داده تاثیر دارد کم و محدود است
- داده های تاثیر گزار بر روی یک داده همسایه های یک داده هستند
داده های که درون یک Bin روی هموار سازی همان Bin تاثیر گزار است. داده های یک Bin بر روی هموارسازی داده های Bin دیگری تاثیر نمی گذارند و همچنین داده های Bin های دیگر بر روی آنها تاثیر می گذارد.
در کنار این روش های محلی، روش های نیز وجود دارند سراسری از تمام داده ها را در برای هموارسازی داده ها استفاده میکنند. این روش ها معمولا پرهزینه تر از روش های محلی هستند، و همچنین خروجی به دست آمده از این روش ها بهتر است. در مطالب بعدی دو نمونه از این روش ها را بررسی خواهیم کرد ۱- روش رگرسیون (Regression) و ۲- روش آنالیز داده های خارج از محدوده ( Outlier analysis)