روشهای تبدیل و نرمالسازی دادهها در R
روشهای تبدیل و نرمال سازی دادهها در R
در مرحله آمادهسازی دادهها و همچنین در زمان انجام بعضی از تحلیلهای آماری، گاهی نیاز است که تبدیلات خاصی روی داده ها اعمال شود. این تبدیلات با اهداف متفاوتی روی دادهها اعمال میشوند که مهمترین آنها عبارتند از: تبدیلات نرمالسازی (Normalization)، تبدیلات استانداردسازی (Standardization) و تبدیلات باکس-کاکس (Box-Cox). تبدیلات نرمالسازی و استانداردسازی، تبدیلات مقیاسی هستند و تنها مقیاس و دامنه تغییرات دادهها را تغییر میدهند؛ در حالی که در تبدیلات باکس-کاکس، علاوه بر تغییر مقیاس، توزیع دادهها نیز تغییر کرده و به توزیع نرمال نزدیک میشود. در ادامه، با هر کدام از این روشها به طور مختصر آشنا خواهید شد.
1. تغییر مقیاس دادهها با استفاده از تبدیلات نرمالسازی (Normalization)
در مرحله پیشپردازش و آمادهسازی دادهها، گاهی اوقات نیاز است که مقیاس دادهها را تغییر دهیم و به اصطلاح آنها را هم مقیاس کنیم. برای مثال در هنگام خوشه بندی دادهها، باید دامنه تغییرات متغیرها تقریباً یکسان باشد تا الگوریتم خوشه بندی تحت تاثیر مقیاسهای متفاوت قرار نگیرد. یکی از راههایی که برای تغییر مقیاس دادهها به کار میرود، استفاده از تبدیلات نرمال ساز بر روی دادهها است که مهمترین نوع آن روش Min Max است. در این روش مقیاس دادهها به گونه ای تغییر پیدا میکند که دامنه تغییرات دادهها به بازه [0,1] منتقل میشود. در رابطه زیر xmin و xmax به ترتیب کمترین مقدار و بیشترین مقدار در مجموعه داده هستند.
2. تغییر مقیاس دادهها با استفاده از تبدیلات استانداردسازی (Standardization)
تبدیلات استانداردسازی نیز یکی دیگر از راههایی است که باعث ایجاد تغییر در مقیاس دادهها میشود و مهمترین نوع آن، تبدیل Z Score است. در تبدیل Z Score هر داده از میانگین دادهها (µ) کم میشود و حاصل بر انحراف معیار دادهها (σ) تقسیم میشود و به این ترتیب دادههای تبدیل یافته دارای میانگین 0 و انحراف معیار 1 میشوند.
3. نرمال سازی توزیع دادهها با استفاده از تبدیلات باکس-کاکس (Box-Cox)
نرمال بودن توزیع دادهها، به عنوان پیشفرض بسیاری از روشهای آماری از جمله آزمون میانگین جوامع، آزمون تحلیل واریانس، آزمون همبستگی پیرسون و ... محسوب میشود و در صورت نرمال نبودن توزیع دادهها، نتایج به دست آمده از این روشها، قابل استناد نیست. در این موقعیت، با استفاده از تبدیلات خاص، میتوان توزیع دادهها را به توزیع نرمال تغییر داد و پس از آن از روشهای پارامتری استفاده کرد. در غیر این صورت، به سراغ روشهای ناپارامتری که پیش فرض نرمال بودن ندارند، میرویم. به منظور نرمال سازی توزیع دادهها از تبدیلات باکس-کاکس استفاده میشود که نوع خاصی از تبدیلات توانی و غیر خطی هستند. به عبارت دیگر، این تبدیلات زمانی به کار میروند که قصد انجام آزمونهای پارامتری را داریم در صورتی که توزیع دادهها نرمال نیست. در این حالت با استفاده از تبدیل باکس-کاکس، میتوان تغییراتی روی دادهها اعمال کرد به نحوی که توزیع آنها به توزیع نرمال نزدیک شود. تبدیلات باکس-کاکس توسط رابطه زیر تعریف میشوند:
که در آن مقدار پارامتر λ، با استفاده از تابع درستنمایی توزیع نرمال براورد میشود. بعد از اعمال تبدیل باکس-کاکس روی متغیر X، انتظار میرود که متغیر تبدیل یافته Y از توزیع نرمال پیروی کند و به این ترتیب میتوان برای دادههای تبدیلیافته از روشهای پارامتری استفاده کرد.
در این فیلم آموزشی، نحوه انجام این سه دسته از تبدیلات را در زبان برنامه نویسی R، بررسی میکنیم.