بررسی نرمال بودن دادهها
روشهای بررسی نرمال بودن توزیع دادهها
یکی از توزیعهای مهم آماری و شاید بتوان گفت مهمترین آنها، توزیع نرمال است. توزیع نرمال به دلیل داشتن ویژگیهایی مثل تقارن و همچنین ارتباط آن با قضیه حد مرکزی، از توجه ویژهای برخوردار است. همچنین، نرمال بودن توزیع دادهها، به عنوان پیشفرض بسیاری از روشهای آماری از جمله آزمون مقایسه میانگین جوامع (آزمون تی استیودنت)، آزمون تحلیل واریانس، آزمون همگنی واریانس جوامع (آزمون فیشر)، آزمون همبستگی پیرسون و ... محسوب میشود و در صورت عدم برقراری فرض نرمالیتی، مجاز به استفاده از این روشها نیستیم. به عبارت دیگر، در صورت نرمال نبودن توزیع دادهها، نتایج به دست آمده از این روشها، قابل استناد نیست. لذا، قبل از انجام این روشها، باید فرض نرمال بودن توزیع دادهها بررسی و از نرمال بودن دادهها اطمینان حاصل شود. به منظور بررسی فرض نرمال بودن توزیع دادهها، روشهای مختلفی وجود دارد که به دو دسته کلی تقسیم میشوند. این دو دسته عبارتند از روشهای توصیفی که شامل رسم نمودارهای مختلف است و روشهای استنباطی که به وسیله آزمونهای آماری مختلف انجام میشوند.
در روش توصیفی، ابتدا میتوان نمودار هیستوگرام دادهها را رسم کرد و آن را با منحنی چگالی توزیع نرمال مقایسه کرد. همچنین میتوان نمودار چندک - چندک دادهها را نیز رسم کرد. در نمودار چندک-چندک (Q-Q Plot)، چندکهای یک توزیع احتمال خاص (که در اینجا توزیع نرمال است) در برابر چندکهای نمونهای دادهها رسم میشوند. هر چه مقادیر چندکها در نمودار پراکنش رسم شده، در راستای یک خط مستقیم قرار بگیرند؛ توزیع دادهها به توزیع مورد نظر نزدیکتر خواهد بود. همچنین در ادامه، نحوه انجام آزمونهای آماری شاپیرو-ویلک (Shapiro-Wilk) و کلموگروف-اسمیرنف (Kolmogorov-Smirnov) در نرمافزار R را مورد بررسی قرار میدهیم که از جمله روشهای استنباطی بررسی فرض نرمال بودن دادهها هستند. با استفاده از این دو آزمون آماری، میتوان فرض نرمال بودن توزیع دادهها را به طور دقیقتر مورد ارزیابی قرار داد. در این قسمت از مجموعه آموزشی، به بررسی روشهای نرمال بودن توزیع یک مجموعه داده در نرمافزار R، میپردازیم.