در این قسمت از مجموعه آموزشی با دادههای گمشده و نحوه شناسایی آنها در نرمافزار R آشنا خواهید شد.
داده های گمشده و بدون مقدار (Missing Values)
در هنگام جمعآوری داده ها ممکن است بخشی از دادهها به دلایل گوناگون از جمله اشتباه کاربر و یا موجود نبودن مقادیر در زمان ثبت داده و ...، در دسترس نباشند. این نوع از دادهها، داده گمشده (Missing Value) محسوب میشوند و باید در زمان تحلیل به نوعی آنها را مدیریت کرد. در نرمافزار R، دادههای گمشده و بدون مقدار با نماد NA (Not Available) نمایش داده می شوند. همچنین برخی محاسبات میتوانند به مقادیر تعریف نشده و یا غیر ممکن منجر شوند، برای مثال محاسبه مقدار لگاریتم یک عدد منفی و یا تقسیم یک عدد بر صفر. مقادیر تعریف نشده نیز با نماد NaN (Not a Number) نمایش داده می شوند که نوع خاصی از مقادیر گمشده محسوب میشوند.
برخی از توابع R، از دادههای گمشده چشم پوشی نمیکنند و بنابراین شناسایی دادههای گمشده از اهمیت بالایی برخوردار است. بعد از مرحله شناسایی باید درباره نحوه برخورد با آنها (حذف و یا جایگزینی) تصمیم گرفته شود. در این فیلم آموزشی با نحوه شناسایی و مدیریت دادههای گمشده در یک مجموعه داده آشنا میشویم.