آشنایی با توابع ()gather و ()spread در R
تبدیل جداول نامرتب به فرمت مرتب شده در بسته dplyr
اولین مرحله از فرایند دادهکاوی (Data Mining)، مرحله پیشپردازش و آمادهسازی دادهها است که به عنوان مهمترین بخش فرایند دادهکاوی شناخته میشود. در مرحله آمادهسازی دادهها معمولاً دو کار مهم صورت میگیرد: تبدیل دادهها (Data Transformation) و پاکسازی دادهها (Data Cleaning). در قسمتهای قبلی با توابع موجود در بسته dplyr آشنا شدید که برای انجام تبدیلات روی دادهها مورد استفاده قرار میگرفتند. یکی دیگر از بستههای نرمافزاری مهم که در مرحله آمادهسازی و بهطور ویژه برای پاکسازی دادهها بهکار میرود، بسته tidyr است. با استفاده از توابع موجود در این بسته که یکی دیگر از اعضای مجموعه tidyverse است، به راحتی میتوان ساختار دادهها را به یک ساختار استاندارد و مرتب شده تبدیل کرد؛ طوری که کار با دادههای ساختاریافته جدید، در مراحل بعدی آسانتر شود.
در ادامه مجموعه آموزشهای نرمافزار R، قصد داریم توابع بسته tidyr را مورد بررسی قرار دهیم. در این قسمت، ابتدا با مفهوم داده مرتب (Tidy Data) که نوعی ساختار ثابت برای دادهها است، آشنا خواهید شد. بهطور خلاصه، وقتی دادههای شما مرتب هستند هر ستون یک متغیر و هر سطر یک مشاهده است و هر مقدار نیز در سطر و ستون مختص خود قرار دارد. پس از آشنایی با ساختار دادههای مرتب، با استفاده از توابع ()gather و ()spread، نحوه تبدیل جداول با فرمتهای نامرتب به فرمت مرتب شده (tidy) را بررسی میکنیم.