آشنایی با توابع ()gather و ()spread در R

در این فیلم آموزشی، با نحوه تبدیل جداول نامرتب به فرمت مرتب با استفاده از توابع ()gather و ()spread آشنا خواهید شد.

tidyr gather() spread() tidy data داده مرتب

تبدیل جداول نامرتب به فرمت مرتب شده در بسته dplyr

اولین مرحله از فرایند داده‌کاوی (Data Mining)، مرحله پیش‌پردازش و آماده‌سازی داده‌ها است که به عنوان مهم‌ترین بخش فرایند داده‌کاوی شناخته می‌شود. در مرحله آماده‌سازی داده‌ها معمولاً دو کار مهم صورت می‌گیرد: تبدیل داده‌ها (Data Transformation) و پاکسازی داده‌ها (Data Cleaning). در قسمت‌های قبلی با توابع موجود در بسته dplyr آشنا شدید که برای انجام تبدیلات روی داده‌ها مورد استفاده قرار می‌گرفتند. یکی دیگر از بسته‌های نرم‌افزاری مهم که در مرحله آماده‌سازی و به‌طور ویژه برای پاک‌سازی داده‌ها به‌کار می‌رود، بسته tidyr است. با استفاده از توابع موجود در این بسته که یکی دیگر از اعضای مجموعه tidyverse است، به راحتی می‌توان ساختار داده‌ها را به یک ساختار استاندارد و مرتب شده تبدیل کرد؛ طوری که کار با داده‌های ساختاریافته جدید، در مراحل بعدی آسان‌تر ‌شود.

در ادامه مجموعه آموزش‌های نرم‌افزار R، قصد داریم توابع بسته tidyr را مورد بررسی قرار دهیم. در این قسمت، ابتدا با مفهوم داده‌ مرتب (Tidy Data) که نوعی ساختار ثابت برای داده‌ها است، آشنا خواهید شد. به‌طور خلاصه، وقتی داده‌های شما مرتب هستند هر ستون یک متغیر و هر سطر یک مشاهده است و هر مقدار نیز در سطر و ستون مختص خود قرار دارد. پس از آشنایی با ساختار داده‌های مرتب، با استفاده از توابع ()gather و ()spread، نحوه تبدیل جداول با فرمت‌های نامرتب به فرمت مرتب شده (tidy) را بررسی می‌کنیم.