آشنایی با توابع کلیدی بسته dplyr (قسمت دوم)
آشنایی با توابع کلیدی بسته dplyr
اولین مرحله از فرایند دادهکاوی (Data Mining)، مرحله پیشپردازش و آمادهسازی دادهها است که به عنوان مهمترین بخش فرایند دادهکاوی شناخته میشود. در این مرحله از فرایند، تبدیلاتی بر روی دادهای خام انجام میشود (تبدیل دادهها-Data Transformation) و تغییراتی نیز در ساختار و فرمت اولیه جداول اعمال میشود (پاکسازی دادها-Data Cleaning) تا دادهها برای ورود به مراحل بعدی یعنی مرحله مدلسازی (Modeling) و مصورسازی (Visualization) آماده شوند. یکی از بستههای نرمافزاری که به صورت ویژه در مرحله آمادهسازی دادهها مورد استفاده قرار میگیرد، بسته dplyr است. این بسته یکی از اعضای بسته نرمافزاری tidyverse است که یک مجموعه کامل از ابزارهای لازم برای مراحل مختلف دادهکاوی شامل ورود اطلاعات، آمادهسازی دادهها، مدلسازی، مصورسازی دادهها و همچنین مرحله گزارش نتایج به دست آمده است.
توابع موجود در بسته dplyr به منظور ایجاد تبدیلاتی بر روی دادهها (Data Transformation) مورد استفاده قرار میگیرند و با استفاده از آنها به راحتی میتوان تغییرات مدنظر را روی دادهها اعمال کرد. بسته dplyr شامل یک سری توابع کلیدی است که بعضی از آنها در ارتباط با مشاهدات یا سطر ها و بعضی دیگر در ارتباط با متغیرها یا ستونهای یک مجموعه داده است. توابع کلیدی که در این قسمت مورد بررسی قرار میدهیم شامل چهار تابع ()select()، mutate()، rename و ()relocate است که همگی آنها مرتبط با متغیرها یا ستونهای یک مجموعه داده است.
- تابع ()select یک زیرمجموعه از متغیرها یا ستونهای مجموعه داده را انتخاب میکند.
- تابع ()mutate متغیرهای جدید را بر اساس متغیرهای موجود در مجموعه داده میسازد.
- تابع ()rename نام متغیرها یا ستونهای موجود در مجموعه داده را تغییر میدهد.
- تابع ()relocate ترتیب قرارگیری متغیرها یا ستونها را تغییر میدهد.