آشنایی با توابع کلیدی بسته dplyr (قسمت اول)
آشنایی با توابع کلیدی بسته dplyr
اولین مرحله از فرایند دادهکاوی (Data Mining)، مرحله پیشپردازش و آمادهسازی دادهها است که به عنوان مهمترین بخش فرایند دادهکاوی شناخته میشود. در این مرحله از فرایند، تبدیلاتی بر روی دادهای خام انجام میشود (تبدیل دادهها-Data Transformation) و تغییراتی نیز در ساختار و فرمت اولیه جداول اعمال میشود (پاکسازی دادها-Data Cleaning) تا دادهها برای ورود به مراحل بعدی یعنی مرحله مدلسازی (Modeling) و مصورسازی (Visualization) آماده شوند. یکی از بستههای نرمافزاری که به صورت ویژه در مرحله آمادهسازی دادهها مورد استفاده قرار میگیرد، بسته dplyr است. این بسته یکی از اعضای بسته نرمافزاری tidyverse است که یک مجموعه کامل از ابزارهای لازم برای مراحل مختلف دادهکاوی شامل ورود اطلاعات، آمادهسازی دادهها، مدلسازی، مصورسازی دادهها و همچنین مرحله گزارش نتایج به دست آمده است.
توابع موجود در بسته dplyr به منظور ایجاد تبدیلاتی بر روی دادهها (Data Transformation) مورد استفاده قرار میگیرند و با به کارگیری آنها به راحتی میتوان تغییرات مدنظر را روی دادهها اعمال کرد. این بسته شامل یک سری توابع کلیدی است که بعضی از آنها در ارتباط با مشاهدات یا سطر ها و بعضی دیگر در ارتباط با متغیرها یا ستونهای یک مجموعه داده است. توابع کلیدی که در این قسمت مورد بررسی قرار میدهیم شامل سه تابع ()filter()، arrange و ()slice است که همگی آنها مرتبط با مشاهدات یا سطرهای یک مجموعه داده است.
- تابع ()filter یک زیرمجموعه از مشاهدات یا سطرها را بر اساس شروط خاصی انتخاب میکند.
- تابع ()arrange ترتیب قرارگیری مشاهدات یا سطرها را بر اساس مقادیر ستونها تغییر میدهد.
- تابع ()slice یک زیر مجموعه از مشاهدات را با استفاده از موقعیت قرارگیری آنها انتخاب میکند.