آشنایی با توابع کلیدی بسته dplyr (قسمت اول)

در این فیلم آموزشی با نحوه عملکرد توابع کلیدی ()filter()، arrange و ()slice آشنا می‌شوید.

dplyr filter() arrange() slice() تبدیل داده‌ها آماده‌سازی پیش‌پردازش

آشنایی با توابع کلیدی بسته dplyr

اولین مرحله از فرایند داده‌کاوی (Data Mining)، مرحله پیش‌پردازش و آماده‌سازی داده‌ها است که به عنوان مهم‌ترین بخش فرایند داده‌کاوی شناخته می‌شود. در این مرحله از فرایند، تبدیلاتی بر روی داد‌های خام انجام می‌شود (تبدیل داده‌ها-Data Transformation) و تغییراتی نیز در ساختار و فرمت اولیه جداول اعمال می‌شود (پاک‌سازی داد‌ها-Data Cleaning) تا داده‌ها برای ورود به مراحل بعدی یعنی مرحله مدل‌سازی (Modeling) و مصورسازی (Visualization) آماده شوند. یکی از بسته‌های نرم‌افزاری که به صورت ویژه در مرحله آماده‌سازی داده‌ها مورد استفاده قرار می‌گیرد، بسته dplyr است. این بسته یکی از اعضای بسته نرم‌افزاری tidyverse است که یک مجموعه کامل از ابزارهای لازم برای مراحل مختلف داده‌کاوی شامل ورود اطلاعات، آماده‌سازی داده‌ها، مدل‌سازی، مصورسازی داده‌ها و همچنین مرحله گزارش نتایج به دست آمده است.

توابع موجود در بسته dplyr به منظور ایجاد تبدیلاتی بر روی داده‌ها (Data Transformation) مورد استفاده قرار می‌گیرند و با به‌ کارگیری آن‌ها به راحتی می‌توان تغییرات مدنظر را روی داده‌ها اعمال کرد. این بسته شامل یک سری توابع کلیدی است که بعضی از آن‌ها در ارتباط با مشاهدات یا سطر ها و بعضی دیگر در ارتباط با متغیرها یا ستون‌های یک مجموعه داده است. توابع کلیدی که در این قسمت مورد بررسی قرار می‌دهیم شامل سه تابع ()filter()، arrange و ()slice است که همگی آن‌ها مرتبط با مشاهدات یا سطرهای یک مجموعه داده است.

تابع ()filter یک زیرمجموعه از مشاهدات یا سطر‌ها را بر اساس شروط خاصی انتخاب می‌کند.
تابع ()arrange ترتیب قرارگیری مشاهدات یا سطرها را بر اساس مقادیر ستون‎‌ها تغییر می‌دهد.
تابع ()slice یک زیر مجموعه از مشاهدات را با استفاده از موقعیت قرارگیری آنها انتخاب می‌کند.