آشنایی با توابع کلیدی بسته dplyr
اولین مرحله از فرایند دادهکاوی (Data Mining)، مرحله پیشپردازش و آمادهسازی دادهها است که به عنوان مهمترین بخش فرایند دادهکاوی شناخته میشود. در این مرحله از فرایند، تبدیلاتی بر روی دادهای خام انجام میشود (تبدیل دادهها-Data Transformation) و تغییراتی نیز در ساختار و فرمت اولیه جداول اعمال میشود (پاکسازی دادها-Data Cleaning) تا دادهها برای ورود به مراحل بعدی یعنی مرحله مدلسازی (Modeling) و مصورسازی (Visualization) آماده شوند. یکی از بستههای نرمافزاری که به صورت ویژه در مرحله آمادهسازی دادهها مورد استفاده قرار میگیرد، بسته dplyr است. این بسته یکی از اعضای بسته نرمافزاری tidyverse است که یک مجموعه کامل از ابزارهای لازم برای مراحل مختلف دادهکاوی شامل ورود اطلاعات، آمادهسازی دادهها، مدلسازی، مصورسازی دادهها و همچنین مرحله گزارش نتایج به دست آمده است.
توابع موجود در بسته dplyr به منظور ایجاد تبدیلاتی بر روی دادهها (Data Transformation) مورد استفاده قرار میگیرند و با استفاده از آنها به راحتی میتوان تغییرات مدنظر را روی دادهها اعمال کرد. بسته dplyr شامل یک سری توابع کلیدی است که بعضی از آنها در ارتباط با مشاهدات یا سطر ها و بعضی دیگر در ارتباط با متغیرها یا ستونهای یک مجموعه داده است. توابع کلیدی که در این قسمت مورد بررسی قرار میدهیم شامل چهار تابع ()select()، mutate()، rename و ()relocate است که همگی آنها مرتبط با متغیرها یا ستونهای یک مجموعه داده است.
©BRB تمامی حقوق طراحی سایت متعلق به شرکت دانشبنیان بهین رهآورد بهبود می باشد.