نحوه ادغام دادهها با استفاده از خانواده توابع join
ادغام دادهها با استفاده از خانواده توابع join
در زمان انجام پروژهها و تحلیل دادههای واقعی، ممکن است اطلاعاتی که در اختیار ما قرار میگیرد، در منابع جداگانه ذخیره شده باشند. در این حالت، به منظور آمادهسازی و تجمیع دادهها، ابتدا باید اطلاعات موجود را از جداول مختلف ادغام و در یک فایل واحد ذخیره کنیم. به منظور ادغام دادهها، باید یک متغیر با ماهیت مشترک در جداول مختلف وجود داشته باشد تا بر اساس آن بتوان جداول را ادغام کرد.
برای ادغام دادهها، علاوه بر تابع ()merge که در قسمت قبل با آن آشنا شدید، میتوان از خانواده توابع join نیز استفاده کرد. با استفاده از توابع این خانواده که در بسته dplyr قرار دارند، به راحتی میتوان اطلاعات موجود در جداول مختلف را با هم ادغام و در یک جدول واحد ذخیره کرد. در این خانواده، روشهای مختلف ادغام با استفاده از توابع متفاوت قابل انجام است؛
- ادغام داخلی با استفاده از تابع ()inner_join،
- ادغام از راست با استفاده از تابع ()inner_join،
- ادغام از چپ با استفاده از تابع ()inner_join،
- ادغام کامل با استفاده از تابع ()inner_join.
علاوه بر اینها، با استفاده از دو تابع ()anti_join و ()semi_join، در حین عمل ادغام میتوان به نوعی دادهها را فیلتر نیز کرد. همچنین، سرعت پردازش توابع این خانواده نسبت به تابع ()merge خیلی بیشتر است که به عنوان یک مزیت برای این خانواده از توابع میتوان در نظر گرفت.
در این قسمت از مجموعه آموزشی زبان برنامهنویسی R، با نحوه استفاده از خانواده توابع join آشنا خواهید شد.