ما از کوکی ها برای بهبود تجربه شما در استفاده از سایت استفاده می کنیم. با ادامه استفاده از سایت، شما استفاده از کوکی ها ، سیاست حفظ حریم خصوصی و شرایط استفاده را قبول می کنید.
متوجه شدم!
پایگاه جامع اطلاعات مکانی ایران
پایگاه جامع اطلاعات مکانی ایران تارنما دانش - محتوای کاربردی روش‌های تبدیل و نرمال‌سازی داده‌ها در R

روش‌های تبدیل و نرمال‌سازی داده‌ها در R

روش‌های تبدیل و نرمال‌سازی داده‌ها در R

1402/02/18
در این فیلم آموزشی، با نحوه انجام تبدیلات و روش‌های نرمال سازی داده‌ها در زبان برنامه‌نویسی R آشنا خواهید شد.

روش‌های تبدیل و نرمال سازی داده‌ها در R

در مرحله آماده‌سازی داده‌ها و همچنین در زمان انجام بعضی از تحلیل‌های آماری، گاهی نیاز است که تبدیلات خاصی روی داده ها اعمال شود. این تبدیلات با اهداف متفاوتی روی داده‌ها اعمال می‌شوند که مهم‌ترین آن‌ها عبارتند از: تبدیلات نرمال‌سازی (Normalization)، تبدیلات استانداردسازی (Standardization) و تبدیلات باکس-کاکس (Box-Cox). تبدیلات نرمال‌سازی و استانداردسازی، تبدیلات مقیاسی هستند و تنها مقیاس و دامنه تغییرات داده‌ها را تغییر می‌دهند؛ در حالی که در تبدیلات باکس-کاکس، علاوه بر تغییر مقیاس، توزیع داده‌ها نیز تغییر کرده و به توزیع نرمال نزدیک می‌شود. در ادامه، با هر کدام از این روش‌ها به طور مختصر آشنا خواهید شد.

1. تغییر مقیاس داده‌ها با استفاده از تبدیلات نرمال‌سازی (Normalization)

در مرحله پیش‌پردازش و آماده‌سازی داده‌ها، گاهی اوقات نیاز است که مقیاس داده‌ها را تغییر دهیم و به اصطلاح آن‌ها را هم مقیاس کنیم. برای مثال در هنگام خوشه بندی داده‌ها، باید دامنه تغییرات متغیر‌ها تقریباً یکسان باشد تا الگوریتم خوشه بندی تحت تاثیر مقیاس‌های متفاوت قرار نگیرد. یکی از راه‌هایی که برای تغییر مقیاس داده‌ها به کار می‌رود، استفاده از تبدیلات نرمال ساز بر روی داده‌ها است که مهمترین نوع آن روش Min Max است. در این روش مقیاس داده‌ها به گونه ای تغییر پیدا می‌کند که دامنه تغییرات داده‌ها به بازه [0,1] منتقل می‌شود. در رابطه زیر xmin و xmax به ترتیب کمترین مقدار و بیشترین مقدار در مجموعه داده هستند.

 2. تغییر مقیاس داده‌ها با استفاده از تبدیلات استانداردسازی (Standardization)

تبدیلات استانداردسازی نیز یکی دیگر از راه‌هایی است که باعث ایجاد تغییر در مقیاس داده‌ها می‌شود و مهم‌ترین نوع آن، تبدیل Z Score است. در تبدیل Z Score هر داده از میانگین داده‌ها (µ) کم می‌شود و حاصل بر انحراف معیار داده‌ها (σ) تقسیم می‌شود و به این ترتیب داده‌های تبدیل یافته دارای میانگین 0 و انحراف معیار 1 می‌شوند.

3. نرمال سازی توزیع داده‌ها با استفاده از تبدیلات باکس-کاکس (Box-Cox)

نرمال بودن توزیع داده‎‌ها، به عنوان پیش‌فرض بسیاری از روش‌های آماری از جمله آزمون میانگین جوامع، آزمون تحلیل واریانس، آزمون همبستگی پیرسون و ... محسوب می‌شود و در صورت نرمال نبودن توزیع داده‌ها، نتایج به دست آمده از این روش‌ها، قابل استناد نیست. در این موقعیت، با استفاده از تبدیلات خاص، می‌توان توزیع داده‌ها را به توزیع نرمال تغییر داد و پس از آن از روش‌های پارامتری استفاده کرد. در غیر این صورت، به سراغ روش‌های ناپارامتری که پیش فرض نرمال بودن ندارند، می‌رویم. به منظور نرمال سازی توزیع داده‌ها از تبدیلات باکس-کاکس استفاده می‌شود که نوع خاصی از تبدیلات توانی و غیر خطی هستند. به عبارت دیگر، این تبدیلات زمانی به کار می‌روند که قصد انجام آزمون‌های پارامتری را داریم در صورتی که توزیع داده‌ها نرمال نیست. در این حالت با استفاده از تبدیل باکس-کاکس، می‌توان تغییراتی روی داده‌ها اعمال کرد به نحوی که توزیع آن‌ها به توزیع نرمال نزدیک شود. تبدیلات باکس-کاکس توسط رابطه زیر تعریف می‌شوند:

 

که در آن مقدار پارامتر λ، با استفاده از تابع درستنمایی توزیع نرمال براورد می‌شود. بعد از اعمال تبدیل باکس-کاکس روی متغیر X، انتظار می‌رود که متغیر تبدیل یافته Y از توزیع نرمال پیروی کند و به این ترتیب می‌توان برای داده‌های تبدیل‌یافته از روش‌های پارامتری استفاده کرد.

 

در این فیلم آموزشی، نحوه انجام این سه دسته از تبدیلات را در زبان برنامه نویسی R، بررسی می‌کنیم.

ارسال نظر:


پایگاه جامع اطلاعات مکانی ایران
Rui3DتبifNAByGISUMDPDFDEMMapنصبforstrNaNMAPOSMIDWSumgisSHPshpGPXGPSKMLحریمlinetextrectKnitHTMLgeomjoinpipeپایپplotJoinaxisدادهESRIreadloadCRANnextloopENVIListBaseRingViewhelpClipQGISLineNearبافرToolAreaDATAرسترclipdataJsonDataEditthemeگزارشShinyScaleLabelfacettidyrادغامتجمیعdplyrANOVAToolsExcelSlopeEraseابزارcolorpointUnionlabelpar()mfrowmfcolروبانgroupErrorwriteapplyinputbreakwhile4.6.1آموزشArrayMultiSplitIndexPivotTablePointtoolsSetupوکتورQueryexcelArcGISترافیکserverنمودارunit() T TestBufferپایگاهInsertافزونهImportExportlapplysapplytapplymapplyWebGISwebgisoutputFactorlevelspythonپایتونآموزش VectorMatrixLayoutAspectRasterMosaicArcgisAppendarcgisSelectrasterARCGISNetworkggplot2elementRStudiomerge()slice()Min MaxZ ScoreBox CoxdensityProjectCentralEStudioWarningpackagecontroldatasetsummaryLogicalconvertnumericintegerlogicalRstudioinstallKrigingFishnetConvertAutocadمسیریابیآرامستانTile MapBase Mapمصورسازیgather()spread()magrittrTee pipeselect()mutate()rename()filter()سالیدورکمتاسالیدR StudioQ Q Plotquantilelegend()layout()رنگ بندیPie PlotBox PlotBar Plotdiscretefunctionifelse()groppingvariableWeightedدرونیابیDissolveidentityشیپ فایلجی پی اسAdd Dataلیبل زدنمکان محورنقشه پایهextract()tidy dataداده مرتبfull joinleft joinگروه‌بندیarrange()Hillshadeسایه روشنSymbologyدسته بندیHistogramFrequencyDebuggingargumentsconditionvariablesنرم افزارcharacterworkspacedirectoryAttributeAdd FieldProximityintersectShapeFileshapefileShapefilesymbologyسیمبولوژیMobile GISتصویر گوگلR MarkdownCoordinateseparate()inner joinright joinادغام کاملgroup_by()عملگر پایپrelocate()آماده‌سازیپیش‌پردازشsolidworksSolidWorksset.seed()ArcGIS ProProjectionDigitizingرقومی سازیOperationsRelationalData FrameGoogle mapReclassifyCalculatorArcGIS PROFeature Toarcgis procoordinateShape fileسفارشی سازیادغام داخلیادغام از چپsummarise()Two Samplesسیستم تصویرGeodatabaseQualitativedescriptiveDescriptiveVariabilityprogrammingProgrammingافزایش سرعتابزار Eraseابزار Splitبرچسب گذاریافزودن دادهابزار مکانینقشه کاداستربرنامه نویسیShapiro Wilkdistributionسیستم مختصاتScatter PlotMathematicalSpatial joinمحاسبه مساحتOpenStreatMapvisualizationData Cleaningpivot_wider()ادغام از راستpipe operatorpreprocessingتبدیل داده‌هاOne way ANOVANormalizationcustomizationArcGIS ServerArcgis Serverاسکریپت نویسیGlobal Mapperpivot_longer()Paired Samplesنمودار جعبه‌اینمودار میله‌ایJavaScript APIMissing ValuesData StructurePoint Distanceتخلفات ساختمانیWeb ApplicationAssignment pipeExposition pipeStandardizationمعرفی نرم افزارنمودار دایره‌ایFactor Variableنصب نرم‌افزار RSpatial Databaseinstall.packagesLogical Operatorنصب و راه اندازیابزارهای کاربردیپایگاه داده مکانیOne Sample T Testمدل رقومی ارتفاعیworking directoryنرم افزار سالیدورکKolmogorov Smirnovابزار table selectبرنامه نویسی WebGISRelational OperatorGenerate Near Tableسیستم اطلاعات مکانیAnalysis of varianceSymmetrical Differenceآموزش نرم افزار arcgisClosest facility analysis

©BRB تمامی حقوق طراحی سایت متعلق به شرکت دانش‌بنیان بهین ره‌آورد بهبود می باشد.