Gemiddelde toerekening verdraai verwantskappe tussen veranderlikes Maar gemiddelde toerekening verwring ook meerveranderlike verwantskappe en beïnvloed statistieke soos korrelasie. Byvoorbeeld, die volgende oproep na PROC CORR bereken die korrelasie tussen die Orig_Height veranderlike en die Gewig en Ouderdom veranderlikes.
Waarom is dit 'n slegte idee om 'n middel vir ontbrekende data te gebruik?
Mean verminder 'n variansie van die data Om dieper in wiskunde te gaan, lei 'n kleiner variansie tot die nouer vertrouensinterval in die waarskynlikheidsverdeling[3]. Dit lei tot niks anders as om 'n vooroordeel aan ons model bekend te stel nie.
Waarom is ontbrekende waardes 'n probleem?
Vermiste data bied verskeie probleme. Eerstens, die afwesigheid van data verminder statistiese krag, wat verwys na die waarskynlikheid dat die toets die nulhipotese sal verwerp wanneer dit vals is. Tweedens kan die verlore data vooroordeel in die skatting van parameters veroorsaak. Derdens kan dit die verteenwoordigendheid van die monsters verminder.
Waarom is gemene toerekening sleg?
Probleem 1: Gemiddelde imputasie behou nie die verwantskappe tussen veranderlikes nie. Dit is waar, die toerekening van die gemiddelde behou die gemiddelde van die waargenome data. As die data dus lukraak heeltemal ontbreek, bly die skatting van die gemiddelde onbevooroordeeld.
Moet jy ontbrekende data vervang met die gemiddelde?
Outliers-datapunte sal 'n beduidende impak op die gemiddelde hê en daarom, in sulke gevalle, word dit nie aanbeveel om die gemiddelde te gebruik vir die vervanging van die ontbrekende waardes nie. Die gebruik van gemiddelde waardes vir die vervanging van ontbrekende waardes sal dalk nie 'n goeie model skep nie en word dus uitgesluit.