>> Électroniques Technologie >  >> Maison intelligente >> Vie intelligente

Comment supprimer les valeurs aberrantes dans SPSS

Les valeurs aberrantes dans les analyses statistiques sont des valeurs extrêmes qui ne semblent pas correspondre à la majorité d'un ensemble de données. Si elles ne sont pas supprimées, ces valeurs extrêmes peuvent avoir un effet important sur les conclusions qui pourraient être tirées des données en question, car elles peuvent fausser les coefficients de corrélation et les lignes de meilleur ajustement dans la mauvaise direction. SPSS est l'un des nombreux logiciels d'analyse statistique qui peuvent être utilisés pour interpréter un ensemble de données et identifier et supprimer les valeurs aberrantes.

Analyse exploratoire des données

Étape 1

Cliquez sur "Analyser". Sélectionnez "Statistiques descriptives" suivi de "Explorer".

Étape 2

Faites glisser et déposez les colonnes contenant les données de la variable dépendante dans la zone intitulée "Liste dépendante". Cliquez sur "OK".

Étape 3

Supprimez toutes les valeurs aberrantes identifiées par SPSS dans les diagrammes à tiges et à feuilles ou les diagrammes en boîte en supprimant les points de données individuels. Vous pouvez également configurer un filtre pour exclure ces points de données.

Étape 4

Sélectionnez « Données », puis « Sélectionner des cas » et cliquez sur une condition qui comporte des valeurs aberrantes que vous souhaitez exclure. Déterminez une valeur pour cette condition qui exclut uniquement les valeurs aberrantes et aucun des points de données non aberrants.

Étape 5

Choisissez "Si la condition est satisfaite" dans la case "Sélectionner", puis cliquez sur le bouton "Si" juste en dessous. Entrez la règle pour exclure les valeurs aberrantes que vous avez déterminées à l'étape précédente dans la zone en haut à droite. Par exemple, si vous excluiez les mesures supérieures à 74,5 pouces de la condition "taille", vous saisiriez "hauteur <=74,5". Cliquez sur "Continuer" et "OK" pour activer le filtre.

Analyse de régression

Étape 1

Dans le menu "Analyser", sélectionnez "Régression" puis "Linéaire". Sélectionnez les variables dépendantes et indépendantes que vous souhaitez analyser.

Étape 2

Cliquez sur « Enregistrer », puis sélectionnez « Distance de Cook ». Les valeurs calculées pour la distance de Cook seront enregistrées dans votre fichier de données en tant que variables étiquetées "COO-1".

Étape 3

Exécutez un boxplot en sélectionnant "Graphs" suivi de "Boxplot". Cliquez sur « Simple » et sélectionnez « Résumés des variables distinctes ». Entrez "COO-1" dans la case intitulée "Les cases représentent", puis entrez un ID ou un nom permettant d'identifier les cas dans la case "Etiqueter les cas par".

Étape 4

Agrandissez la boîte à moustaches dans le fichier de sortie en double-cliquant dessus. Notez les cas qui se trouvent au-delà des lignes noires - ce sont vos valeurs aberrantes. Vous pouvez choisir de supprimer toutes les valeurs aberrantes ou uniquement les valeurs aberrantes extrêmes, qui sont signalées par une étoile (*).

Étape 5

Retournez dans le fichier de données et localisez les cas qui doivent être effacés. En travaillant de bas en haut, mettez en surbrillance le nombre à l'extrême gauche, dans la colonne grise, de sorte que la ligne entière soit sélectionnée. Cliquez sur "Modifier" et sélectionnez "Effacer". Répétez cette étape pour chaque valeur aberrante que vous avez identifiée à partir de la boîte à moustaches.

Avertissement

Lorsque vous effacez des cas dans la section 2, étape 5, travaillez toujours à partir du bas du fichier de données en remontant car les numéros d'identification changent lorsque vous effacez un cas. Si vous travaillez de haut en bas, vous finirez par effacer les mauvais cas.


Vie intelligente