Comment utiliser la régression multiple dans Excel
Excel est un outil puissant pour l'analyse des données, que vous travailliez avec une relation simple entre une variable indépendante et une variable dépendante ou qu'il y ait plusieurs variables indépendantes à prendre en compte. Apprendre à effectuer une analyse multivariée dans Excel - sous la forme d'une régression multiple - et à interpréter les résultats est essentiel si vous avez des données complexes à traiter. La bonne nouvelle est qu'Excel est bien configuré pour gérer ces tâches, et il vous suffit d'apprendre le fonctionnement d'une fonction pour commencer à donner un sens à vos données.
Qu'est-ce que la régression multiple ?
La régression multiple est un moyen de relier plusieurs variables indépendantes à une seule variable dépendante en trouvant une équation qui décrit comment la variable en question change avec chacune. Un outil plus basique mais similaire est la régression linéaire, qui vise à étudier le lien entre une variable indépendante, comme l'obésité, et une variable dépendante comme le risque de cancer, mais les choses sont rarement aussi simples. Poursuivant avec l'exemple, le nombre de cigarettes fumées par jour est également lié au risque de cancer, tout comme la quantité d'alcool que vous buvez. Pour arriver à une prédiction fiable du risque de cancer pour un individu, vous devez prendre en compte tous ces facteurs (et bien d'autres).
La forme générale de l'équation utilisée pour les régressions multiples est :
O ^ =un + b x + b x + b x …
Alors le Y ^ est la valeur attendue pour l'observation, le b et ainsi de suite représentent la pente de la relation linéaire entre x et O ^, et le x et ainsi de suite sont les variables incluses dans l'analyse. Le un vous indique le point du y -intercepter. Une régression multiple consiste à choisir les valeurs des coefficients (b et ainsi de suite) qui minimisent la différence entre la valeur attendue Y ^ et la valeur observée Y , vous offrant le meilleur ajustement entre le modèle et les données.
Que vous dit une régression multiple ?
Les régressions multiples placent des valeurs numériques sur l'association entre une multitude de variables et un résultat, vous pouvez donc l'utiliser pour des prédictions, pour estimer les contributions relatives des différentes variables au résultat, ou à quelques autres fins comme la sélection des variables les plus pertinentes à utiliser dans un modèle mathématique.
Par exemple, disons que vous avez des données sur les prix des maisons dans une certaine ville (votre variable dépendante), ainsi que des informations comme si elle a une piscine, combien de pieds carrés elle occupe, combien de chambres elle a, combien de salles de bain elle a , et combien de garages il a. Une régression multiple vous permettrait de voir comment chacun de ces facteurs est lié au prix de la maison, donc - après avoir regardé comment ils sont liés au prix - vous pouvez utiliser votre équation pour prédire le prix d'une maison en fonction de ces facteurs. points seuls.
Vous pouvez également utiliser ce type d'analyse de régression dans Excel pour examiner comment un facteur spécifique parmi plusieurs - par exemple si la maison a une piscine - affecte la variable dépendante (prix de l'immobilier) si toutes les autres variables restent constantes. Si vous convertissez les coefficients (appelés "coefficients de régression partielle") en coefficients de régression partielle standard, qui représentent le nombre d'écarts types Y changerait si vous modifiiez la variable correspondante d'un écart type, l'équation vous indique également quels facteurs sont les plus importants pour déterminer le résultat.
Comment faire une régression multiple dans Excel
Vous pouvez effectuer une régression multivariée dans Excel à l'aide d'une fonction intégrée accessible via l'analyse des données sous l'outil Données et l'onglet Analyse groupe. Cliquez sur Analyse des données et trouvez l'option de régression dans la fenêtre qui apparaît, mettez-le en surbrillance et cliquez sur OK . Cliquez sur sélectionner des cellules icône à côté de la Plage Y d'entrée puis sélectionnez la colonne contenant les résultats pour votre variable dépendante. Ensuite, faites de même pour la Plage d'entrée X mais sélectionnez les colonnes multiples pour vos variables indépendantes. Ces colonnes doivent être côte à côte, donc si elles ne le sont pas, vous devez les déplacer avant de produire la régression.
La fenêtre de régression propose une gamme d'options supplémentaires que vous pouvez sélectionner pour adapter le processus à vos besoins. Par exemple, vous pouvez définir un niveau de confiance autre que 95 % si vous le souhaitez, choisir d'afficher les valeurs résiduelles et spécifier l'emplacement de la sortie dans votre classeur. Cette dernière option est automatiquement définie sur Nouveau pli de feuille de calcul, les résultats s'affichent donc sur une nouvelle feuille, mais vous pouvez modifier cette option ou toute autre option en fonction de vos besoins. De plus, vérifiez les libellés case si les colonnes de vos variables indépendantes ont des étiquettes en haut, afin qu'elles s'affichent dans la sortie.
Cliquez sur OK pour générer votre analyse de régression dans Excel et être redirigé vers la nouvelle feuille.
La sortie de régression d'Excel
La sortie qui vous est présentée après avoir effectué une régression multiple dans Excel comporte trois sections principales :statistiques de régression, ANOVA et détails sur la ligne de régression estimée. Les statistiques de régression incluent le coefficient de corrélation multiple ("Multiple R") qui montre la direction et la force de la corrélation, de -1 à +1. Le coefficient de détermination, "R Square", vous indique quel pourcentage (sous forme décimale) de la variation de la variable dépendante est expliqué par les variables indépendantes. Le "R carré ajusté" vous donne une indication du pouvoir explicatif, mais il n'est pas simple à interpréter, et "l'erreur standard" vous donne une mesure de la variation entre les résultats observés et votre droite de régression.
La section ANOVA contient des informations statistiques sur le montant de la variation expliquée par la ligne de régression, avec "SS Regression" vous indiquant le montant expliqué par la ligne, et "SS Residual" représentant le montant non expliqué. Les sections "MS" signifient "Mean Square" et la "Statistique F" est la statistique de test utilisée pour tester un résultat significatif, la section "Signification F" vous donnant la valeur P.
Enfin, la dernière section vous indique les caractéristiques de la ligne de régression estimée, en particulier les valeurs des coefficients, s'ils sont significativement liés à la variable dépendante et la quantité de variation qu'il pourrait y avoir. Les coefficients positifs montrent une relation positive entre la variable en question et la variable dépendante, donc quand l'un augmente, l'autre aussi. Des valeurs négatives signifient que la variable dépendante diminue à mesure que la variable indépendante augmente. Ainsi, si le coefficient de "pied carré" sur une régression multiple des prix des maisons est de 300, cela signifie qu'un pied carré supplémentaire d'espace augmente le coût de la maison de 300 $ en moyenne.
Hypothèses et limites de la régression multiple
Il est important de se rappeler que la régression multiple n'est qu'un outil, et comme la plupart des outils, vous ne pouvez l'utiliser que dans certaines circonstances, et il y a certaines choses qu'il ne peut tout simplement pas faire.
L'une des limites les plus importantes est qu'il est difficile de conclure à la causalité sur la base des résultats. Par exemple, si vous avez une régression multiple avec les dégâts causés par un incendie et de nombreux facteurs potentiellement pertinents, vous trouverez probablement un lien significatif entre le nombre de pompiers présents et les dégâts causés. Cela ne signifie pas que les pompiers ont causé les dégâts, car un autre facteur tel que la taille de l'incendie non inclus dans le modèle pourrait expliquer ces deux observations.
Deux hypothèses importantes d'une analyse multivariée dans Excel de ce type sont les hypothèses de linéarité et de normalité. Vous supposez une relation linéaire entre les variables dépendantes et indépendantes, vous devez donc vérifier que cela est susceptible d'être valide avant d'effectuer l'analyse. Vous pouvez examiner la relation entre chaque variable individuellement pour vérifier, mais ce n'est pas une stratégie parfaite. De même, le test suppose que les variables sont distribuées normalement, vous devez donc vérifier la normalité des résultats pour chacune avant d'effectuer le test.