Régression linéaire : définition, fonctionnement et interprétation

Régression linéaire : définition, fonctionnement et interprétation

La régression linéaire est un modèle qui permet de réaliser des prédictions. À partir d'un algorithme d'apprentissage supervisé, une relation linéaire établit la relation entre une variable expliquée et une variable explicative.

Une régression linéaire, c'est quoi ?

En partant d'un nuage de points, une régression linéaire simple consiste à déterminer une droite passant au plus près des points de ce nuage (ou ajustement linéaire). Objectif : déterminer une variable dite explicative ou indépendante (sur l'axe des abscisses) par rapport à une variable dite expliquée ou indépendante (axe des ordonnés). Dans une régression linéaire multiple, on aura au moins deux variables explicatives. Cet algorithme pourra donner lieu à une phase d'apprentissage (machine learning), en fonction d'un nuage de points d'entrainement pour ensuite réaliser des prédiction par rapport à de nouveaux points. 

Un cas d'usage ? Une analyse des données de vente via une régression linéaire peut aider à découvrir des habitudes d'achat spécifiques, correspondant à certains jours ou à certaines heures. Les éclairages recueillis via l'analyse de régression peuvent aider les dirigeants à anticiper les périodes de forte demande.

Quel est le principe d'une régression linéaire ?

La régression linéaire consiste à tracer une droite au plus proche des points quand ces derniers forment un nuage avec une forme allongé et suggèrent une relation statistique explicative (voir graphique ci-dessous).  La variable peut se traduire par un pourcentage. Exemple : le nombre de fumeurs en fonction du nombre d'années écoulés.

Nuage de points associé à une courbe représentant une régression linéaire. © tomeqs / 123RF

Comment calculer une régression linéaire ?

Une régression linéaire simple consiste à identifier l'équation d'une droite expliquant la répartition d'un nuage de points. On peut l'écrire : y = ax + b. L'objectif est de trouver les valeurs de a (la pente) et de b (l'ordonnée à l'origine).

Pour être appliqué, une régression linéaire implique plusieurs prérequis : des variables continues (dates, heures, poids, prix, vitesse...). Il doit exister par ailleurs une relation linéaire entre les deux variables étudiées, par exemple la hausse d'une action en bourse et la position prise par les acheteur de cette valeur.

Comment interpréter les résultats d’une régression linéaire ?

La régression linéaire permet de mettre en corrélation différentes variables. Les résultats obtenus restent des prédictions, voire des estimations. Par conséquent, il persiste un domaine d’incertitudes, et ce, malgré la fiabilité du système. L’interprétation doit donc considérer le modèle linéaire comme un support d’aide à la décision et non comme une vérité établie.

Comment faire une régression linéaire sur Excel ?

il est possible de réaliser une régression linéaire en utilisant Excel. Après avoir installé l’extension XLSTAT, il faut lancer la commande, sélectionner l’onglet "modélisation des données", puis la fonction "régression linéaire". Le paramétrage se fait de la manière suivante :

  • Définir les variables dépendantes et explicatives,
  • Activer le libellé des colonnes,
  • Sélectionner l’option "Résidus" avant d’analyser les données.

Il est possible de déterminer d’autres options à partir des onglets validation, prédiction ou graphiques. Tout dépend du modèle statistique que l’on souhaite obtenir, le degré de précision et la nature des variables à rapprocher.

Régression linéaire simple vs régression linéaire multiple : quelle différence  

La régression linéaire simple développe son modèle sur l’usage d’une seule variable expliquée (dépendante) pour générer une variable explicative ou prédictive. La régression linéaire multiple permet de dégager au moins deux variables explicatives. 

Comment faire une régression linéaire avec R et avec Python ?

Après avoir installé R ou Python, l’emploi de la régression linéaire demande d’intégrer des bibliothèques et données. Pour R, on pourra utiliser la fonction read_csv2. S’il s’agit de Python, il est nécessaire de posséder la bibliothèque Pandas. Il est également recommandé d’installer les modules Numpy et Matplotlib pour bénéficier des outils de visualisation.