Régression logistique : comprendre ce modèle d'analyse

Régression logistique : comprendre ce modèle d'analyse La régression logistique est un modèle d'analyse multivariée, très utilisé dans le domaine du machine learning. Elle est la base de nombreux algorithmes d'apprentissage automatique.

La régression logistique, c'est quoi ?

La régression logistique est un modèle mathématique qui estime la probabilité qu'un événement ait lieu (variable expliquée) sur la base d'un ensemble de variables indépendantes ou variables explicatives. C'est-à-dire un ensemble d'éléments susceptibles d'influencer cet évènement.

Le résultat de la régression logistique étant une probabilité, il se situe par conséquent entre 0 et 1. Quand la valeur est supérieure à 0,5, l'événement est susceptible de se produire. Quand elle est inférieure à 0,5, il ne l'est pas.  Partant de là, la régression logistique est utilisée aussi bien pour bâtir des modèles de prédiction que de classification, via la l'optimisation de coefficients de régression. 

Quand utilise-t-on la régression logistique ?

La régression logistique est bien adaptée aux variables explicatives indépendantes qu'elles soient continues ou catégorielles dichotomiques, et aux variables expliquées (ou prédites) catégorielles et dichotomiques (c'est-à-dire codées entre 0 et 1).

Quels sont les cas d'usage de la régression logistique ?

La régression logistique est utilisée dans de nombreux domaines : 

  • La prédiction des phénomènes d'attrition tant chez les collaborateurs que chez les clients via l'analyse de comportements particuliers, 
  • En épidémiologie, elle permet d'estimer qu'une population donnée a une probabilité plus importante de contracter une maladie, 
  • Dans la finance, elle est utilisée pour détecter les profils à risque lors de la contractualisation d'un prêt.
  • On a aussi recours à la régression logistique pour prédire les fraudes en identifiant des anomalies dans les comportements des utilisateurs. 
  • Dans le domaine des ventes, elle permet de cibler une fraction de la clientèle qui sera sensible à un ensemble de  produits données.
  • Dans le domaine bancaire, elle permet de détecter les groupes à risque lors de la souscription d'un crédit.

Comment interpréter les résultats de la régression logistique ?

Le résultat d'une régression logistique est toujours situer entre 0 et 1. S'il est proche de 0, la probabilité que l'événement survienne est faible, s'il est proche de 1 elle est forte.

Comment faire une régression logistique ?

La régression logistique implique un certain nombre de prérequis. D'abord comme indiqué plus haut, les variables explicatives doivent être indépendantes. Elles peuvent être continues ou catégorielles dichotomiques. Quant aux variables expliquées (ou prédites), elles seront forcément catégorielle ou dichotomiques (c'est-à-dire codées entre 0 et 1). On doit évidemment se limiter au variables pertinentes et éliminer les valeurs extrêmes résiduels. Le jeu de données doit être suffisamment volumineux, avec a minima 10 observations ou événements par variable. 

La régression logistique en machine learning

En machine learning,  la régression logistique se classe dans la catégorie des modèles d'apprentissage supervisés de classification. Voici deux tutoriels permettant de se familiariser avec le concept : 

Régression logistique binaire vs régression logistique multinomiale : quelle différence ?

La régression logistique binaire est le principe de base de ce modèle, permettant d'obtenir un résultat de type binaire oui ou non, vrai ou faux, succès ou échec. On obtient une réponse simple avec le choix de deux solutions.

La régression logistique multinomiale est une régression linéaire qui produit un résultat continu. Elle fonctionne avec une variable qui s'applique à plus de deux catégories.

La régression logistique conditionnelle, c'est quoi ?

La régression logistique conditionnelle s'adresse à un même groupe, en lui proposant des choix ou des variables différentes (exemple : choix d'une activité physique avec plusieurs propositions : vélo, gym...), avec pour chacune des caractéristiques (prix, dépense calorique…). Dans le cas d'une régression logistique conditionnelle, ces variables se combinent via des variables toujours de type binaire.

Comment faire une régression logistique dans Excel ?

Pour réaliser une régression logistique dans Excel, il est recommandé d'utiliser un outil tel que XLSTAT, et de suivre différentes étapes :

  • ouvrir XLSTAT ;
  • choisir "Modélisation des données" ;
  • choisir l'onglet "Régression logistique" ;
  • sélectionner les données sur la feuille Excel ;
  • remplir la case "Réponse de type binaire" ;
  • remplir les cases de variables explicatives (sélectionner "Libellé des variables" puis remplir les variables quantitatives et qualitatives) ;
  • cliquer sur "ok" pour obtenir le résultat final.

Régression logistique vs régression linéaire : quelle différence ?

La régression logistique permet d'obtenir un résultat constant, avec une réponse de type oui ou non, vrai ou faux...

Comme la régression logistique, la régression linéaire est un algorithme d'apprentissage qui dépend de variables explicatives ou prédictives. Elle fournit un résultat continu (données chiffrées). Par exemple, il peut s'agir de déterminer le nombre d'utilisateurs d'un site en ligne, selon l'heure de la journée. La régression linéaire s'apparente beaucoup à une régression logistique de type multinomial.