Régression logistique : définition et cas d'usage

La régression logistique est un modèle d'analyse multivariée, très utilisé dans le domaine du machine learning. Elle est la base de nombreux algorithmes d'apprentissage automatique.

La régression logistique, qu'est-ce que c'est ?

La régression logistique est un modèle mathématique qui combine un ensemble de variables prédictives (X) avec une variable aléatoire binomiale (Y). Elle est couramment utilisée dans le domaine de l'intelligence artificielle (IA) et du machine learning. Elle est considérée comme l'un des modèles d'analyse multivariée les plus simples à déchiffrer et analyser.

La régression est une technique de modélisation linéaire, qui étudie le rapport entre une variable principale et des variables explicatives. Elle est dite logistique, quand il existe un lien de fonction logistique entre la variable d'intérêt et les autres variables.

La régression logistique est un modèle d'analyse multivariée, qui peut prendre différentes formes : binaire ou multinomiale, logistique ou linéaire...

Régression logistique binaire vs régression logistique multinomiale : quelle différence ?

La régression logistique binaire est le principe de base de ce modèle, permettant d'obtenir un résultat de type binaire oui ou non, vrai ou faux, succès ou échec. On obtient une réponse simple avec un choix de deux solutions.

La régression logistique multinomiale est une régression linéaire qui produit un résultat continu. Elle fonctionne avec une variable qui s'applique à plus de deux catégories.

La régression logistique conditionnelle, c'est quoi ?

La régression logistique conditionnelle s'adresse à un même groupe, en lui proposant des choix ou des variables différentes (exemple : choix d'une activité physique avec plusieurs propositions : vélo, gym...). Dans le cas d'une régression logistique conditionnelle, ces variables se combinent avec une variable principale de type binaire.

Comment faire une régression logistique dans Excel ?

Pour faciliter la mise en place d'une régression logistique dans Excel, il est recommandé d'utiliser un outil tel que XLSTAT, et de suivre différentes étapes :

  • ouvrir XLSTAT ;
  • choisir "Modélisation des données" ;
  • choisir l'onglet "Régression logistique" ;
  • sélectionner les données sur la feuille Excel ;
  • remplir la case "Réponse de type binaire" ;
  • remplir les cases de variables explicatives (sélectionner "Libellé des variables" puis remplir les variables quantitatives et qualitatives) ;
  • cliquer sur "ok" pour obtenir le résultat final.

Régression logistique vs régression linéaire : quelle différence ?

La régression logistique permet d'obtenir un résultat constant, avec une réponse de type oui ou non, vrai ou faux...

A la différence de la régression logistique, la régression linéaire est un algorithme d'apprentissage qui dépend de variables explicatives ou prédictives. Elle fournit un résultat continu (données chiffrées). Par exemple, il peut s'agir de déterminer le nombre d'utilisateurs d'un site en ligne, selon l'heure de la journée. La régression linéaire correspond à une régression logistique de type multinomial.

Dictionnaire de l'intelligence artificielle