Classification naïve bayésienne : définition et principaux avantages

La classification naïve bayésienne est un type de classification issue des sciences mathématiques. C'est devenu un algorithme d'apprentissage très utilisé en informatique : les avantages sont en effet nombreux et déclinés dans plusieurs domaines. Tour d'horizon et exemples concrets d'applications.

La classification naïve bayésienne, qu'est-ce que c'est ?

Il s’agit d’un type de classification simple (« naïf ») reposant sur le théorème de Bayes, qui est lui-même un résultat de base issu de la théorie des probabilités. Le principe mathématique consiste en une forte indépendance des hypothèses. Ces hypothèses simplificatrices (« naïves ») impliquent l’indépendance des variables.

Basée sur cette théorie probabiliste, la méthode de classification naïve bayésienne est un algorithme d'apprentissage supervisé aujourd’hui très utilisé. L’algorithme définit lui-même des règles qui lui permettent de classifier un ensemble d’observations. Un jeu de données (dataset) d’apprentissage permet à l’outil de classification de s’entraîner et ainsi d’« apprendre » en fonction des entrées qui lui sont communiquées, et de la classe de résultats attendue. L’algorithme va ainsi définir ses règles de classification à partir de ce dataset afin de les appliquer ensuite à la classification d’un jeu de données prédictif.

Quels sont les principaux avantages de la classification naïve bayésienne ?

Ce type de classification « simple » permet à l’algorithme d’apprendre rapidement. Il n’est pas nécessaire en effet de fournir un gros volume de données lors de la phase d’apprentissage. Son exécution est de plus très rapide, comparativement à d’autres méthodes autrement plus complexes mais lourdes à mettre en œuvre.

Cette méthode offre ainsi des résultats très efficaces dans des domaines d’utilisation variés. C’est aujourd’hui un algorithme largement plébiscité pour les outils de Machine learning (capacité donnée aux ordinateurs d’apprendre par eux-mêmes) du fait de ses calculs de probabilités peu coûteux qui lui confèrent une grande agilité.

Exemples d'application de la classification naïve bayésienne

A l’origine, la classification naïve bayésienne est utilisée dans la création de filtres antispam et la classification de documents (par catégories). Forte de ses résultats, à la fois efficaces et rapides, cette classification a été appliquée à d’autres domaines, comme le marketing digital et les systèmes de recommandation : à partir des données relatives au comportement d’achat d’un internaute (ce qu’il a déjà acheté), l’algorithme peut déterminer efficacement les produits ou services susceptibles d’intéresser le visiteur d’un site.

Classification naïve bayésienne vs Régression logistique

La classification ou régression logistique est un autre modèle d’apprentissage, également très utilisé en Machine learning. Ce modèle est simple et facilement interprétable, à l’instar de la classification naïve bayésienne. Ces deux modèles reposent sur des classifieurs linéaires (famille d’algorithmes de classement statistique). La principale différence, très technique, réside dans le mode d’estimation des coefficients de la fonction de classement.

Dictionnaire de l'intelligence artificielle