Quels KPI pour mesurer la réussite d'un projet d'IA ?

Quels KPI pour mesurer la réussite d'un projet d'IA ? La performance d'un modèle de machine learning s'évalue d'abord en fonction de son taux de réussite. Puis au regard de la compatibilité de ce taux avec les objectifs business.

Sujet encore peu abordé dans la presse économique, la question des indicateurs clés de résultats (KPI) des modèles de machine learning est pourtant un élément central pour piloter un projet d'intelligence artificielle. En juin 2020, une étude d'IDC montrait qu'environ 28% des initiatives d'IA se soldent par un échec. Raisons invoquées par le cabinet américain : un manque d'expertises, un déficit de données adaptées et l'absence d'environnements de développement suffisamment intégrés. En vue de mettre en place une démarche d'amélioration continue de l'apprentissage machine et surtout d'éviter de se retrouver dans le mur, l'identification de KPI est désormais prioritaire.

En amont revient aux data scientists la mission de définir les indicateurs techniques de performance des modèles. Ils varieront en fonction du type d'algorithme utilisé. Dans le cas d'une régression qui visera par exemple à prédire la taille d'une personne en fonction de son âge, on aura recours par exemple au coefficient de détermination linéaire. Une équation qui mesure la qualité de la prédiction : si le carré du coefficient de corrélation est nul, la droite de régression détermine 0% de la distribution des points, et à l'inverse si ce coefficient est de 100% ce chiffre vaut 1. La prédiction est alors d'excellente qualité.

Ecart de la prédiction avec la réalité

Autre indicateur d'évaluation d'une régression : la méthode des moindres carrés qui fait référence à la fonction de perte. Elle consiste à quantifier une erreur en calculant la somme du carré de l'écart entre la valeur réelle et la ligne prédite (voir le graphique ci-dessous), puis d'ajuster le modèle en réduisant au minimum l'erreur quadratique. Dans la même logique, on pourra exploiter la méthode de l'erreur absolue moyenne, qui consiste à calculer la moyenne des valeurs absolues des écarts. "Dans tous les cas, cela revient à mesurer l'écart par rapport à ce qu'on cherche à prédire", résume Charlotte Pierron-Perlès, en charge de la stratégie et des services data et IA chez Capgemini Invent en France, l'entité de conseil de l'ESN Capgemini.

Une régression consiste à prédire une donnée (ici en ordonnée) en fonction d'une autre (en abscisse). La taille en fonction de l'âge par exemple. © Sewaqu

Dans le cas des algorithmes de classification utilisés par exemple pour la détection de spam, il faudra aller chercher du côté des faux positifs et faux négatifs. "Nous avons par exemple travaillé pour un groupe de cosmétique sur une solution de machine learning visant à optimiser le rendement de chaînes de production. L'objectif était d'identifier les bouteilles défectueuses en entrée de chaîne susceptibles d'entrainer un arrêt de la fabrication", explique Charlotte Pierron-Perlès. Après avoir échangé avec le patron et les opérateurs de l'usine, nous nous sommes orientés avec le client vers un modèle remplissant son rôle quitte à détecter des faux négatifs, c'est-à-dire des bouteilles en bon état pouvant être ensuite replacées en entrée de chaîne."

Partant des notions de faux positifs et de faux négatifs, trois autres indicateurs permettent d'évaluer les modèles de classification :

  1. Le rappel (R) renvoie à une mesure de la sensibilité du modèle. Il s'agit de la proportion de vrais positifs (exemple : les tests du Covid positifs à raison) identifiés correctement par rapport à l'ensemble des vrais positifs censés être détectés (tests du Covid positifs à raison + tests du Covid négatifs à tort) : R = vrais positifs / vrais positifs + faux négatifs
  2. La précision (P) renvoie à une mesure de l'exactitude. Il s'agit de la proportion de vrais positifs effectivement corrects (les tests du Covid positifs à raison) par rapport à l'ensemble des résultats identifiés comme positifs (tests du Covid positifs à raison + tests du Covid positifs à tort) : P = vrais positifs / vrais positifs + faux positifs
  3. La moyenne harmonique (F-score) mesure la capacité du modèle à donner des prédictions justes et à refuser les autres :  F = 2 x Précision x rappel / Précision + rappel

Généralisation du modèle

"Une fois le modèle formé, sa capacité de généralisation sera un indicateur clé", souligne David Tsang Hin Sun, lead senior data scientist au sein de l'ESN française Keyrus. Comment l'estimer ? En mesurant la différence entre la prédiction et le résultat attendu, puis l'évolution de cet écart dans le temps. "Au bout d'un moment, on peut être confronté à une divergence. Ce qui peut provenir d'un sous-apprentissage (ou overfitting, ndlr) du fait d'un data set d'entrainement insuffisant en qualité et / ou en quantité", explique David Tsang Hin Sun. La solution ? Dans le cas d'un modèle de reconnaissance d'images par exemple, on pourra recourir aux réseaux antagonistes génératifs pour augmenter le volume de photos d'apprentissage par rotation ou distorsion. Autre technique (adaptée à un algorithme de classification) : le synthetic minority over-sampling qui consiste à augmenter par suréchantillonnage le nombre d'exemples à faible incidence dans le jeu de données.

"Il faudra se demander si le taux d'erreur cadre avec les enjeux business"

Une divergence peut aussi apparaître en cas de sur-apprentissage. Dans cette configuration, le modèle, une fois entrainé, ne se limitera pas aux corrélations attendues, mais, étant trop spécialisé, il capturera le bruit produit par les données de terrain et générera des résultats incohérents. Sa fonction d'erreur tombera dans le rouge. "Il faudra alors revoir la qualité du data set d'apprentissage et éventuellement régulariser le poids des variables", indique David Tsang Hin Sun.

Restent les KPI économiques. "Il faudra se demander si le taux d'erreurs est compatible avec les enjeux business", insiste Stéphane Roder, CEO du cabinet de conseil français AI Builders. "L'assureur Lemonade a par exemple mis au point une brique de machine learning qui rembourse un client en 3 minutes suite à un sinistre sur la base d'informations communiquées, dont des photos. Compte-tenu des économies réalisées, il admet un certain taux d'erreur générant un coût." Et Stéphane Roder d'ajouter : "Il est important de vérifier que cette mesure reste dans les clous tout au long du cycle de vie du modèle, notamment comparé à son TCO, du développement à la maintenance."

Niveau d'adoption  

Le niveau de performance attendu pourra varier y compris dans la même entreprise. "Pour un retailer français de stature internationale, nous avons mis au point un moteur de prédiction de la consommation. Les objectifs de précision du modèle se sont révélés différents entre les produits de fonds de rayon et les nouveaux produits", constate Charlotte Pierron-Perlès chez Capgemini Invent. "La dynamique de vente des seconds dépend d'éléments, liés notamment aux réactions du marché, par définition moins maitrisables." D'où une cible moins ambitieuse pour ces derniers accompagnée d'un choix d'algorithmes différent.

Dernier KPI, et pas des moindres : le niveau d'adoption. "Un modèle, même de bonne qualité, ne se suffit pas à lui-même pour être utilisé. Cela passe par le développement d'un produit avec une expérience utilisateur orientée intelligence artificielle, ou AI UX, à la fois accessible au métier et qui concrétise la promesse du machine learning", insiste Charlotte Pierron-Perlès. Et Stéphane Roder de conclure : "Cette UX permettra également aux utilisateurs de faire remonter leurs feedbacks ce qui contribuera à alimenter les connaissances de l'IA de manière qualitative en complément du flux de données de production quotidien."