Feature store : définition et avantages en machine learning

Le feature store (ou magasin de fonctionnalités) est une plateforme de données centralisées très utilisée dans divers types de projets. Le feature store en machine learning comme en data science est largement répandu. Définition et détails de cette solution au service de l'IA.

Le feature store en machine learning, c'est quoi ?

Une feature est une caractéristique qui apporte une valeur significative. Dans le domaine du machine learning (apprentissage automatique) et de la data science (sciences des données), la feature est la mesure précise d’une propriété ou d’un élément d’observation.

Concrètement, il peut s’agir de la profession d’un individu ou de son poids. Les features sont ainsi des matières premières très recherchées en data science, elles vont en effet servir à produire des modèles de machine learning aux data scientists. Le feature store est un point centralisé de features qui permet de retrouver des données fiables, disponibles, pouvant être utilisées dans différents projets.

Facilitateur de solution, il permet de concentrer les features et de les partager aisément au service d’autres modèles. Les ressources sont ainsi économisées car on évite la duplication de pipelines (ensemble des process qui permettent la circulation des données), beaucoup plus gourmande en termes de coûts.

Par ailleurs, les sources de données qui sont utilisées pour l’entraînement et la prédiction des modèles ne sont pas toujours les mêmes en machine learning. Cela peut engendrer un biais d’apprentissage, qui détériore la fiabilité de prédiction du modèle. Le feature store sert les données au moment de l’entraînement et de la prédiction. Par son action de contrôle des features, il peut ainsi garantir la conformité des données entre les deux sources.

Feast : le feature store open source

Feast est une librairie open source (dont l’accès, l’utilisation, la modification et la distribution sont libres) de gestion de features. Cette librairie permet notamment de définir des features stores pour aider à la construction de modèles et à la récupération de données.

Feature store vs data warehouse

Un data warehouse est un entrepôt de données (ou EDD). Il s’agit d’une base de données relationnelle qui a vocation à recueillir des données issues de sources très diversifiées.

Sa principale fonction consiste à valider une analyse et optimiser le processus de prise de décision d’une entreprise. Le feature store est en quelque sorte le data warehouse (orienté fonctionnalités) au service du machine learning. Le feature store est différent d’un point de vue architectural, dans la mesure où il s’agit d’une double base de données avec chacune ses particularités :

  • Une base de données qui contient des données distribuées par le kit de développement logiciel (ou SDK = Software Development Kit), avec une grande profondeur temporelle.
  • Une base de données qui contient des données récentes et des données en streaming, cette BDD (base de données) est plus rapide pour servir les données "fraîches".

Dictionnaire de l'intelligence artificielle