Collective learning : définition, histoire, exemple...

Fédérer des data d'apprentissage de diverses organisations, puis leur appliquer des modèles de machine learning pour créer des IA robustes qu'un acteur unique n'aurait jamais pu développer seul. Tel est l'avantage de l'apprentissage collectif.

Le collective learning, c'est quoi ?

On entend par collective learning la mise en commun de données par plusieurs individus ou organisations. Ce concept, qui remonte à la préhistoire, revient sur le devant de la scène avec l'émergence de l'intelligence artificielle. Pourquoi ? Car l'apprentissage collectif, en mutualisant les données d'entraînement des IA entre plusieurs organisations, permet de créer des applications de machine learning d'une grande robustesse. Des modèles d'apprentissage qu'un des acteurs impliqués dans le processus n'aurait jamais pu créer seul en se basant uniquement sur son propre volume de data, ce dernier étant évidemment moins massif et, de facto, composé d'informations moins variées.

Le collective learning appliqué à l'IA monte en puissance en Europe comme moyen de contrecarrer les géants numériques américains. Avec des marchés qui restent propres à chacun de ses 27 pays membres malgré une volonté reconnue d'homogénéisation, l'UE ne permet pas de faire émerger une entreprise capable d'atteindre la masse critique et le volume de connaissances nécessaires pour faire face à leurs IA. Les Gafam et autres Natu (pour Netflix, Airbnb, Tesla et Uber) agrègent les informations de milliards d'utilisateurs : parcours digitaux, préférences d'achat, géolocalisation... Ils constituent ainsi de gigantesques data set d'apprentissage machine qui leur permettent de bâtir des IA robustes couvrant leurs enjeux clés : recommandation de produits, ciblage promotionnel, optimisation de la fabrication, de la logistique, des prix... jusqu'à la définition de leurs stratégies de R&D grâce aux modèles prédictifs. En Europe, le collective learning est dès lors considéré comme l'une des seules solutions capables de faire naître une force concurrente de ce côté-ci de l'Atlantique.

Quelle est la théorie du collective learning ?

Le collective learning commence à être conceptualisé dans les années 2000. Pour ses premiers théoriciens, parmi lesquels Maarten de Laat et Robert Simons (qui abordent le sujet dès 2002) et Georges Wildemeersch (en 2007), cette notion renvoie à la manière dont un groupe diversifié d'individus travaillent sur des processus de problématisation partagée et une conception partagé du sens et des connaissances.

D'après la politologue Sarah J. Whatmore (dans un article publié en 2009), les théories de l'apprentissage collectif traduisent la manière dont ces processus se structurent et gèrent la complexité d'un système social, ses sollicitations internes et externes, et comment ils font émerger une dynamique collective capable d'apprendre et de se transformer de manière dynamique.

Quelle est l'histoire du collective learning ?

L'apprentissage collectif accompagne l'apparition de l'Homme il à 200 000 ans en Afrique. Depuis, c'est son talent pour le collective learning, via la préservation des informations et savoir-faire, leur partage et leur transmission aux générations suivantes, qui a permis à l'Homme de créer des formes de complexité entièrement nouvelles et de développer des civilisations de plus en plus riches.

Le collective learning en IA, comment ça marche ?

"En augmentant le volume de données d'apprentissage pertinentes, le collective learning contribue à réduire la phase de feature engineering du machine learning", explique Didier Gaultier, directeur data science & IA au sein de l'ESN Business & Decision, filiale d'Orange. Comme son nom l'indique, cette étape consiste à formaliser les attributs (features) communs aux informations d'apprentissage. "Quand on manque de données, on augmente le nombre de variables, voire le nombre de dimensions dans la base d'entraînement, pour compenser. Ce qui prend de facto plus de temps", explique le data scientist,

Didier Gaultier prévient : "Le collective learning ne règle pas pour autant la problématique des données personnelles ni celle des biais qui, rappelons-le, sont le plus souvent liés à la base d'entraînement." En cas de biais engendrant des erreurs ou des injustices dans les résultats, qui serait responsable ? L'éditeur du modèle ou tout ou partie des entreprises ayant partagé leurs data ? A la différence du ciblage publicitaire, la question se révèlera des plus critiques dans le cas d'une IA d'octroi de crédit ou d'un algorithme de voiture autonome.

Quel est l'avantage du collective learning ?

Le collective learning offre plusieurs avantages reconnus sur le terrain de l'intelligence artificielle. "En accroîssant le volume de data pertinentes disponibles pour l'entraînement des IA, il permet d'augmenter la complexité du modèle d'apprentissage et sa robustesse (c'est-à-dire sa capacité de généralisation à de nouvelles informations, ndlr). La précision des résultats s'en trouve mécaniquement optimisée", résume Didier Gaultier chez Business & Decision.

L'éditeur californien Moveworks a mesuré l'apport du collective learning avant et après sa mise en application au sein de son application phare, un assistant de support informatique. "En utilisant les données d'interaction d'une seule entreprise cliente, nous atteignons une précision (ou taux de réponses correctes, ndlr) de 30%, même avec les modèles de NLP les plus modernes. Le collective learning permet de hisser ce chiffre à 60%", se félicitent de concert Jiang Chen et Yi Liu, respectivement vice-président machine learning et directeur de la recherche de la start-up de San Francisco. Et ce n'est pas tout. En aval, le transfert learning est également mis en œuvre par Moveworks pour optimiser le traitement des terminologies propres à chaque organisation. Le principe ? Intégrer à la plateforme les meilleurs réseaux de neurones open source taillés pour gérer les échanges en langage naturel puis leur adjoindre des couches supplémentaires en fonction du vocabulaire technique cible. Une méthode qui, au final, permet à Moveworks d'enregistrer un niveau de précision de 90%.

Taux de précision relevés par Moveworks suite à la mise en œuvre du collective learning puis du transfert learning pour bâtir sa plateforme de NLP. © Moveworks

Existe-t-il un exemple européen de collective learning ?

En Europe, Gaia-X est la première initiative de collective learning visant à proposer une alternative crédible aux géants du numérique américains. Avec, pour objectif, d'aboutir à un écosystème souverain d'offres cloud intégrées, ce consortium, qui compte à ce jour 212 membres, se donne également pour mission de propulser des plateformes sectorielles de fédération de données. Basées sur une architecture standardisée (voir schéma), elles doivent dynamiser les synergies entre domaines d'activité et, in fine, favoriser l'émergence de nouveaux services qui pourront évidemment s'adosser à l'IA. Il s'agit ainsi d'une démarche de collective learning à grande échelle.

Séduit par l'approche, des Français issus de plusieurs secteurs ont rejoint Gaia-X, chacun porté par un ou plusieurs acteurs. C'est le cas dans la finance et l'assurance (avec la Caisse des dépôts et consignation), dans l'énergie (EDF), dans la mobilité (Amadeus et Air France KLM), dans le spatial et les données satellitaires (Dassault Systèmes, EBRC), dans l'aérospatial (Airbus, Thales Alenia Space), dans le green (Engie), dans l'agriculture (Association générale des producteurs de blé) ou encore dans la santé (avec le Health Data Hub).

Architecture des data space sectoriels du projet Gaya-X. © Gaya-X

"Le collective learning n'est pas nouveau. Les e-commerçants du Nord de la France, au premier rang desquels La Redoute et les 3 Suisses, partagent depuis des années des données marketing en vue d'alimenter leurs algorithmes de ciblage", commente Didier Gaultier. Fondé en 2006 par Didier Farge, serial-entrepreneur et ex-DoubleClick, le français Conexance a très vite senti le filon. Cette société lilloise propose aux e-marchands de partager leurs données digitales de manière anonymisée en vue d'optimiser leurs actions de cross-selling, d'up-selling et, plus globalement, de recommandations de produits. La solution sous-jacente s'articule sans surprise autour d'un moteur de machine learning prédictif. Le spécialiste historique du reciblage publicitaire Criteo s'inscrit dans la même logique. Fédérant les données de dizaines de milliers d'entreprises, le groupe d'origine française, désormais coté au Nasdaq, a ouvert à Paris en 2018 un laboratoire de recherche sur l'IA appliquée à la publicité, avec un budget de 20 millions d'euros.

Quel pourrait être le futur du collective learning ?

Les laboratoires publics planchent sur ce que pourrait être le futur du collective learning. Parmi les principales sommités du domaine, le chilien César Hidalgo, ex-directeur du groupe Collective Learning du MIT Media Lab, dirige depuis 2019 la chaire Société augmentée de l'institut d'Intelligence artificielle et naturelle de l'Université de Toulouse. Son approche : appliquer le machine learning et les statistiques à des masses de données partagées en open data pour mieux comprendre les mouvements macro-économiques.

"L'intelligence artificielle se limite pour l'heure à des tâches spécifiques (reconnaissance et synthèse vocale, de textes, d'images, analyse de sentiment... ndlr). Dans le futur, l'apparition d'IA généralistes capables de réaliser des tâches multiples va bouleverser la donne", estime César Hidalgo. "Si les pays et entreprises acceptent de mettre en commun ces modèles de nouvelle génération, on verra apparaître des réseaux d'IA multicellulaire capables de comprendre et résoudre des problèmes nettement plus difficiles à traiter, faisant intervenir des événements et interactions multiples en temps réel." Un tel réseau pourrait permettre de saisir des phénomènes dynamiques basés sur des systèmes complexes, à l'image des flux financiers, du changement climatique, des mouvements de populations, des guerres... voire d'événements géopolitiques ou géoéconomiques pouvant s'expliquer par une corrélation de tout ou partie de ces éléments.

Quels sont les synonymes de collective learning ?

L'apprentissage collectif compte de nombreux synonymes : apprentissage combiné, apprentissage commun, apprentissage coopératif, apprentissage conjoint, apprentissage partagé ou encore apprentissage unifié.