Bloom : le modèle de langue open source multilingue

Bloom : le modèle de langue open source multilingue Porté par le projet open source BigScience et la société française Hugging Face, Bloom est conçu pour générer un texte cohérent dans 46 langues et 13 langages de programmation

Bloom, c'est quoi ?

Bloom est un grand modèle de langue ou large language model (LLM) dit auto-agressif. Créé à des fins de recherche scientifique sur l'IA, ce modèle de machine learning est entraîné afin de poursuivre la rédaction d'un texte en s'inspirant de grandes quantités de données textuelles, à l'aide de ressources informatiques à l'échelle industrielle. Il est taillé pour générer un texte cohérent dans 46 langues et du code applicatif dans 13 langages de programmation.

Porté par le projet open sources BigScience et la société française Hugging Face, Bloom est issu d'un projet de recherche international. De mai 2021 à mai 2022, il a fédéré plus de 1000 chercheurs issus de 60 pays. Bloom a été entrainé sur un data set de texte de 28 pétaflops grâce au supercalculateur Jean Zay du centre du CNRS pour le calcul numérique intensif de très haute performance (IDRIS).

Quelle est la technologie de Bloom ?

Bloom repose sur la technologie des transfomers. Comparables aux réseaux de neurones récurrents (RNN), ils sont dessinés pour ingérer des données séquentielles. Ce qui les rend particulièrement bien adaptés au traitement du langage naturel.

A la différence des RNN, les transfomers ne traitent pas les données sous forme de flux continu en respectant l'ordre des mots des phrases. Résultat : ces réseaux de neurones sont capables de découper les traitements et paralléliser les calculs de la phase d'apprentissage. Les transfomeurs sont ainsi plus rapides à entraîner.

Bloom est-il gratuit ?

Bloom est disponible sous la licence BigScience RAIL License. Une licence proche de la logique open source, avec un caractère ouvert et permissif, qui promeut une IA responsable. Une licence est dite permissive quant elle permet de redistribuer le logiciel (modifié ou non) sans adopter les contraintes propres au logiciel libre, et la garantie de ses quatre libertés fondamentales.

Quels sont les domaines interdits par la licence ?

La licence BigScience RAIL de Bloom interdit de recourir au modèle de langue pour des objectifs contraires à la loi ou considérés comme non-éthiques :

  • Pour toute application qui viole toute loi ou réglementation nationale, fédérale, étatique, locale ou internationale applicable,
  • Dans le but d'exploiter, de nuire ou de tenter d'exploiter ou de nuire à des mineurs de quelque manière que ce soit,
  • Pour générer ou diffuser de fausses informations vérifiables dans le but de nuire à autrui,
  • Pour générer ou diffuser des informations personnelles identifiables qui peuvent être utilisées pour nuire à un individu,
  • Pour générer ou diffuser des informations ou du contenu, dans n'importe quel contexte (par exemple, des publications, des articles, des tweets, des chatbots ou d'autres types de robots automatisés) sans indiquer expressément et de manière intelligible que le texte est généré par une machine,
  • Diffamer, dénigrer ou harceler d'autres personnes,
  • Usurper l'identité ou tenter d'usurper l'identité d'autrui,
  • Pour une prise de décision entièrement automatisée qui porte atteinte aux droits légaux d'un individu,
  • Pour toute utilisation destinée ou avec pour effet de discriminer ou de nuire à des individus ou des groupes sur la base d'un comportement social en ligne ou hors ligne ou de caractéristiques personnelles ou de personnalité connues ou prévues,
  • Pour exploiter l'une des vulnérabilités d'un groupe spécifique de personnes en fonction de leur âge, de leurs caractéristiques sociales, physiques ou mentales, afin de déformer matériellement le comportement d'une personne appartenant à ce groupe d'une manière qui cause ou est susceptible de causer à cette personne ou à une autre personne un préjudice physique ou psychologique,
  • Pour toute utilisation destinée à discriminer ou avec effet de discriminer des individus ou des groupes sur la base de caractéristiques ou de catégories légalement protégées,
  • Fournir des conseils médicaux et interpréter les résultats médicaux,
  • Pour générer ou diffuser des informations dans le but d'être utilisées pour l'administration de la justice, l'application de la loi, les procédures d'immigration ou d'asile, telles que la prédiction qu'un individu commettra une fraude/un crime (par exemple, par le profilage de texte, en établissant des relations causales entre des affirmations faites dans des documents et une utilisation aveugle et arbitrairement ciblée).

Comment faire tourner Bloom ?

Bloom est optimisé pour tourner sur une infrastructure de traitement de 8 GPU comptant 80 Go chacun. Pour faciliter son utilisation, Hugging Face commercialise Bloom en version cloud, par le biais d'une interface disponible en ligne

Bloom : quelques liens

Plusieurs contenus de référence sont disponible sur le modèle de langue Bloom :