Crawler : définition, traduction et acteurs

Les robots d'indexation sont programmés pour parcourir des documents sur le web. Ils font partie de l'écosystème du search. Connaître leur fonctionnement fait partie des missions du SEO.

Qu'est-ce qu'un crawler ?

Les termes de crawler, robot de crawl ou spider, désignent dans le monde de l'informatique un robot d'indexation. Concrètement, il s'agit d'un logiciel qui a pour principale mission d'explorer le Web afin d'analyser le contenu des documents visités et les stocker de manière organisée dans un index.

Le crawler parcourt donc, en permanence, de façon autonome et automatique, les différents sites et pages Internet à la recherche de contenus nouveaux ou d'éventuelles mises à jour de contenus déjà explorés par le passé. Le fonctionnement basique d'un robot de crawl rappelle celui de logiciel malveillants, comme les spambots ou les malwares, mais contrairement à ces derniers, leur passage n'est pas nuisible pour le site. Derrière cette activité se cache une autre mission : celle d'indexer les pages Web en fonction de la qualité des contenus (évaluée selon des critères paramétrés en amont) et, ainsi, aider les moteurs de recherche à classer les pages Internet dans l'affichage des résultats.

Comment fonctionne un crawler ?

Les crawlers peuvent être programmés pour parcourir le Web avec des objectifs déterminés. Ils sont actifs en permanence et visitent les pages selon les instructions qui leur sont données.

L'un des crawlers les plus connus est celui utilisé par Google pour son moteur de recherche, Googlebot. Avant lui, le moteur de recherche AltaVista utilisait le crawler Scooter pour effectuer cette même mission. Les crawlers du search suivent plusieurs chemins pour parvenir jusqu'aux documents à explorer. Soit ils partent des résultats déjà existants dans les moteurs de recherche, soit ils suivent une liste, soit ils obéissent à des soumissions ponctuelles, soit ils suivent les liens qu'ils rencontrent au fil de leur exploration. Chaque moteur a ses propres règles. Les référenceurs s'intéressent beaucoup au fonctionnement des moteurs de recherche parce qu'il leur donne des pistes pour faire indexer les pages Web importantes.

Et le budget de crawl, c'est quoi ?

Actuellement, il y a tellement de pages Internet que les crawlers doivent limiter leur temps sur chaque site pour en visiter le plus possible. On appelle budget de crawl le temps alloué par un robot à l'exploration d'un site lors de chaque passage. Ce temps varie pour chaque site en fonction de sa taille et de son domaine d'autorité (c'est-à-dire la confiance que le moteur place en lui au regard, notamment, de sa popularité). Un crawler visite donc, en général, seulement une partie du site à chaque passage.

Quels sont les différents types de robots crawlers ?

Les utilisations de robots d'indexation sont variées dans le domaine du référencement.

Indexation pour les moteurs de recherche sur le Web. Google et Bing sont, en Occident, les deux principaux éditeurs de robots, mais ils ne sont pas les seuls.
Crawl de diagnostic pour les outils d'aide au référencement naturel. Pour apporter des informations utiles à leurs utilisateurs, les éditeurs de solutions SEO développent leur propres crawlers.
Maintien d'une veille sur les prix au sein d'un marché délimité. Amazon, par exemple, a mis en place ce type de logiciel de crawl pour suivre l'évolution des prix de produits vendus chez lui sur le Web.
Pratiques de SEO black hat

Traduction du mot Crawler français et anglais

Robot d'indexation
Un robot d'indexation parcourt le Web pour aider les moteurs de recherche à afficher les bons résultats.
A crawler travels the Web to help search engines display the right results.

Quelques acteurs connus pour leurs crawlers

Googlebot, Scooter, SEMRush, OnCrawl, Bing, Yahoo, etc.