Comment la recherche Google organise les informations

Avant même que vous saisissiez votre requête, les robots d'exploration collectent les informations issues de centaines de milliards de pages Web et les organisent dans l'index de recherche Google.

Les principes de base de la recherche Google

Le processus d'exploration commence par une liste d'adresses Web issues d'explorations précédentes et de sitemaps fournis par les propriétaires de sites. À mesure que nos robots d'exploration visitent ces sites Web, ils recherchent des liens vers d'autres pages à parcourir. Le logiciel accorde une attention particulière aux nouveaux sites, aux modifications apportées à des sites existants et aux liens non fonctionnels. Nos programmes informatiques déterminent les sites à explorer, la fréquence à laquelle l'exploration doit être effectuée, ainsi que le nombre de pages à explorer pour chaque site.

Avec les outils pour les webmasters, les propriétaires de sites contrôlent l'exploration de leur site par Google. Ils peuvent donner des instructions plus spécifiques pour le traitement des pages de leurs sites, nous demander d'explorer de nouveau des pages ou désactiver leur exploration à l'aide d'un fichier robots.txt. On ne peut pas payer Google pour accélérer la fréquence d'exploration d'un site. Nous fournissons des outils identiques à tous les propriétaires pour garantir les meilleurs résultats possibles.

L'exploration : un processus continu

Le Web s'apparente à une bibliothèque qui ne cesserait de s'agrandir, avec des milliards d'ouvrages disponibles, et aucun système de classement central. Nous utilisons des logiciels appelés robots d'exploration pour découvrir les pages Web accessibles au public. Ces robots d'exploration examinent les pages Web et suivent les liens qui y figurent, de la même façon que lorsque vous naviguez sur Internet. Ils vont de lien en lien et renvoient des informations relatives à ces pages Web aux serveurs de Google.

Organisation des informations lors de l'indexation

Dès que nos robots d'exploration détectent une page Web, nos systèmes la visualisent, comme avec un navigateur. Nous sommes attentifs à certains signaux, comme les mots clés et le niveau d'actualisation des sites, que nous consignons dans l'index de recherche Google.

L'index de recherche Google contient des centaines de milliards de pages Web et sa taille est bien supérieure à 100 millions de gigaoctets. Il ressemble à l'index que l'on peut trouver à la fin d'un livre, à la différence près qu'il recense chaque mot de chaque page Web. Lorsque nous indexons une page Web, nous l'associons aux entrées des différents mots affichés sur la page.

 

 

Grâce au Knowledge Graph, nous cherchons à aller au-delà de la simple association entre mots clés et contenus, afin de mieux comprendre ce qui est pertinent pour vous, qu'il s'agisse de personnes, de lieux ou de choses. Pour cela, nous n'organisons pas seulement les informations contenues dans les pages Web. Avec la recherche Google, vous pouvez rechercher du texte dans des millions d'ouvrages issus des plus grandes bibliothèques, consulter les horaires de transports en commun ou parcourir des données publiques, comme par exemple celles de la Banque mondiale.