Com organitza la informació la Cerca

Abans que facis una cerca, els rastrejadors web recopilen informació de centenars de milers de milions de pàgines web i l'organitzen a l'índex de la Cerca.

Conceptes bàsics de la Cerca

El procés de rastreig comença amb una llista d'adreces web de rastrejos anteriors i mapes del lloc facilitats per propietaris de llocs web. Quan els nostres rastrejadors visiten aquests llocs web, utilitzen els enllaços que contenen per trobar altres pàgines. El programari para molta atenció als llocs web nous, als canvis als llocs web existents i als enllaços incorrectes. Per determinar quins llocs web es rastregen, amb quina freqüència i quin nombre de pàgines s'obté de cada lloc web es fan servir programes informàtics.

Oferim eines per a administradors web per donar als propietaris de llocs web opcions per definir minuciosament la manera com Google rastreja els seus llocs web: poden proporcionar instruccions detallades sobre com s'han de processar les seves pàgines, poden sol·licitar que es tornin a rastrejar o poden desactivar-lo fent servir un fitxer anomenat "robots.txt". Google mai no accepta pagaments per rastrejar un lloc web més sovint: proporcionem les mateixes eines a tots els llocs web per garantir els millors resultats possibles per als nostres usuaris.

Cerca d'informació mitjançant el rastreig

El web és com una biblioteca que creix constantment, amb milers de milions de llibres, però sense un arxiu central. Fem servir un tipus de programes coneguts com "rastrejadors web" per descobrir les pàgines web que hi ha a disposició del públic. Els rastrejadors revisen les pàgines i segueixen els enllaços que hi troben, de la mateixa manera que ho faries tu si naveguessis pel web. Van d'enllaç a enllaç i retornen dades sobre aquestes pàgines web als servidors de Google.

Organització de la informació en indexar-la

Quan els rastrejadors troben una pàgina web, els nostres sistemes en processen el contingut, tal com ho faria un navegador. Prenem nota dels senyals clau, des de les paraules clau fins a l'actualització del lloc web, i fem un seguiment exhaustiu d'aquestes dades a l'índex de la Cerca.

L'índex de la Cerca de Google conté centenars de milers de milions de pàgines web que, juntes, superen els 100.000.000 gigabytes. És com l'índex del final d'un llibre, amb una entrada per a cada paraula que apareix a cada pàgina web que indexem. Quan indexem una pàgina web, l'afegim a les entrades de totes les paraules que conté.

 

 

Amb el Gràfic de coneixement, provem d'anar més enllà de la concordança de paraules clau per tal de comprendre quines són les persones, els llocs i les coses que t'importen. Per fer-ho, no només organitzem la informació sobre pàgines web, també altres tipus d'informacions. Avui, la Cerca de Google et pot ajudar a cercar text de milions de llibres de les principals biblioteques, trobar els horaris de transport de l'empresa de transport públic local o navegar per les dades de fonts públiques com el Banc Mundial.