Redirections JS côté client Googlebot

Redirections JS côté client Googlebot

Dans cet épisode de Ask Google Webmasters, John Mueller discute de la possibilité ou non  Googlebot pour Google Search de détecter les redirections JavaScript côté client et de la façon dont Googlebot utilise Chromium pour le rendu (une question soumise par @YesImVini).

Indexation de JavaScript pour la recherche → https://goo.gle/2VIh8Qs

Envoyez-nous vos questions sur Twitter avec le hashtag AskGooglebot et votre question aura peut-être une réponse !
Google Search Central sur Twitter → https://goo.gle/3f4Z0a8

Regardez d’autres épisodes d’AskGooglebot → https://goo.gle/2OjWcvS
Abonnez-vous à la chaîne Google Search Central → https://goo.gle/SearchCentral

source

Googlebot est un robot de recherche

Googlebot est un robot de recherche logiciel d’exploration du Web (également appelé araignée ou webcrawler) qui rassemble les informations des pages Web utilisées pour alimenter les pages de résultats du moteur de recherche Google (SERP).

Googlebot collecte des documents sur le Web pour construire l’index de recherche de Google. En collectant constamment des documents, le logiciel découvre de nouvelles pages et des mises à jour de pages existantes. Googlebot utilise une conception distribuée couvrant de nombreux ordinateurs afin de pouvoir se développer en même temps que le Web.

Le robot d’exploration du Web utilise des algorithmes pour déterminer les sites à parcourir, la vitesse de navigation et le nombre de pages à extraire. Googlebot commence par une liste générée à partir des sessions précédentes. Cette liste est ensuite complétée par les sitemaps fournis par les webmasters. Le logiciel explore tous les éléments liés dans les pages Web qu’il parcourt, notant les nouveaux sites, les mises à jour de sites et les liens morts. Les informations recueillies sont utilisées pour mettre à jour l’index du Web de Google.

Googlebot crée un index dans les limites fixées par les webmasters dans leurs fichiers robots.txt. Si un webmaster souhaite, par exemple, que certaines pages ne soient pas accessibles à Google, il peut bloquer Googlebot dans un fichier robots.txt situé dans le dossier de premier niveau du site. Pour empêcher Googlebot de suivre n’importe quel lien sur une page donnée d’un site, il peut inclure la balise méta nofollow ; pour empêcher le robot de suivre des liens individuels, le webmaster peut ajouter rel=”nofollow” aux liens eux-mêmes.

Le webmaster d’un site peut détecter toutes les quelques secondes des visites d’ordinateurs à l’adresse google.com, avec l’agent utilisateur Googlebot. En général, Google essaie d’indexer la plus grande partie possible d’un site sans saturer la bande passante du site. Si un webmaster constate que Googlebot utilise trop de bande passante, il peut définir un taux sur la page d’accueil de la console de recherche de Google, qui restera en vigueur pendant 90 jours.

Lors d’une présentation à la conférence SearchLove 2011, Josh Giardino a affirmé que Googlebot était en fait le navigateur Chrome. Cela signifierait que Googlebot a non seulement la capacité de parcourir les pages en texte, comme le font les crawlers, mais qu’il peut également exécuter des scripts et des médias comme le font les navigateurs web. Cette capacité pourrait permettre à Googlebot de trouver des informations cachées et d’effectuer d’autres tâches qui ne sont pas reconnues par Google. Giardino est allé jusqu’à dire que Googlebot pourrait être la raison initiale pour laquelle la société a créé Chrome.

Merci pour votre lecture, on se revoit au prochain blogue!

Si vous avez des questions ou pour une soumission, contactez-nous par courriel à [email protected] ou au 418-455-2259