Présentation de SiteMaps
Google SiteMaps est une initiative de Google pour essayer d'améliorer la façon dont les moteurs de recherche indexent les pages web. Les webmasters qui y participent en plaçant un fichier SiteMap sur leur site permettent à Google de connaître plus facilement les nouvelles pages à indexer, ainsi que la fréquence d'indexation optimale pour les pages déjà dans l'index.
SiteMaps vient en complément du crawl habituel ; il n'est donc pas indispensable d'utiliser ce système pour être indexé dans Google, par contre il peut éventuellement aider à mieux indexer les sites. Pour participer, il suffit de :
- générer un fichier Sitemap au format spécifié par Google, par exemple en utilisant le générateur fourni par Google (Sitemap Generator) ;
- mettre à jour ce fichier quand c'est nécessaire (à chaque ajout ou modification de pages).
Intérêt de SiteMaps
Sitemaps peut être utilisé sur n'importe quel type de site, qu'il contienne quelques pages ou des centaines de milliers. Sitemaps est bien évidemment gratuit. Il peut s'avérer utile pour faire connaître rapidement à Google les nouvelles pages ajoutées dans votre site, surtout si elles sont situées en profondeur dans votre site, sans lien depuis la page d'accueil (sans Sitemaps, ce type de page peut mettre du temps à être découverte par Google et donc indexée).
En lançant Sitemaps, Google aborde le problème de l'indexation sous un nouvel angle, en se distingant d'ailleurs de ses concurrents tel Yahoo! qui propose un service (payant) d'indexation de pages dans son index. Même si Google ne garantit pas que les pages indiquées dans le fichier Sitemap seront indexées (contrairement à Yahoo! dont le contrat le garantit sous 48h), on peut aisément penser que Google indexera rapidement ces pages, qui sont plus faciles à "trouver" que par un crawl classique. Yahoo! et les autres moteurs suivront-ils Google ? D'ailleurs ce dernier fournit Google Sitemaps sous licence Creative Commons. Une bonne initiative qui pourrait bien devenir un standard, géré directement par les serveurs web par exemple.Ou placez vos fichiers Sitemap ?
Un article de Hervé Delvaux (Gérant & Responsable des développements IT de Webadev.com)
Hervé Delvaux, membre de WRI, revient sur un aspect des fichiers Sitemaps : leur emplacement sur le site. Cet article confirme un point précisé dans la FAQ officielle. L'objectif est surtout de donner quelques explications complémentaires sous un angle "pratique".
On peut lire dans la FAQ de Google que les fichiers SiteMaps doivent se placer dans le répertoire que l'on veut indexer.
Si nous plaçons nos fichiers sitemaps directement à la racine : www.mon-site.com/sitemap.xml
alors tous les fichiers sitemap et sitemap index se référant à une adresse du type www.mon-site.com/n-importe-quoi
seront valides.
Par contre si l'on place ses fichiers Sitemaps dans www.mon-site.com/repertoire/sitemap.xml
, si les fichiers sitemaps pointent vers des URL du type : www.mon-site.com
ou www.mon-site.com/autre-repertoire/
alors celles-ci seront considérées comme Denied URLs (refusées) et ne seront pas indexées par Google Sitemaps. Seules les URL du type www.mon-site.com/repertoire/n-importe-quoi
seront valides (le n-importe-quoi
pouvant être un fichier, une page, un répertoire, etc.).
N'étant pas tout à fait convaincu de cette contrainte, nous avons réalisé plusieurs tests.
Ceux qui n'ont posé aucun problème :
- Plusieurs fichiers sitemap et sitemap index à la racine du répertoire devant être indexé
- Un seul fichier sitemap à la racine du répertoire devant être indexé
www.mon-site.com/ma-page.php
Le résultat de ce test est sans appel :
Dans un premier temps Google n'appliquait pas cette contrainte, les différents sitemaps ont été validés sans aucun problème. Mais l'algorithme a certainement été amélioré, les différents sitemaps sont passé d'un statut OK à un Denieds URLs.
Google applique dès à présent ce qui est notifié dans leur FAQ.
Nous pouvons en conclure que le ou les fichiers sitemaps doivent être placés dans le répertoire de plus haut niveau (celui se rapprochant le plus près de la racine).
Le sitemap peut indexer les pages contenues dans le répertoire courant - répertoire du sitemap - ainsi que les différentes pages se trouvant à un niveau inférieur donc dans les sous-répertoires de celui-ci.
Un sitemap placé dans repertoire
peut indexer des pages contenues dans les répertoires du type repertoireX
, repertoireX-Y
, repertoireX-Y-Z
ainsi que dans repertoire
.
Un sitemap placé dans le repertoire1
ne peut indexer que des pages contenues dans repertoire1-1
, repertoire1-2
et repertoire1-3
. Il ne pourra donc pas indexer des pages contenues dans repertoire2
(ainsi que ses sous-répertoires) ni dans repertoire
.
En ce qui concerne les sitemaps index, même placés à la racine, si ceux-ci pointent vers divers sitemaps (contenant des URL) dans un répertoire quelconque, les sitemaps ne pourront indexer que les pages contenu dans ce répertoire ainsi que ses sous-répertoires.