Pourquoi mettre en place un fichier robots.txt dans votre site

24 commentaires sur “Pourquoi mettre en place un fichier robots.txt dans votre site”

  1. L’utilisation d’un fichier Robots.txt adapté permet aussi d’éviter de voir d’éventuelles failles de sécurité affichées en première page de Google.
    Certains hackers se contentent de taper des requêtes spéciales dans les moteurs de recherche pour scanner les failles des sites webs.
    Bloquer l’accès des crawlers à certains répertoires sensibles (par exemple le répertoire wp-includes de WordPress) ne soignera pas le problème mais cela le rendra au moins beaucoup plus discret, vous laissant le temp d’agir.

  2. il me semblait qu’en raison de la guerre à l’indexation, les robots de google et yahoo indexent tout ce qu’ils trouvent, le robots.txt ne servant alors qu’à interdire l’affichage du resultats dans le moteur de recherche.

  3. Ouais, ben j’ai mis un robots.txt à la racine de mon domaine depuis près d’un mois et Google continue d’indexer ma page de contact, mon flux et le flux des commentaires, etc…

    J’ai pourtant soumis ce fichier à google webmastertools sans problème, mais bon…
    Donc merci pour cet article mais je me demande toujours à quoi ça sert :s

  4. Dans cet article : http://docs.abondance.com/robots.html, certaines des informations que vous donnez sont contredites (l’utilisation de l’étoile * et la commande Allow).
    Après une petite recherche, il apparaît que la commande Allow est peu prise en charge, et que l’étoile n’est utilisable que dans le champ « User-agent »…

  5. Note que le standard du robots.txt ne permet pas de faire des filtres avec un « wildchar » dans les chemins. Cependant, certains robots les acceptent. Certains services d’indexation permettent de vérifier la validité de son fichier robots.txt, avec éventuellement le confronter à une batterie d’URLs de test.

    Le service Google Sitemaps permet notamment de faire ce genre de vérifications. Il serait en effet de faire un robots.txt qui ne soit pas correctement interprété par les robots d’indexation et qui, pire, serait ignoré, du fait d’une mauvaise syntaxe.

    Certains points en matière de robots.txt sont tout de même à noter : s’il est de bon ton d’interdire l’indexation de certaines parties sensibles d’un site web aux robots d’indexation des moteurs de recherche, les hackers ayant tendance à faire des requêtes du type « inurl:admin.php » pour identifier des cibles potentielles prêtes à être hackées par l’exploitation de failles de sécurité des divers outils de publication web, il est en revanche important de noter que la lecture du robots.txt peut être faite par n’importe qui, et en particulier par des robots d’indexation, dont des robots de hackers. Aussi, il est très important de ne pas y faire figurer de dossiers « confidentiels », et de bien veiller à protéger ceux-ci via un mot de passe, notamment via un mot de passe au niveau du serveur web.

  6. @epikurieu en ce qui concerne la fonction Allow je peux valider qu’elle fonctionne car elle autorise mon sitemap.php qui sans ce « allow » ne fonctionnait pas dans le webmastertool de google… Pour les wildcards il semble que cela fonctionne aussi mais il faut faire des test pour vérifier qu’ils marchent chez toi.

  7. La stratégie pour robots.txt

    * Déclarer les pages *publiques* que l’on veut interdire à l’accès des indexeurs.
    * Ne pas déclarer les pages d’admins, et autres. Car pour le coup, cela les rend vraiment visibles à tous. Pour les pages d’admins, il est préférable de mettre en place un .htaccess avec un mot de passe et un login.

  8. Bonjour,

    Je suis en train de faire mon fichier robots.txt et je me demandais quoi inclure dedans. Alors, si je comprends bien le tout, je dois pas y inclure les dossiers des includes php, des css, des librairies javascript et dossier d aministration du cms?

    Dans le cas où j ai une commande serveur qui restreind l acces aux contenus des dossiers de mon site sans urls complètes, est-ce que les robots peuvent y accéder quand meme?

    Merci

    Alex

  9. Merci pour ce super article.

    Je me demandais s’il était judicieux d’interdire aux moteurs d’accéder aux pages de tags.

    Si oui, ça ressemblerait à ça non? disallow: /tag

    Merci beaucoup si tu trouves le temps de répondre.

    Garry

  10. Bonjour,

    Je prépare un site qui sortira cette semaine. Je suis totalement débutante dans tout ce qui touche le SEO.

    Votre article est interessante mais j’avoue que je suis nulle de ne pas tout comprendre. Vous et d’autres sites conseillez de mettre le Dissalow sur Wp-content. Mais mon contenu se trouve tous dans ce répertoire wp-content/themes/nom du theme/… Si on dit au robot de ne pas y aller comment fait-on alors pour que mon contenu soit référencé. Car tout ce qui affiche sur le net vient de ces répertoires non ? A moins que je confonds vraiment tout et je vous prie de m’excuser dans ce cas là.

    Merci pour votre aide :)

Les commentaires sont fermés.