Le fichier Robots.txt est le premier fichier que visitent les moteurs de recherche lorsqu'ils explorent votre site. Il offre aux webmasters la possibilité de protéger l'accès à certains fichiers ou répertoire du site, pour tous les moteurs de recherche ou seulement certains.
Par défaut, si un moteur de recherche ne trouve pas de fichier Robots.txt à la racine du site, ou si ce fichier est vide, le moteur aura potentiellement accès à tous les fichiers et répertoires du site (à condition, bien sûr, qu'il en connaisse l'existence via, par exemple, un Sitemap ou un bon réseau de liens internes accessibles dans les pages du site web).
Comment savoir si vous avez besoin de définir des restrictions dans un fichier Robots.txt ? Dans quels cas cela est-il conseillé ? Considérez les cas suivants :
- Y a-t-il des pages dans votre site qui, bien qu'accessibles par le grand public, ne devraient pas figurer parmi les résultats de recherche ? (Ce peut-être le cas d'un annuaire interne, de conditions générales de ventes, de formulaires d'inscriptions, etc.)
- Y a-t-il des répertoires du site qui ne contiennent que des éléments de programmation (fichiers de ressources linguistiques, scripts, fichiers d'inclusions, etc.) ?
- Y a-t-il des images qui ne devraient pas être trouvés via les outils de recherche d'images ? Ce peut être le cas des images composant la charte graphique du site.
- Y a-t-il des pages présentant du contenu dupliqué (Duplicate Content) ?
Pour plus d'informations sur le fichier Robots.txt, sa structure et la façon dont il est exploité par les moteurs de recherche :
Par curiosité, regardez le fichier Robots.txt à la racine de Google.fr !
Link to original post