Comment créer le fichier Perfect Robots.txt pour le référencement
Tout le monde aime les « hacks ».
Je ne fais pas exception. J’adore trouver des moyens de rendre ma vie meilleure et plus facile.
C’est pourquoi la technique dont je vais vous parler aujourd’hui est l’une de mes préférées. C’est un hack SEO légitime que vous pouvez commencer à utiliser tout de suite.
C’est un moyen d’augmenter votre référencement en tirant parti d’une partie naturelle de chaque site Web dont on parle rarement. Ce n’est pas difficile à mettre en œuvre non plus.
C’est le fichier robots.txt (également appelé protocole ou standard d’exclusion des robots).
Ce petit fichier texte fait partie de tous les sites Web sur Internet, mais la plupart des gens ne le font pas sachez-le même.
Il est conçu pour fonctionner avec les moteurs de recherche, mais étonnamment, c’est une source de jus de référencement qui ne demande qu’à être déverrouillée.
J’ai vu un client après un client plier en arrière en essayant d’améliorer leur référencement. Quand je leur dis qu’ils peuvent éditer un petit fichier texte, ils ne me croient presque pas.
Cependant, il existe de nombreuses méthodes pour améliorer le référencement qui ne sont ni difficiles ni fastidieuses, et c’est l’une d’entre elles.
‘pas besoin d’avoir une expérience technique pour tirer parti de la puissance de robots.txt. Si vous pouvez trouver le code source de votre site Web, vous pouvez l’utiliser.
Alors, lorsque vous serez prêt, suivez-moi et je vous montrerai exactement comment modifier votre fichier robots.txt pour que les moteurs de recherche l’adorent.
Pourquoi le fichier robots.txt est important
Tout d’abord, voyons pourquoi le fichier robots.txt est important en premier lieu.
Le fichier robots.txt, également connu sous le nom de protocole ou standard d’exclusion des robots, est un fichier texte qui indique aux robots Web (le plus souvent aux moteurs de recherche) les pages de votre site à explorer.
Il indique également aux robots Web quelles pages ne pas explorer.
Supposons qu’un moteur de recherche est sur le point de visiter un site. Avant de visiter la page cible, il vérifiera le fichier robots.txt pour obtenir des instructions.
Il existe différents types de fichiers robots.txt, alors regardons quelques exemples différents de ce à quoi ils ressemblent.
Supposons que le moteur de recherche trouve cet exemple de fichier robots.txt:
Ceci est le squelette de base de un fichier robots.txt.
L’astérisque après « user-agent » signifie que le fichier robots.txt s’applique à tous les robots Web qui visitent le site.
La barre oblique après « Disallow »Dit au robot de ne visiter aucune page du site.
Vous vous demandez peut-être pourquoi quelqu’un voudrait empêcher les robots Web de visiter leur site.
Après tout, l’un des Les principaux objectifs du référencement sont d’amener les moteurs de recherche à explorer facilement votre site afin qu’ils augmentent votre classement.
C’est là que le secret de ce hack SEO entre en jeu.
Vous avez probablement un beaucoup de pages sur votre site, non? Même si vous ne pensez pas que vous le faites, allez vérifier. Vous pourriez être surpris.
Si un moteur de recherche explore votre site, il explorera chacune de vos pages.
Et si vous avez beaucoup de pages, cela prendra le moteur de recherche pendant un certain temps pour les explorer, ce qui peut avoir des effets négatifs sur votre classement.
C’est parce que Googlebot (le robot des moteurs de recherche de Google) a un « budget d’exploration ».
en deux parties. La première est la limite de vitesse d’exploration. Voici comment Google explique que:
La deuxième partie est la demande d’exploration :
Fondamentalement, le budget d’exploration est « le nombre d’URL que Googlebot peut et veut explorer. »
Vous voulez aider Googlebot à dépenser son budget d’exploration pour votre site de la meilleure façon possible. En d’autres termes, il doit explorer vos pages les plus précieuses.
Certains facteurs, selon Google, « auront un impact négatif sur l’exploration et l’indexation d’un site ».
Voici ces facteurs:
Revenons donc au fichier robots.txt.
Si vous créez le bon robots.txt, vous pouvez dire aux robots des moteurs de recherche (et en particulier à Googlebot) d’éviter certaines pages.
Pensez aux implications. Si vous dites aux robots des moteurs de recherche d’explorer uniquement votre contenu le plus utile, les robots explorez et indexez votre site en fonction de ce seul contenu.
Comme le dit Google:
« Vous ne voulez pas que votre serveur soit submergé par le robot d’exploration de Google ou qu’il gaspille le budget d’exploration. des pages sans importance ou similaires sur votre site. »
En utilisant votre fichier robots.txt de la bonne manière, vous pouvez dire aux robots des moteurs de recherche de dépenser judicieusement leurs budgets d’exploration. Et c’est ce qui rend le fichier robots.txt si utile dans un contexte SEO.
Intrigué par la puissance du robots.txt?
Vous devriez l’être! Parlons de la façon de le trouver et de l’utiliser.
Trouver votre fichier robots.txt
Si vous voulez simplement jeter un coup d’œil à votre fichier robots.txt, il existe un moyen très simple de affichez-le.
En fait, cette méthode fonctionnera pour n’importe quel site. Vous pouvez donc jeter un œil aux fichiers d’autres sites et voir ce qu’ils font.
Une des trois situations se produira:
1) Vous trouverez un robot.txt.
2) Vous trouverez un fichier vide.
Par exemple, Disney semble manquer de fichier robots.txt:
3) Vous obtiendrez un 404.
La méthode renvoie un 404 pour le fichier robots.txt:
Prenez une seconde et affichez le fichier robots.txt de votre propre site.
Si vous trouvez un fichier vide ou un 404, vous voudrez corriger cela.
Si vous trouvez un fichier valide, il est probablement défini sur les paramètres par défaut qui ont été créés lorsque vous fait votre site.
J’aime particulièrement cette méthode pour consulter les fichiers robots.txt d’autres sites. Une fois que vous aurez appris les tenants et les aboutissants du fichier robots.txt, cela peut être un exercice précieux.
Voyons maintenant comment modifier réellement votre fichier robots.txt.
Trouver votre fichier robots.txt. fichier
Vos prochaines étapes dépendront toutes si vous avez ou non un fichier robots.txt. (Vérifiez si vous utilisez la méthode décrite ci-dessus.)
Si vous n’avez pas de fichier robots.txt, vous devrez en créer un à partir de zéro. Ouvrez un éditeur de texte brut comme le Bloc-notes (Windows) ou TextEdit (Mac.)
Utilisez uniquement un éditeur de texte brut pour cela. Si vous utilisez des programmes comme Microsoft Word, le programme pourrait insérer du code supplémentaire dans le texte.
Editpad.org est une excellente option gratuite, et c’est ce que vous me verrez utiliser dans cet article.
Retour au robots.txt. Si vous avez un fichier robots.txt, vous devrez le localiser dans le répertoire racine de votre site.
Si vous n’êtes pas habitué à fouiller dans le code source, alors il peut être un peu difficile de localisez la version modifiable de votre fichier robots.txt.
Habituellement, vous pouvez trouver votre répertoire racine en accédant au site Web de votre compte d’hébergement, en vous connectant et en vous dirigeant vers la gestion des fichiers ou la section FTP de votre site.
Vous devriez voir quelque chose qui ressemble à ceci:
Trouvez votre fichier robots.txt et ouvrez pour l’édition. Supprimez tout le texte, mais conservez le fichier.
Remarque: si vous utilisez WordPress, vous verrez peut-être un fichier robots.txt lorsque vous vous rendrez sur votresite.com/robots.txt, mais vous avez gagné Je ne peux pas le trouver dans vos fichiers.
C’est parce que WordPress crée un fichier robots.txt virtuel s’il n’y a pas de robots.txt dans le répertoire racine.
Si cela se produit pour vous, vous devrez créer un nouveau fichier robots.txt.
Création d’un fichier robots.txt
Vous pouvez créer un nouveau fichier robots.txt en utilisant le texte brut éditeur de votre choix. (N’oubliez pas d’utiliser uniquement un éditeur de texte brut.)
Si vous avez déjà un fichier robots.txt, assurez-vous d’avoir supprimé le texte (mais pas le fichier).
Tout d’abord, vous devrez vous familiariser avec une partie de la syntaxe utilisée dans un fichier robots.txt.
Google a une belle explication de quelques termes de base du fichier robots.txt:
Je vais vous montrer comment configurer un simple fichier robot.txt, puis nous verrons comment le personnaliser pour SEO.
Commencez par définir le terme user-agent. Nous allons le configurer pour qu’il s’applique à tous les robots Web.
Pour ce faire, utilisez un astérisque après le terme user-agent, comme ceci:
Ensuite, tapez « Disallow: » mais ne tapez rien après cela.
Comme il n’y a rien après l’interdiction, les robots Web seront invités à explorer l’intégralité de votre site. Pour le moment, tout ce qui se trouve sur votre site est un jeu équitable.
Jusqu’à présent, votre fichier robots.txt Le fichier doit ressembler à ceci:
Je sais que cela a l’air super simple, mais ces deux lignes font déjà beaucoup.
Vous pouvez également créer un lien vers votre plan de site XML, mais ce n’est pas nécessaire. Si vous le souhaitez, voici ce qu’il faut taper:
Croyez-le ou non, voici à quoi ressemble un fichier robots.txt de base.
Passons maintenant au niveau supérieur et transformons ce petit fichier en booster de référencement.
Optimiser le fichier robots.txt pour le référencement
La façon dont vous optimisez le fichier robots.txt dépend du c ontent que vous avez sur votre site. Il existe toutes sortes de façons d’utiliser le fichier robots.txt à votre avantage.
Je vais passer en revue certaines des façons les plus courantes de l’utiliser.
(Gardez à l’esprit que vous ne doit pas utiliser le fichier robots.txt pour bloquer les pages des moteurs de recherche. C’est un non-non.)
L’une des meilleures utilisations du fichier robots.txt est de maximiser les budgets d’exploration des moteurs de recherche en leur indiquant pour ne pas explorer les parties de votre site qui ne sont pas affichées au public.
Par exemple, si vous visitez le fichier robots.txt de ce site (neilpatel.com), vous verrez qu’il interdit la page de connexion (wp-admin).
Puisque cette page est juste utilisée pour se connecter au backend du site , cela n’aurait aucun sens pour les robots des moteurs de recherche de perdre leur temps à l’explorer.
(Si vous avez WordPress, vous pouvez utiliser exactement la même ligne d’interdiction.)
Vous pouvez utilisez une directive (ou une commande) similaire pour empêcher les robots d’explorer des pages spécifiques.