Jak stworzyć idealny plik Robots.txt dla SEO
Każdy kocha „hacki”.
Nie jestem wyjątkiem –– Uwielbiam znajdować sposoby, aby uczynić swoje życie lepszym i łatwiejszym.
Dlatego technika, o której dzisiaj Wam opowiem, jest jedną z moich ulubionych. legalny hack SEO, z którego możesz zacząć korzystać od razu.
Jest to sposób na zwiększenie SEO poprzez wykorzystanie naturalnej części każdej witryny, o której rzadko się mówi. Nie jest też trudna do wdrożenia.
To plik robots.txt (nazywany również protokołem lub standardem wykluczania robotów).
Ten malutki plik tekstowy jest częścią każdej witryny internetowej, ale większość ludzi nie nawet o tym wiem.
Został zaprojektowany do współpracy z wyszukiwarkami, ale, co zaskakujące, jest źródłem soku SEO, który tylko czeka na odblokowanie.
Widziałem klienta po zagięciu klienta starając się ulepszyć SEO. Gdy mówię im, że mogą edytować mały plik tekstowy, prawie mi nie wierzą.
Jest jednak wiele metod ulepszania SEO, które nie są trudne ani czasochłonne, a to jest jedna z nich.
Nie Nie musisz mieć żadnego doświadczenia technicznego, aby wykorzystać możliwości pliku robots.txt. Jeśli możesz znaleźć kod źródłowy swojej witryny internetowej, możesz go użyć.
Więc kiedy będziesz gotowy, idź ze mną, a pokażę ci dokładnie, jak zmienić plik robots.txt plik, aby wyszukiwarki go polubiły.
Dlaczego plik robots.txt jest ważny
Najpierw przyjrzyjmy się, dlaczego plik robots.txt ma znaczenie.
Plik robots.txt, znany również jako protokół lub standard wykluczania robotów, to plik tekstowy informujący roboty internetowe (najczęściej wyszukiwarki), które strony w Twojej witrynie mają zaindeksować.
Informuje także roboty sieciowe, których stron nie mają indeksować.
Powiedzmy, że wyszukiwarka ma zamiar odwiedzić witrynę. Zanim odwiedzi stronę docelową, sprawdzi plik robots.txt, aby uzyskać instrukcje.
Istnieją różne typy plików robots.txt, więc spójrzmy na kilka różnych przykładów ich wyglądu.
Załóżmy, że wyszukiwarka znajduje przykładowy plik robots.txt:
To jest podstawowy szkielet plik robots.txt.
Gwiazdka po wyrażeniu „user-agent” oznacza, że plik robots.txt dotyczy wszystkich robotów internetowych, które odwiedzają witrynę.
Ukośnik po wyrażeniu „Disallow ”Mówi robotowi, aby nie odwiedzał żadnych stron w witrynie.
Możesz się zastanawiać, dlaczego ktoś miałby chcieć uniemożliwić robotom internetowym odwiedzanie ich witryny.
W końcu jeden z Głównym celem SEO jest ułatwienie wyszukiwarkom indeksowania Twojej witryny, aby podniosły Twoją pozycję w rankingu.
W tym miejscu pojawia się sekret tego hacka SEO.
Prawdopodobnie masz wiele stron w Twojej witrynie, prawda? Nawet jeśli myślisz, że tak nie jest, sprawdź. Możesz być zaskoczony.
Jeśli wyszukiwarka zaindeksuje Twoją witrynę, zaindeksuje każdą z Twoich stron.
A jeśli masz dużo stron, zajmie to robot wyszukiwarki, aby je zaindeksować, co może mieć negatywny wpływ na Twój ranking.
Dzieje się tak, ponieważ Googlebot (robot wyszukiwarki Google) ma „budżet na indeksowanie”.
To psuje na dwie części. Pierwsza to ograniczenie szybkości indeksowania. Oto, jak Google wyjaśnia to:
Druga część to żądanie indeksowania :
Zasadniczo budżet na indeksowanie to „liczba adresów URL, które Googlebot może i chce przeszukać”.
Chcesz pomóc Googlebotowi wydać budżet na indeksowanie Twojej witryny w najlepszy możliwy sposób. Innymi słowy, powinno to być indeksowanie najbardziej wartościowych stron.
Według Google istnieją pewne czynniki, które „negatywnie wpłyną na pobieranie i indeksowanie witryny”.
Oto następujące czynniki:
Wróćmy więc do pliku robots.txt.
Jeśli utworzysz właściwy robots.txt, możesz nakazać robotom wyszukiwarek (a zwłaszcza Googlebotowi) unikanie określonych stron.
Pomyśl o konsekwencjach. Jeśli powiesz robotom wyszukiwarek, aby indeksowały tylko najbardziej przydatne treści, boty przeszukaj i zindeksuj swoją witrynę tylko w oparciu o tę zawartość.
Jak to określa Google:
„Nie chcesz, aby Twój serwer był przeciążony przez robota Google lub marnował indeksowanie budżetu na indeksowanie nieważne lub podobne strony w Twojej witrynie ”.
Używając we właściwy sposób pliku robots.txt, możesz nakazać robotom wyszukiwarek, aby rozsądnie wydawały budżet na indeksowanie. I to właśnie sprawia, że plik robots.txt jest tak przydatny w kontekście SEO.
Zaintrygowała Cię moc pliku robots.txt?
Powinien być! Porozmawiajmy o tym, jak go znaleźć i jak go używać.
Znajdowanie pliku robots.txt
Jeśli chcesz tylko szybko przejrzeć plik robots.txt, istnieje bardzo łatwy sposób na wyświetl go.
W rzeczywistości ta metoda będzie działać dla każdej witryny. Możesz więc zajrzeć do plików innych witryn i zobaczyć, co robią.
Będzie jedna z trzech sytuacji:
1) Znajdziesz robota.txt.
2) Znajdziesz pusty plik.
Na przykład Disney wygląda na to, że brakuje pliku robots.txt:
3) Otrzymasz 404.
Metoda zwraca 404 dla pliku robots.txt:
Poświęć chwilę i przejrzyj plik robots.txt swojej witryny.
Jeśli znajdziesz pusty plik lub błąd 404, będziesz chciał to naprawić.
Jeśli znajdziesz prawidłowy plik, prawdopodobnie są to ustawienia domyślne, które zostały utworzone podczas stworzył Twoją witrynę.
Szczególnie podoba mi się ta metoda przeglądania plików robots.txt innych witryn. Gdy już poznasz tajniki pliku robots.txt, może to być cenne ćwiczenie.
Przyjrzyjmy się teraz faktycznej zmianie pliku robots.txt.
Znajdowanie pliku robots.txt plik
Twoje kolejne kroki będą zależeć od tego, czy masz plik robots.txt. (Sprawdź, czy robisz, używając metody opisanej powyżej).
Jeśli nie masz pliku robots.txt, musisz utworzyć go od podstaw. Otwórz zwykły edytor tekstu, taki jak Notatnik (Windows) lub TextEdit (Mac.)
Używaj tylko zwykłego edytora tekstu. Jeśli używasz programów takich jak Microsoft Word, program może wstawić dodatkowy kod do tekstu.
Editpad.org to świetna bezpłatna opcja i właśnie tego użyję w tym artykule.
Powrót do pliku robots.txt. Jeśli masz plik robots.txt, musisz go zlokalizować w katalogu głównym swojej witryny.
Jeśli nie jesteś przyzwyczajony do grzebania w kodzie źródłowym, może to być trochę trudne znajdź edytowalną wersję pliku robots.txt.
Zazwyczaj katalog główny można znaleźć, przechodząc do witryny swojego konta hostingowego, logując się i przechodząc do sekcji zarządzania plikami lub FTP w witrynie.
Powinno pojawić się coś takiego:
Znajdź plik robots.txt i otwórz to do edycji. Usuń cały tekst, ale zachowaj plik.
Uwaga: jeśli używasz WordPress, możesz zobaczyć plik robots.txt, gdy wejdziesz na twojawitryna.com/robots.txt, ale wygrałeś nie mogę go znaleźć w plikach.
Dzieje się tak, ponieważ WordPress tworzy wirtualny plik robots.txt, jeśli w katalogu głównym nie ma pliku robots.txt.
Jeśli tak się stanie musisz utworzyć nowy plik robots.txt.
Tworzenie pliku robots.txt
Możesz utworzyć nowy plik robots.txt, używając zwykłego tekstu wybrany przez Ciebie redaktor. (Pamiętaj, używaj tylko zwykłego edytora tekstu).
Jeśli masz już plik robots.txt, upewnij się, że usunąłeś tekst (ale nie plik).
Najpierw musisz zapoznać się ze składnią używaną w pliku robots.txt.
Google ma ładne wyjaśnienie niektórych podstawowych terminów w pliku robots.txt:
Pokażę ci, jak skonfigurować prosty plik robot.txt, a następnie przyjrzymy się, jak dostosować go do SEO.
Zacznij od ustawienia terminu klienta użytkownika. Ustawimy go tak, aby dotyczył wszystkich robotów internetowych.
Zrób to, używając gwiazdki po terminie klienta użytkownika, na przykład:
Następnie wpisz „Disallow:”, ale po tym nic nie wpisuj.
Ponieważ po zakazie nie ma nic, roboty sieciowe będą kierowane do zaindeksowania całej witryny. W tej chwili wszystko w witrynie jest uczciwą grą.
Jak dotąd plik robots.txt plik powinien wyglądać tak:
Wiem, że wygląda to bardzo prosto, ale te dwie linie już wiele robią.
Możesz również utworzyć link do mapy witryny XML, ale nie jest to konieczne. Jeśli chcesz, wpisz poniżej:
Wierz lub nie, ale tak wygląda podstawowy plik robots.txt.
Teraz przejdźmy na wyższy poziom i zamieńmy ten mały plik w narzędzie do optymalizacji SEO.
Optymalizacja pliku robots.txt pod kątem SEO
Sposób optymalizacji pliku robots.txt zależy od masz na swojej stronie. Istnieją różne sposoby wykorzystania pliku robots.txt na swoją korzyść.
Omówię kilka najpopularniejszych sposobów korzystania z niego.
(Pamiętaj, że nie należy używać pliku robots.txt do blokowania stron przed wyszukiwarkami. To wielkie nie, nie.)
Jednym z najlepszych zastosowań pliku robots.txt jest maksymalizacja budżetów indeksowania wyszukiwarek poprzez poinformowanie ich aby nie indeksować części witryny, które nie są wyświetlane publicznie.
Na przykład, jeśli odwiedzisz plik robots.txt tej witryny (neilpatel.com), zobaczysz, że nie zezwala na stronę logowania (wp-admin).
Ponieważ ta strona jest używana tylko do logowania się do zaplecza witryny , nie miałoby sensu, aby boty wyszukiwarek marnowały czas na indeksowanie go.
(Jeśli masz WordPress, możesz użyć tej samej linii disallow).
Możesz użyj podobnej dyrektywy (lub polecenia), aby uniemożliwić robotom indeksowanie określonych stron.