InfoPage.pl » Pokierować robota. Robot.txt, co to za pliczek? » Moje porady dla ludzi z netu
   InfoPage - strona główna bloga InfoPage - Lista artykułów znajdująca się na moim blogu InfoPage - zmiana adresu mojego bloga InfoPage - zmiana layoutu mojego bloga Infopage - linki do zaprzyjaźnionych stron
top
Powiększ tekst:

Pokierować robota. Robot.txt, co to za pliczek?

August 20th, 2009, 19:31 @ Bezpieczeństwo, Pozycjonowanie, Strony www
0 votes

Strony www to nie tylko to, co nam się wyświetla w czasie ich oglądania. Istnieje duża liczba plików działających “w tle”, ukrytych przed normalnymi użytkownikami strony. Ich rola także jest bardzo ważna, jeśli nie ważniejsza.

Niewidoczne programy, to linie kodu obsługujące na przykład logowanie, jakiś ciekawy efekt zapierający dech w piersiach, plik, który instruuje serwer, jak ma się zachować dla określonych czynności lub obrona przed wylistowaniem

Jednym z ukrytych, a zarazem ciekawych, jest plik: robot.txt.


Malutki pliczek w głównym katalogu strony, którego zadaniem jest poinformowanie robota, zbierającego informacje, gdzie powinien zajrzeć, a gdzie nie.

Robot, to aplikacja, której zadaniem jest zbieranie informacji o stronie. Niektóre roboty “wyciągają” dane, adresy e-mail, inne indeksują stronę, pobierają szkielet strony, zapisują do bazy wszystkie teksty znajdujące się na stronie.

Wewnątrz pliku “robot.txt” możemy wpisać reguły dla robotów odwiedzających naszą stronę wymuszając na nich pomijanie bądź kierowanie ich do katalogów do zaindeksowania. Szczerze pisząc, roboty i tak wszędzie zaglądają, informacje zbierają, ale nas o tym nie informują. Jest na to rada. Blokowanie IP (robota), o którym już pisałem.

W głównym katalogu, tam, gdzie znajduje się index należy dodać plik o nazwie:

robot.txt

W pliku tym powinny znajdować się reguły dla botów odwiedzających naszą stronę. Można nadać regułę Allow lub Disallow, co oznacza zezwól lub nie zezwalaj. Boty przeważnie wchodzą na naszą stronę w celu zaindeksowania kolejnych podstron, które dodajemy systematycznie w celu rozwijania naszego serwisu, ale także trzymamy tam pliki, które nie chcielibyśmy, aby były indeksowane przez roboty.

Najważniejszą regułą jest:

User-agent *

Dzięki niej informujemy wszystkie boty (ponieważ jest gwiazdka, tzw. dzika karta, zamiast nazwy bota, dlatego wszystkie boty) o:

User-agent *
Disallow: /nazwa_folderu_do_ukrycia/

nie indeksowaniu katalogu “nazwa_folderu_do_ukrycia”. Możemy także zabronić dostępu do konkretnego pliku:

User-agent *
Disallow:/jakis_katalog/plik_do_ukrycia.txt

Gwiazdkę (*) możemy zastąpić nazwą bota. Istnieje bardzo dużo różnych pająków szperających po internecie. Lista botów znajduje się tu.

Możemy także zezwolić na odwiedzanie katalogu “nazwa_folderu_do_pokazania”:

User-agent *
Allow: /nazwa_folderu_do_pokazania/

Która nie jest wymagana, ze względu na to że z automatu roboty węszą wszędzie, a nie węszą tam, gdzie jest “Disallow”.

Roboty przejrzą całą naszą stronę oraz inne katalogi znajdujące się na serwerze, jeśli nie będzie się znajdować pliczek “robot.txt” lub w pliku tym będzie się znajdować reguła:

User-agent *
Disallow:

Według mnie, mimo, że nie mam za dużego doświadczenia z robotami internetowymi plik ten jest zbędny. Może ktoś obali moją tezę?



Zostaw komentarz:

Komentarze są moderowane, nie wysyłaj więc jednego komentarza kilka razy...