Jak się bronić przed Yahoo! Slurp

09 października 2009

Szedłem dzienniki mojego serwera za ostatni miesiąc i był wstrząśnięty, aby zobaczyć, że nawet o 22,93% całkowitej przepustowości danego stronie internetowej kopalni był używany przez robota o nazwie Yahoo Slurp (I powinien był wiedzieć lepiej, biorąc pod uwagę ujawniania nazwiska).

Jest to po prostu śmieszne szczególnie biorąc pod uwagę fakt, że Yahoo wysyła nieznacznej liczby osób odwiedzających witrynę.

Udział zrewidować silnik rynku dla Yahoo idzie w dół i tak - jest obecnie na 6,84%. Dla większości z moich stron Yahoo nie wysyłać więcej niż 4% całkowitego ruchu. Oznacza to, że mam wtyczkę na Yahoo! Przejechać Slurp jest w chwili obecnej.

Więc jak zrobić by Yahoo! Robota?

Utwórz plik o nazwie robots.txt w katalogu głównym strony internetowej z następujących linii tekstu, w tym:

User-Agent: Slurp

Disallow: /

User-Agent: *

Disallow:

Jeśli nie chcesz całkowicie zablokować robota Yahoo, można po prostu zmniejszyć ilość wniosków Slurp wysyła na serwer. W tym celu należy stosować następujące wiersze w robot.txt sprawy:

User-agent: Slurp

Crawl-opóźnienie: 1

To "wartość opóźnienia" wydłuża czas między kolejnymi Yahoo! Działania robota, i obniża stawki dostępu Slurp na serwerze. W oficjalnym FAQ widać szczegóły o Yahoo! Slurp i kilka sposobów na zmniejszenie liczby wniosków to sprawia, że do Twojej witryny. Dla mnie jednak, wspieranie Crawler nie jest warte kosztów.

3 odpowiedzi do tej pory

  • TheAnand mówi:

    ah Yahoo! wysyła mi aż 80% ruchu na jednej witrynie i 0% na innych ... Chyba to zależy od typu witryny publicznością masz.

    W moim przypadku, kobiet, dzieci na miejscu zyski dużo ruchu z człowiek z jakiegoś powodu.

  • Niyaz PK mówi:

    Oczywiście wszystkie te zależą od liczby odwiedzin w wyszukiwarce przynosi.

    Myślę, że wyszukiwarki powinna uwzględniać ten fakt przed indeksowania mojego serwera na śmierć.

  • Joyce mówi:

    Kiedyś miałem problem z wyszukiwarki rosyjski (Yandex.ru). Jest to największa rosyjska wyszukiwarka i one tam, gdzie indeksowania witryny w wysokości od 5-10 stron na minutę. Co więcej mi spokoju to, że nie były one następujące robots.txt, więc dodanie ich do pliku robots.txt nie opcję. I w końcu musiałem dodać je do iptables do blokowania.

Leave a Reply