Ловушка для глупых роботов-поисковиков
Сейчас, похоже, только ленивый не пишет поисковики. И вот шарятся эти PupkinBot-ы по форумам, мешают нормально работать.
Файл robots.txt они не читают принципиально. Этот скриптик был написан именно для таких самородков.
Шаг 1.
На главной странице добавляем такую ссылку:
<a href='http://www.yourdomain.ru/catch_bots/index.php'><img src="http://www.yourdomain.ru/images/link.gif" border="0" alt="" width="1" height="1"></a>
link.gif - файл размером 1х1, прозрачный. Директорию catch_bots можно назвать как угодно. Главное, чтобы она была и в ней лежал такой файлик с именем index.php
<?php extract($_SERVER); echo "<html><head><title>Попался!</title></head><body><p>Здравствуй, тупой робот!</p></body></html>"; $found = 0; $filename = "./botlist.txt"; $fp = fopen($filename, "r") or die ("Error opening log file"); while ($line = fgets($fp,255)) { $str = explode(" ",$line); $ip = $str[0]; if (preg_match("/$ip/",$REMOTE_ADDR)) {$found++;} } fclose($fp); if ($found == 0) { $fp = fopen($filename,'a+'); fwrite($fp,"$REMOTE_ADDR $HTTP_USER_AGENT\n"); fclose($fp); } ?>
Пустой файл botlist.txt нужно создать руками в директории-ловушке.
Последнее действие - добавить в robots.txt строки (или только строку disallow, если User-agent уже есть)
User-agent: * Disallow: /catch_bots/
Глупый робот, просматривая главную страничку, натыкается на невидимую ссылку и попадает в ловушку. Дальше вы можете внести его IP в htaccess и забыть про дурачка.
Вот кусочек моего лога за последний месяц. Эти твари даже в user-agent не пишут, кто они.. А один отличился, добавив туда строку "User-agent" ;)
62.163.14.9 Java/1.6.0_04
81.88.208.187 HTMLParser/1.6
212.57.108.57 (compatible; MSIE 5.0; Windows NT)
67.159.44.112 (compatible; MSIE 6.0; Windows NT 5.1; SV1)
78.129.196.177 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)
67.228.201.58 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)
65.198.140.246 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)
78.129.202.17 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)
208.101.45.18 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)
205.234.132.47 User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)
216.255.187.154 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)
91.144.174.47 Mozilla/4.0 (compatible; MSIE 5.0; Windows 98)
217.118.92.43 Mozilla/3.0 (compatible)
195.34.197.185 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.0 (build 02072)
5 комментариев
Рекомендованные комментарии
Создайте аккаунт или войдите в него для комментирования
Вы должны быть пользователем, чтобы оставить комментарий
Создать аккаунт
Зарегистрируйтесь для получения аккаунта. Это просто!
Зарегистрировать аккаунтВойти
Уже зарегистрированы? Войдите здесь.
Войти сейчас