Ловушка для глупых роботов-поисковиков - Дизайн и модификация Invision Power Board

Перейти к содержимому

 
-----
Сейчас, похоже, только ленивый не пишет поисковики. И вот шарятся эти PupkinBot-ы по форумам, мешают нормально работать.
Файл robots.txt они не читают принципиально. Этот скриптик был написан именно для таких самородков.

Шаг 1.

На главной странице добавляем такую ссылку:
<a href='http://www.yourdomain.ru/catch_bots/index.php'><img src="http://www.yourdomain.ru/images/link.gif" border="0" alt="" width="1" height="1"></a>


link.gif - файл размером 1х1, прозрачный. Директорию catch_bots можно назвать как угодно. Главное, чтобы она была и в ней лежал такой файлик с именем index.php

<?php
	  extract($_SERVER);
	  echo "<html><head><title>Попался!</title></head><body><p>Здравствуй, тупой робот!</p></body></html>";

	  $found = 0;
	  $filename = "./botlist.txt";
	  $fp = fopen($filename, "r") or die ("Error opening log file");

	  while ($line = fgets($fp,255)) {
		$str = explode(" ",$line);
		$ip = $str[0];
		if (preg_match("/$ip/",$REMOTE_ADDR)) {$found++;}
	  }
	  fclose($fp);

	  if ($found == 0) {
		$fp = fopen($filename,'a+');
		fwrite($fp,"$REMOTE_ADDR $HTTP_USER_AGENT\n");
		fclose($fp);
	  }
?>


Пустой файл botlist.txt нужно создать руками в директории-ловушке.
Последнее действие - добавить в robots.txt строки (или только строку disallow, если User-agent уже есть)

User-agent: *
Disallow: /catch_bots/


Глупый робот, просматривая главную страничку, натыкается на невидимую ссылку и попадает в ловушку. Дальше вы можете внести его IP в htaccess и забыть про дурачка.

Вот кусочек моего лога за последний месяц. Эти твари даже в user-agent не пишут, кто они.. А один отличился, добавив туда строку "User-agent" ;)

62.163.14.9 Java/1.6.0_04
81.88.208.187 HTMLParser/1.6
212.57.108.57 (compatible; MSIE 5.0; Windows NT)
67.159.44.112 (compatible; MSIE 6.0; Windows NT 5.1; SV1)
78.129.196.177 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)
67.228.201.58 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)
65.198.140.246 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)
78.129.202.17 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)
208.101.45.18 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)
205.234.132.47 User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)
216.255.187.154 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)
91.144.174.47 Mozilla/4.0 (compatible; MSIE 5.0; Windows 98)
217.118.92.43 Mozilla/3.0 (compatible)
195.34.197.185 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.0 (build 02072)
0
 

5 комментариев

Блоги никто не читает :)
А может это в тему перенести и закрепить?
0
Перенести и закрепить - никаких проблем..

А насчет блогов - я у себя повысил читабельность и посещаемость, сделав выноски пары последних сообщений файлового архива и блогов на главную страницу. Поскольку стоит мод последние 10 сообщений, пользователи не шарятся по разделам, а сидят на главной и постоянно видят эти анонсы.

-IMG-
0
В новостях у нас было вынесено.
Толку не было, так как на этот форум люди ходят не за общением.
А блоги создают в основном пустые.
0
Отправил в форум. Прикреплять?
0

Fisana Oct 7 2008, 01:20 PM сказал(а):

Блоги никто не читает :(

Ну вот почему сразу «никто»? :)
0
Страница 1 из 1

Контактная информация

Вопросы по работе сайта

+7 (917) 501-4765
C 10 до 20 в рабочие дни (время московское)

Техническая поддержка

Контактные данные специалистов

Дизайн форумов

IPB 3.x ¦ IPB 2.x

Бесплатные шаблоны

IPB 3.2 – 3.4 ¦ IPB 3.1 ¦ IPB 3.0 ¦ IPB 2.2 – 2.3 ¦ IPB 2.1 ¦ Клипарт
Лицензия на использование ¦ Ваша поддержка ¦ О проекте
Copyright © 2005-2017 IPBSkins.ru Team
При копировании материалов с сайта
прямая ссылка на источник обязательна