Jump to content
Дизайн и модификация IPS Community IPBSkinsBETA
Search In
  • More options...
Find results that contain...
Find results in...

desti Блог

Sign in to follow this  
  • entries
    4
  • comments
    12
  • views
    21,581

Ловушка для глупых роботов-поисковиков

Sign in to follow this  
desti

170 views

Сейчас, похоже, только ленивый не пишет поисковики. И вот шарятся эти PupkinBot-ы по форумам, мешают нормально работать.

Файл robots.txt они не читают принципиально. Этот скриптик был написан именно для таких самородков.

 

Шаг 1.

 

На главной странице добавляем такую ссылку:

<a href='http://www.yourdomain.ru/catch_bots/index.php'><img src="http://www.yourdomain.ru/images/link.gif" border="0" alt="" width="1" height="1"></a>

 

link.gif - файл размером 1х1, прозрачный. Директорию catch_bots можно назвать как угодно. Главное, чтобы она была и в ней лежал такой файлик с именем index.php

 

<?php
  extract($_SERVER);
  echo "<html><head><title>Попался!</title></head><body><p>Здравствуй, тупой робот!</p></body></html>";

  $found = 0;
  $filename = "./botlist.txt";
  $fp = fopen($filename, "r") or die ("Error opening log file");

  while ($line = fgets($fp,255)) {
	$str = explode(" ",$line);
	$ip = $str[0];
	if (preg_match("/$ip/",$REMOTE_ADDR)) {$found++;}
  }
  fclose($fp);

  if ($found == 0) {
	$fp = fopen($filename,'a+');
	fwrite($fp,"$REMOTE_ADDR $HTTP_USER_AGENT\n");
	fclose($fp);
  }
?>

 

Пустой файл botlist.txt нужно создать руками в директории-ловушке.

Последнее действие - добавить в robots.txt строки (или только строку disallow, если User-agent уже есть)

 

User-agent: *
Disallow: /catch_bots/

 

Глупый робот, просматривая главную страничку, натыкается на невидимую ссылку и попадает в ловушку. Дальше вы можете внести его IP в htaccess и забыть про дурачка.

 

Вот кусочек моего лога за последний месяц. Эти твари даже в user-agent не пишут, кто они.. А один отличился, добавив туда строку "User-agent" ;)

 

62.163.14.9 Java/1.6.0_04

81.88.208.187 HTMLParser/1.6

212.57.108.57 (compatible; MSIE 5.0; Windows NT)

67.159.44.112 (compatible; MSIE 6.0; Windows NT 5.1; SV1)

78.129.196.177 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)

67.228.201.58 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)

65.198.140.246 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)

78.129.202.17 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)

208.101.45.18 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)

205.234.132.47 User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)

216.255.187.154 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)

91.144.174.47 Mozilla/4.0 (compatible; MSIE 5.0; Windows 98)

217.118.92.43 Mozilla/3.0 (compatible)

195.34.197.185 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.0 (build 02072)

Sign in to follow this  


5 Comments


Recommended Comments

Блоги никто не читает :)

А может это в тему перенести и закрепить?

Share this comment


Link to comment

Перенести и закрепить - никаких проблем..

 

А насчет блогов - я у себя повысил читабельность и посещаемость, сделав выноски пары последних сообщений файлового архива и блогов на главную страницу. Поскольку стоит мод последние 10 сообщений, пользователи не шарятся по разделам, а сидят на главной и постоянно видят эти анонсы.

 

head1.jpg

Share this comment


Link to comment

В новостях у нас было вынесено.

Толку не было, так как на этот форум люди ходят не за общением.

А блоги создают в основном пустые.

Share this comment


Link to comment
Блоги никто не читает :(

Ну вот почему сразу «никто»? :)

Share this comment


Link to comment

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
×
×
  • Create New...