Jump to content
Дизайн и модификация IPS Community IPBSkinsBETA
Search In
  • More options...
Find results that contain...
Find results in...
Sign in to follow this  
desti

Ловушка для поисковиков

Recommended Posts

Сейчас, похоже, только ленивый не пишет поисковики. И вот шарятся эти PupkinBot-ы по форумам, мешают нормально работать.

Файл robots.txt они не читают принципиально. Этот скриптик был написан именно для таких самородков.

 

Шаг 1.

 

На главной странице добавляем такую ссылку:

<a href='http://www.yourdomain.ru/catch_bots/index.php'><img src="http://www.yourdomain.ru/images/link.gif" border="0" alt="" width="1" height="1"></a>

 

link.gif - файл размером 1х1, прозрачный. Директорию catch_bots можно назвать как угодно. Главное, чтобы она была и в ней лежал такой файлик с именем index.php

 

<?php
  extract($_SERVER);
  echo "<html><head><title>Попался!</title></head><body><p>Здравствуй, тупой робот!</p></body></html>";

  $found = 0;
  $filename = "./botlist.txt";
  $fp = fopen($filename, "r") or die ("Error opening log file");

  while ($line = fgets($fp,255)) {
	$str = explode(" ",$line);
	$ip = $str[0];
	if (preg_match("/$ip/",$REMOTE_ADDR)) {$found++;}
  }
  fclose($fp);

  if ($found == 0) {
	$fp = fopen($filename,'a+');
	fwrite($fp,"$REMOTE_ADDR $HTTP_USER_AGENT\n");
	fclose($fp);
  }
?>

 

Пустой файл botlist.txt нужно создать руками в директории-ловушке.

Последнее действие - добавить в robots.txt строки (или только строку disallow, если User-agent уже есть)

 

User-agent: *
Disallow: /catch_bots/

 

Глупый робот, просматривая главную страничку, натыкается на невидимую ссылку и попадает в ловушку. Дальше вы можете внести его IP в htaccess и забыть про дурачка.

 

Вот кусочек моего лога за последний месяц. Эти твари даже в user-agent не пишут, кто они.. А один отличился, добавив туда строку "User-agent" :D

 

62.163.14.9 Java/1.6.0_04

81.88.208.187 HTMLParser/1.6

212.57.108.57 (compatible; MSIE 5.0; Windows NT)

67.159.44.112 (compatible; MSIE 6.0; Windows NT 5.1; SV1)

78.129.196.177 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)

67.228.201.58 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)

65.198.140.246 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)

78.129.202.17 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)

208.101.45.18 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)

205.234.132.47 User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)

216.255.187.154 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)

91.144.174.47 Mozilla/4.0 (compatible; MSIE 5.0; Windows 98)

217.118.92.43 Mozilla/3.0 (compatible)

195.34.197.185 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.0 (build 02072)

  • Upvote 1

Share this post


Link to post
Share on other sites

Классная штука! Проблема ведь действительно существует!

А вообще Я так думаю скрипт и идею можно заюзать не только на движке IPB :)

Share this post


Link to post
Share on other sites
А вообще Я так думаю скрипт и идею можно заюзать не только на движке IPB :)

Смысл?

 

Процитирую высказывание с одного форума, посвященной одной CMS

 

А как вы видите решение с помощью сессий? Многие боты пингуют с нескольких IP одной подсети, стартуя на кждом адресе новую сессию. Сегодня к примеру, на одном сайте, где обычно бывает 200-300 посетителей за день прошелся бот, под видом 400 посетителей. За час. Сессии менялись, IP менялись. И ведь ничего гад не делал - просто шастал...

 

Я давно отказался от блокирование ip адресов. Вреда от этого больше, чем пользы.

Share this post


Link to post
Share on other sites

Я к сожалению криворук, то есть написать ничего на php не в состоянии. И как ведут себя боты, тоже не знаю. Но может эта ловушка не так уж и плоха? Но не для собирания апи-адресов. Может, её можно использовать для перенаправления бота на другой сайт? Возможно ли из ловушки создать страницу для принудительного прощания с ботом?

Share this post


Link to post
Share on other sites

ну ходят они себе и ходят...ну и пускай ходят)))чем они мешают?Что портят на сайте,форуме?

Share this post


Link to post
Share on other sites
ну ходят они себе и ходят...ну и пускай ходят)))чем они мешают?Что портят на сайте,форуме?

Если на форуме в день 10 человек, то в самом деле, пусть хоть боты походят. А если хотя бы 1000 и бывает ситуация, что на форуме 100 человек одновременно, а 50 из них что-то ещё и пишут, то как-то кроме Яндекса и Гугла видеть никого не хочется. Да и то ограниченных Crawl-delay.

Мешают они дополнительной нагрузкой на сервер хостера.

Share this post


Link to post
Share on other sites

Просто все лишнее закройте от индексации, чтобы они в недрах календаря, списка пользователей и т.д. не лазили, нагрузка и уменьшится.

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this  

  • Recently Browsing   0 members

    No registered users viewing this page.

×
×
  • Create New...