desti 10 10/08/2008 07:35 PM Сейчас, похоже, только ленивый не пишет поисковики. И вот шарятся эти PupkinBot-ы по форумам, мешают нормально работать.Файл robots.txt они не читают принципиально. Этот скриптик был написан именно для таких самородков. Шаг 1. На главной странице добавляем такую ссылку:<a href='http://www.yourdomain.ru/catch_bots/index.php'><img src="http://www.yourdomain.ru/images/link.gif" border="0" alt="" width="1" height="1"></a> link.gif - файл размером 1х1, прозрачный. Директорию catch_bots можно назвать как угодно. Главное, чтобы она была и в ней лежал такой файлик с именем index.php <?php extract($_SERVER); echo "<html><head><title>Попался!</title></head><body><p>Здравствуй, тупой робот!</p></body></html>"; $found = 0; $filename = "./botlist.txt"; $fp = fopen($filename, "r") or die ("Error opening log file"); while ($line = fgets($fp,255)) { $str = explode(" ",$line); $ip = $str[0]; if (preg_match("/$ip/",$REMOTE_ADDR)) {$found++;} } fclose($fp); if ($found == 0) { $fp = fopen($filename,'a+'); fwrite($fp,"$REMOTE_ADDR $HTTP_USER_AGENT\n"); fclose($fp); } ?> Пустой файл botlist.txt нужно создать руками в директории-ловушке.Последнее действие - добавить в robots.txt строки (или только строку disallow, если User-agent уже есть) User-agent: * Disallow: /catch_bots/ Глупый робот, просматривая главную страничку, натыкается на невидимую ссылку и попадает в ловушку. Дальше вы можете внести его IP в htaccess и забыть про дурачка. Вот кусочек моего лога за последний месяц. Эти твари даже в user-agent не пишут, кто они.. А один отличился, добавив туда строку "User-agent" :D 62.163.14.9 Java/1.6.0_0481.88.208.187 HTMLParser/1.6212.57.108.57 (compatible; MSIE 5.0; Windows NT)67.159.44.112 (compatible; MSIE 6.0; Windows NT 5.1; SV1)78.129.196.177 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)67.228.201.58 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)65.198.140.246 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)78.129.202.17 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)208.101.45.18 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)205.234.132.47 User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1) 216.255.187.154 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)91.144.174.47 Mozilla/4.0 (compatible; MSIE 5.0; Windows 98)217.118.92.43 Mozilla/3.0 (compatible)195.34.197.185 Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 5.0 (build 02072) 1 Share this post Link to post
OnArs 0 12/10/2008 01:30 PM Классная штука! Проблема ведь действительно существует!А вообще Я так думаю скрипт и идею можно заюзать не только на движке IPB :) Share this post Link to post
Ph-A 395 12/10/2008 02:14 PM А вообще Я так думаю скрипт и идею можно заюзать не только на движке IPB :)Смысл? Процитирую высказывание с одного форума, посвященной одной CMS А как вы видите решение с помощью сессий? Многие боты пингуют с нескольких IP одной подсети, стартуя на кждом адресе новую сессию. Сегодня к примеру, на одном сайте, где обычно бывает 200-300 посетителей за день прошелся бот, под видом 400 посетителей. За час. Сессии менялись, IP менялись. И ведь ничего гад не делал - просто шастал... Я давно отказался от блокирование ip адресов. Вреда от этого больше, чем пользы. Share this post Link to post
dalmatin 0 04/04/2009 01:52 PM Я к сожалению криворук, то есть написать ничего на php не в состоянии. И как ведут себя боты, тоже не знаю. Но может эта ловушка не так уж и плоха? Но не для собирания апи-адресов. Может, её можно использовать для перенаправления бота на другой сайт? Возможно ли из ловушки создать страницу для принудительного прощания с ботом? Share this post Link to post
Grandsire 0 04/04/2009 08:30 PM ну ходят они себе и ходят...ну и пускай ходят)))чем они мешают?Что портят на сайте,форуме? Share this post Link to post
dalmatin 0 04/05/2009 01:56 PM ну ходят они себе и ходят...ну и пускай ходят)))чем они мешают?Что портят на сайте,форуме?Если на форуме в день 10 человек, то в самом деле, пусть хоть боты походят. А если хотя бы 1000 и бывает ситуация, что на форуме 100 человек одновременно, а 50 из них что-то ещё и пишут, то как-то кроме Яндекса и Гугла видеть никого не хочется. Да и то ограниченных Crawl-delay. Мешают они дополнительной нагрузкой на сервер хостера. Share this post Link to post
Fisana 700 04/05/2009 02:04 PM Просто все лишнее закройте от индексации, чтобы они в недрах календаря, списка пользователей и т.д. не лазили, нагрузка и уменьшится. Share this post Link to post