 |
ITrader
Современная, простая программа с неограниченными возможностями преобразования
времени, знаний и опыта в деньги! Бесплатный доступ ко всем финансовым рынкам,
к мировым торгам и профессиональному росту. Скачай и открой бесплатный Демо-счет!
Дистанционное обучение. Депозит от 1000 рублей. ФГ Калита-Финанс.
Подробнее... |
Интернет
Дата публикации: 31 Марта 2004
Автор: Краснов Игорь
Каждый поисковик использует веб-пауков
для индексирования сайтов. Казалось бы, от них не скрыться никому. Однако, используя
всего несколько команд, вы способны превратить их в послушных, почти домашних существ.
Что произойдет, если подсунуть роботу
поисковой системы незащищенный сайт? Правильно, он сделает свое черное дело :)
У вас есть шанс увернуться от него,
избежать его путешествий! Но если у вас нет маленького текстового файлика в корневом
каталоге сервера, ваш сайт может стать таким же доступным, как Клаудиа Шиффер в
прозрачном полиэтиленовом бикини.
Поисковые системы типа Excite или Altavista
используют веб-пауки, также известных как роботы, для того, что бы создавать индексы
в их базах данных. Эти роботы прочесывают каталоги HTML файлов, загружая страницы
одну за другой по обычным ссылкам на них, и обновляя базу, в зависимости от того
какую текстовую или meta-информацию они нашли.
Далее — для таких же как я противников
того, что какое-то там виртуальное насекомое будет неконтролируемо лазить по вашим
файлам. Это чуток смахивает на муравьёв под брюками — незабываемые ощущения, но
все-таки хочется как-то контролировать ситуацию. Это можно делать с помощью специального
файла.
К файлу robots.txt обращается каждый
уважающий себя паук перед тем как отправиться в путешествие; в нем указано, как
именно следует каталогизировать ваш сайт. Это должен быть текстовый файл ASCII,
лежащий в корневой директории сервера. Обычно это директория, где расположена «домашняя»
страничка. Файл определяет, какие директории и файлы пауку индексировать нельзя.
Протокол ограничения действий робота
был представлен Мартином Костером в 1994 году для решения проблемы веб-пауков при
том, что их популярность тогда резко возрастала. Страшна, прежде всего, ресурсная
проблема — поскольку роботы слабо контролируемы, они стреляли запросами как из пулемета.
Естественно, сервера пытались с такой же скоростью «отдавать» файлы.
Другая проблема — в том, что роботы
при индексировании информации глубоко зарывались в дерево каталогов, доставая даже
до cgi-скриптов. Протокол этот быстро нашел поддержку среди веб-разработчиков как
метод организации процесса индексирования.
С тех пор размеры интернета поразительно
увеличились, теперь его используют миллионы людей. А веб-пауков только прибавилось.
И сейчас, как никогда, всем веб-разработчикам необходимо иметь правильно написанный
файл robots.txt .
В синтаксисе этого файла есть свои ньюансы.
Если все должно работать безотказно и не позволять роботам смотреть на «служебные»
страницы, вам следует быть предельно внимательными, что б не допустить *ни одной*
ошибки или опечатки. В завершенном robots.txt фактически не на что смотреть, но
если у вас сложный сайт можете пойти по легкому пути и принять первоклассную помощь,
которую вам предлагает RoboGen на
http://www.rietta.com/robogen/ . Он хорош для Windows9x, но, на момент написания
статьи, под WindowsNT он не запускался.
RoboGen распространяется в двух версиях:
полная и ограниченная. Ограниченная (Limited) — это голый скелет: она просто создает
файлы исключения (robots.txt). В ней недостает возможности открытия существующих
файлов и авто-заливки их прямо на FTP сервер. Полная (Standart) версия более функциональна.
Она делает все то же, что и ограниченная, плюс то, чего она не делает. Это открытие
существующих файлов и заливка файлов на FTP сервер. Бесплатная ознакомительная версия
полной программы доступна для загрузки, а стоимость программы составляет всего $12.95.
Довольно дешево для такого инструмента!
Если вы предпочитаете держать деньги
в кармане, тогда можете разогревать пальцы — сейчас будем стучать по клавиатуре,
осваивая азы кодирования — а почему бы и нет? Это не сложно - просто кропотливо.
Скорость набора тут, пожалуй, важнее, чем познания в компьютерах.
Каждая секция включает в себя имя пользовательской
программы (робота) и пути, которые он не должен видеть. Вы не знали, что у поисковых
пауков есть имена? Да — Сеть очень дружественное место и многое называется не своими
первичными именами :)
У основных поисковых систем имена такие:
ALTA VISTA - Scooter, VScooter, Mercator
EXCITE - Architext
HOTBOT/AOL - Inktomi's Slurp
INFOSEEK - Sidewinder, Mozilla
LYCOS - T-Rex, Mozilla
INKTOMI - Slurp
GOOGLE - Backrub, Googlebot
N. LIGHT - Gulliver
WEBCRAWLER - Excites Architext
Вскоре вы сможете отметить, какой из
этих ребят с чувством юмора, а какой ведет скучный образ жизни. Мне симпатичен Inktomi
:) Думаю, я смог бы иметь дело с этими ребятами.
Нужно помнить, что роботы могут получить
*все* доступные файлы, если они явно не запрещены в вашем robots.txt . Разрешено
все, что не запрещено. Обычно, вы можете прочесть этот файл просто сделав запрос
из броузера, например: www.mydomain.com/robots.txt . Вы увидите кодированый текстовый
файл, но очень пригодный для чтения.
Всё это документировано Стандартом Исключения Страниц Роботами, и все роботы должны
понимать и уважать правила в файле robots.txt .
Примеры:
User-agent: *
Disallow:
Пояснение:
Звездочка (*) в поле User-agent это
сокращения для "всем роботам". Потому что разрешено все, что не запрещено.
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Пояснение:
В примере, все роботы могут видеть все
директории за исключением трех упомянутых.
User-agent: BadBot
Disallow: /
User-agent: *
Disallow: /private/
Тут: Роботу
с именем BadBot запрещено все.
Пустая строка означает новую «запись» - команда для нового робота. Все остальные
роботы могут видеть все, за исключением папки private .
User-agent: WeirdBot
Disallow: /tmp/
Disallow: /private/
Disallow: /links/listing.html
User-agent: *
Disallow: /tmp/
Disallow: /private/
Этот код предотвращает просмотр страницы
листинга, временной папки и папки private роботом WeirdBot. Все остальные роботы
видят все, кроме временной папки и private . Если думаете, что этот код неэффективен
-- вы правы :)
Ок — это довольно полный обзор концепции
robots.txt . Но перед тем как вы сорветесь с места в поисках старого верного текстового
редактора и напишете свой супер модный контроллер роботов третьего тысячелетия,
есть одна очень, очень важная вещь касаемо файлов robots.txt , особенно для тех,
у кого коммерческие веб-сайты или другая совершенно секретная информация.
Как обычный коммерческий сайт вы можете
предлагать загрузить покупку со страницы после ее оплаты. Понятно, что вы не хотите,
что б пауки лазили по таким страницам — если вы, конечно, не хотите, что бы можно
было бесплатно скачать вашу продукцию с поисковой машины. Это нехорошо для бизнеса
— для счетчика смачиваний хорошо, а для бизнеса — нехорошо. :) И вы честно пропишите
все эти адреса в robots.txt что бы избежать проблем, но...
Большое количество людей уже знают об
этом robots.txt файле... Некоторые не-очень-хорошие-гады подумают: «Зачем платить?
Я ж могу просто набрать в броузере: http://www.yoursite.com/robots.txt »
Оййй! Очень чувствительный пункт из
robots.txt теперь открыт глазам всех. Любой может просто перенаправить броузер в
указанную директорию и, зачастую, скачать программу бесплатно. Опять — нехорошо
для бизнеса, мои друзья!
Вот оно, решение.
Перестаньте беспокоиться о robots.txt
. Наоборот, перечислите все секретные папки, которые там и должны быть — это для
защиты от их индексирования поисковыми движками. Но убедитесь, что все файлы находятся
в нессылаемых неизвестных поддиректориях или, еще надежнее, защищены CGI скриптом.
Если вы используете менее безопасный
вариант с неупомянутыми подпапками, не забудьте вставить в коренную (ту, которую
вы прописали в robots.txt, страничку index.html. Иначе сервер (с настройками по
умолчанию) покажет полный листинг файлов и директорий. В самом index.html можно
написать все, что угодно.
Это может быть простенький html файл,
который сообщает посетителям, что им не разрешено смотреть в эту подпапку, или можно
сделать html файл с перенаправлением на другую страницу. Но запомните, никогда не
давайте людям листинг чего-либо в директории, не разместив index.html в какой бы
это ни было директории — это очень плохая привычка. Пожалуйста, не делайте так *нигде*.
Рано или поздно это приведет к неприятностям.
Если сайт не коммерческий, все что оказывается
в robots.txt — только для косметических поправок или в целях приватности. Понятно,
это важные вещи, но на коммерческом сайте мы говорим о потере денег — куда более
серьезно!
Если вы все это еще не воплотили в жизнь,
тогда маленький, старый и седой robots.txt должен получить долю и вашего внимания
в не очень отдаленном будущем. Вы не пожалеете о проведенном времени.
Это я вам обещаю :)
***
Смотрите также:
Тактика раскрутки сайта
Сайт, гарантирующий рост Вашего бизнеса!
NetPromoter: новые возможности профессиональной интернет-статистики
Новейшая обсервация счетчиков: счетчики Украины
Podcasting – что это такое и с чем его едят?
Все статьи рубрики
Интернет
|