Поисковик – орудие хакера

Не для кого не секрет, что сегодня в Интернете можно найти практически любую информацию. Главное, это правильно сформулировать запрос к поисковой машине. Наряду с добропорядочными пользователями (вроде нас с вами ;) этим незатейливым методом пользуются злоумышленники, для поиска паролей, номеров кредитных карт, конфиденциальных данных и, наконец, уязвимых сценариев. Стоит также отметить, что в последнее время эту же технологию начали активно использовать вирусы (вспомним недавнюю эпидемию червя, выискивающего и заражающего форумы на популярном движке phpBB). Что придаёт ещё большую актуальность проблеме.

С целью как-то повлиять на сложившуюся ситуацию, разработчиками поисковых систем предпринимаются попытки заблокировать некоторые из наиболее часто используемых злоумышленниками (вирусами) запросов. Однако, по понятным причинам (всё заблокировать невозможно), в чёрные списки (временно либо навсегда) попадает лишь их незначительная часть. А остальные запросы продолжают использоваться для совершения противоправных действий.

Учитывая всё вышесказанное, складывается ситуация, когда спасение утопающих становится делом рук самих утопающих. Только в данном случае в роли утопающих будут выступать веб-мастера хранящие на своих сайтах конфиденциальную информацию и не желающие, чтобы она была найдена посторонними. С целью помочь последним тьфу, т.е. предпоследним =) и была написана данная статья, пускай она послужит, своего рода, спасательным кругом для них.

Итак, прежде чем приступить к решению нашей основной задачи, давайте разберёмся, каким образом поисковыми системами осуществляется сбор информации о ресурсах в сети.

Сбор информации поисковыми системами

Любая поисковая система представляет из себя огромное хранилище информации, собираемой специальными роботами - так называемыми пауками-ползунами (Spiders). Говоря голосом ведущего передачи "В мире животных" =) - эти забавные зверюшки переходят с одного узла всемирной паутины на другой (для перехода используются адреса найденные на странице и в частности гиперссылки), собирая данные о каждом из них. Затем возвращаются на свой сервер и передают ему эту информацию. Там данные приводятся в надлежащий вид и заносятся в базу данных, после чего информация может быть найдена с помощью поисковой системы.

Разумеется, алгоритм индексации (т.е. занесения в БД) каждой отдельно взятой поисковой машины несколько отличается от остальных . Но данный принцип остаётся неизменным для всех.

Защита информации от индексации поисковиками

Теперь, когда мы знаем, как ведёт себя поисковик при индексации нашего сайта давайте вернёмся к основному вопросу этой статьи - как же всё-таки обезопасить конфиденциальные данные на своём веб-сайте от индексации поисковыми системами? Ниже я приведу некоторые из известных мне методов.

Метод "номер раз" – скрываем URL

Для того, чтобы находящийся на вашем сайте ресурс (файл либо каталог) не был проиндексирован поисковиками, его адрес (url) не должен значиться ни в одном доступном поисковым машинам документе, он также не должен быть начальной страницей сайта и нежелательно, чтобы он являлся "индексным" (выдаваемом по умолчанию) в каком-либо каталоге. Этих условий в принципе достаточно. Однако, при определённом стечении обстоятельств с первым условием могут возникнуть "накладки". Так как во время работы с конфиденциальным ресурсом его адрес, каким-то образом может случайно "засветиться" на странице доступной поисковику. Например, если этот визит зафиксирует система статистики... Поэтому я рекомендую ознакомитьсясо следующим , более надёжным способом.

Метод два - Meta тэги и файл robots.txt

Специально для управления поведением пауков на вашем сайте в HTML'е предусмотрен параметр Meta тэга - ROBOTS. Который может принимать значения:
index/noindex - индексировать, не индексировать соответственно;
follow/nofollow - следовать, не следовать.
Например так:

...
<HEAD>
...
<META NAME="ROBOTS" CONTENT="index,nofollow" >
...
</HEAD>
...

В данном случае паук проиндексирует страницу, но дальше по ссылкам не пойдёт.

Для тех же целей, служит файл robots.txt, располагающийся в корне веб-сайта. Обычно он используется для указания членистоногим, куда соваться не следует. Например, чтобы не один паук не залезал в каталоги "cgi-bin" и "admin" нам следует заполнить файл robots.txt так:

User-Agent: *
Disallow: /cgi-bin/
Disallow: /admin/

!!! Будьте крайне осторожны и внимательны, заполняя файл "robots.txt"! Указывая адреса ресурсов, убедитесь, что права доступа к ним установлены надлежащим образом (см. ниже)!!!
Дело в том, что данный файл на самом деле является «палкой о двух концах». С одной стороны в нём вы указываете поисковикам, куда лезть не следует, а с другой, сообщайте злоумышленникам, куда бы залезть не помешало ;)

Метод 3 - Права доступа

К сожалению, не все поисковые системы смотрят на описанные в пунке 2 механизмы (основные смотрят, но всё же ...). Поэтому самым надёжным способом для укрытия конфиденциальных данных от поисковых машин (кстати говоря и не только от них :) является ограничение доступа к таким данным неавторизированным пользователям, т.е. пользователям, которые не ввели "логин" и пароль соответствующим образом. В самом распространённом на сегодняшний день веб-сервере - Apache для этих целей служит файл .htaccess . Например, чтобы ограничить доступ таким пользователям к содержимому каталога "/admin/", в этом каталоге необходимо разместить следующий файл ".htaccess":

AuthUserFile полный_путь_к_каталогу/admin/.htpasswd
AuthType Basic
AuthName "Название закрываемого ресурса"
require valid-user

Обратите внимание: полный_путь_к_каталогу это не универсальный локатор ресурсов (URL), а путь к директории на сервере.

.htpasswd - файл содержащий список имён пользователей в системе (login'ы) и соответствующие MD5-хэши паролей.

Содержимое ".htpasswd" выглядит примерно так:

pupkin:MgFw1vnaW/tJk
abc-it:mWaquosh.OY3w
john:EMt8amknyuYD2

Для создания и заполнения файлов ".htpasswd" вы можете использовать одну из многочисленных бесплатно распространяемых специализированных программ (можно найти версии как для Unix, так и для Windows, используя всё те же поисковые системы ;).

Заключение

Как вы видите, методов защиты конфиденциальной информации от индексации в поисковых системах довольно много. В этой статье я перечислил лишь некоторые известные мне варианты. Если вы можете предложить какие-либо ещё, не стесняйтесь, напишите мне об этом. В любом случае буду рад увидеть ваши отзывы (даже если они не будут положительными) На этом разрешите откланяться!

(Пока оценок нет)

Загрузка...