Экстренное восстановление данных с помощью поисковика

Вы не так давно открыли свой сайт во всемирной сети, уже успели разместить на нём немало интересных материалов. Но по собственной лени, либо надеясь на "опытного" хостера, "превосходное" оборудование или "умное" программное обеспечение не удосужились вовремя сделать его резервную копию. А тут, как всегда некстати, с вашим сайтом что-то случается.

Ясное дело, что попавший в подобную ситуацию вебмастер сразу же попытается связаться с хостером (либо с администратором сервера) и выяснить, что же всё-таки произошло, утеряна ли информация и если это так, возможно ли её восстановить. Если на сервере регулярно производился backup и у вебмастера хорошие/легальные отношения с хостером, то первому волноваться не стоит – всё будет восстановлено. В противном случае, когда поставленный вопрос остаётся без ответа, либо на него даётся отрицательный ответ, либо «да», но частично (к примеру, имеется «не самая свежая» резервная копия), то возможно вам поможет описанный в этой статье приём.

Такая ситуация, когда-то имела место быть и с сайтом автора. Когда в то время я хотел зайти на сайт и вместо ожидаемого «контента» увидил сообщение, что ресурс заблокирован, моя учётная запись на сервере тоже была заблокирована, так что пришлось заходить под чужой : )) (шутка).  Звоню хостеру - вначале он сказал, что обязательно посмотрит в чём дело, но позже. «Позже» (прошло 3 дня!!!) он наконец сказал, что  в тот злосчастный день админ запустил сценарий, который удаляет все данные пользователей, незарегистрированных у них в регистре клиентов (в числе которых оказался я), но он может «поднять» резервную копию, правда,  сначала надо будет составить и подписать новый договор (с условием хостинг за счёт денег и рекламных баннеров). Далее мы договорились, что сделаем это в ближайшие дни. Но не через день, не через два, ни даже через неделю хостер договор подписывать не хотел, а просто тянул время (зачем-то). С его стороны было много отговорок, но особенно мне запомнилась та, когда я в очередной раз звонил в офис (звонил раз в 2, 3 дня – чтобы особо не надоедать), который, кстати, находится в Риге, менеджер ответственный за договора на хостинг говорит мне, «Я сейчас не могу ничем помочь, т.к. нахожусь далеко от Риги. ...», хотя конечно, может быть у них там телефон на переадресации (в чём я очень сомневаюсь)... В общем закончилась эта история сменой хостинга. Я всё-таки нашёл backup БД месячной давности, а все новые материалы решил возобновить посредством поисковых машин. Как вы наверное догадались, далее речь пойдёт именно об этом методе.

Всё дело в том, что некоторые из поисковых систем  сохраняют у себя полную копию найденных HTML страниц.  На случай, если пользователь решит ознакомиться с содержимым найденной страницы, а её оригинал по каким-то причинам окажется недоступным. Этим обстоятельством я и воспользовался. Всё что мне оставалось сделать - зайти на какой-нибудь поисковик, осуществляющий вышеназванную операцию и на котором хорошо индексировался бы мой сайт (например Google), воспользоваться расширенным поиском, указав в качестве параметра адрес недостающей в backup’е страницы (например www.abc-it.lv/index.php/id/1322), начать поиск,  и сохранить найденную копию страницы на жёсткий диск. Повторить эти действия для всех недостающих страниц.

К счастью на тот момент у меня было (а точнее не было), всего лишь, чуть менее 20 таких страниц. И всю операцию восстановления я проделывал вручную (имеется в виду – не используя ничего кроме browser’а) потеряв около 10 минут времени. Естественно небезуспешно, иначе, данная статья не была бы написана.

А что делать если утерянных страниц гораздо больше? Именно для таких случаев командой ABC Information Technologies был написан небольшой сценарий на Perl.

О сценарии g_cachesaver.pl v. 0.2 (beta)

Данный сценарий предназначен для загрузки («скачивания») всех доступных закэшированных в поисковой системе Google страниц указанного в качестве параметра сайта. Найденные страницы сохраняются в отдельные HTML файлы, которые затем могут быть, соответствующим образом обработаны и снова помещены на сайт.

Как вы наверное заметили, в данной статье описывается бэта версия сценария. Она была проверена на кэшах нескольких десятков сайтов (было сохранено, в общей сложности  около 2000 HTML страниц). В процессе тестирования было выявлено, что проблемы с сохранением кэшей могут возникнуть, если скрипт запустить во время так называемого Google дэнса (пляски в стиле робот =). Ну а также работоспособность сценария в очень большой степени  зависит от  качества вашего интернет подключения. Так что  если Google в данный момент не танцует и сетка работает как надо, можете смело использовать g_cachesaver.

Скажу вам по секрету, что в будущих версиях данного ПО будет предусмотрено значительно большее количество полезных функций. Таких, например, как: работа через прокси, возможность возобновлять сохранение с той страницы на которой процесс был прерван...  Ну а также в наших планах значится разработка аналогичных сценариев для работы с другими поисковыми системами.

Самую свежую версию данного сценария, а также другого программного обеспечения и материалов, написанных нами, вы можете найти на сайтеwww.abc-it.lv.

Ну и в заключении привожу исходные коды сценария. Те, кого «детали» не интересуют, могут скачать готовый продуктотсюда и пропустить следующую часть статьи, всем остальным читать обязательно! ;)

P.S.: Так как сценарий написан на Perl. Чтобы его запустить вам потребуется установить на компьютер интерпретатор Perl. Для Windows советую скачать и установитьActiveState Perl.

Собственно сценарий (исходники)

 

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Пока оценок нет)
Загрузка...

Дата публикации:
Автор публикации: