|
||||||||||
|
||||||||||
Автор: WildHare http://softsearch.ru/
На свете существует великое множество форматов — текстовых, графических, бинарных, медийных и прочих. Как следствие, сплошь и рядом возникают ситуации, когда мы получаем информацию в одном формате, а хранить (обрабатывать, передавать дальше) хотим в другом. Вот, к примеру, едва ли не самый банальный случай: мы собираем в Сети какую-то информацию, которую затем компилируем в некий отчет (исследование, доклад, реферат, etc.) — в исходном виде информация представляет собою набор разноформатных HTML-страниц, надерганных с разных сайтов, а финальный документ мы верстаем, понятное дело, в MS Word (ну или в Adobe Page Maker, или кто где привык). Сколько лишней работы мы при этом делаем? В каждом HTML-файле нужно отыскать требуемые фрагменты, очистить их от лишних (с нашей точки зрения) дизайнерских изысков и перенести в нашу рабочую среду. Что делает Word при вставке текста из буфера? Правильно, он вместе с текстом тащит еще и стиль. А нам оно надо? Нет, нам оно не надо — у наc в документе собственный стиль, и приходится постоянно отвлекаться на выравнивание — гарнитуры, кегля и цвета фонтов, центрирования абзацев, прибивания лишних деталей и прочего в том же духе. HTML ведь не предназначен для обработки, это формат для чтения глазами. Поэтому задачу удобнее решать в два приема: вначале превратить собранные HTML-страницы в нечто, более удобное, а уже потом заняться собственно обработкой. Конечно, можно открыть каждую страницу в том же MS Word, выбросить весь лишний дизайн, сохранить в виде DOC-файла, и иметь дело уже с ним. Но, опять же, зачем тратить лишнее время, если можно взять в руки правильный конвертор, который все сделает сам? Правильный конвертор так и зовут — HTMLtoRTF Converter (найти на SoftSearch, скачать у автора). Он умеет делать только одну вещь: превращать HTML-разметку в документы формата RTF и TXT, но эту единственную вещь он умеет делать хорошо. С текстовым форматом все просто и понятно: выбросить форматирующие тэги, и сохранить то, что останется (если, конечно, что-то останется). При желании можно задать принудительный перевод строки через каждые N символов, для пущей удобочитаемости. Но это самый простой случай.
Интерфейс конвертора прост и ясен, как и полагается сервисным утилитам. Откуда, куда, как именно - и поехали. Причём быстро поехали. С форматом RTF дело обстоит интереснее: поддерживается несколько режимов конвертирования. Полный (максимальное сходство финального документа с исходным), стандартный (выбрасывается все лишнее и остается только текст) и выборочный (конвертировать ли таблицы, сохранять ли картинки, цвет и стиль текста, etc.) — помимо этого можно принудительно задавать кодировку, гарнитуру и кегль шрифта для финального документа. Небольшие манипуляции с настройками позволят причесать стадо разноцветных и разноформатных страниц под одну гребенку, ну а дальнейшая судьба сконвертированной информации — личное дело пользователя, конвертору она безразлична. Но конвертор не был бы полноценным, если бы не поддерживал пакетную обработку — конвертацию сразу пачки HTML в пачку же RTF. Отдельно нужно отметить, что работает HTMLtoRTF не только качественно, но еще и быстро: тестовый набор из 289 файлов (правда, небольших, но где вы видели мегабайтные HTML-страницы?) он перелопатил за 15 секунд. В качестве недостатка стоит упомянуть такую вещь: в отличие от многих своих собратьев, HTMLtoRTF не встраивается в контекстное меню Проводника, что не есть гуд, хотя и мелочь. А вот для любителей автоматизировать свою деятельность есть два бонуса: во-первых, полноценная работа из командной строки, и во-вторых специальная поставка HTMLtoRTF в виде DLL-библиотеки (но это уже для программистов). Резюме: пользователям, по жизни имеющим дело с превращением форматов, стоит подумать о расширении набора своих дежурных конверторов. ;-)
*** Смотрите также:Все статьи рубрики Software |
|
|||||||||||||