Наши проекты: Скачать программы Экспорт новостей (RSS)
Главная | Domino | Статьи | Computer FAQ | Download | T0P-100 Software | Форум
Internet Zone - компьютерный электронный журнал         Подписка на рассылку
Реклама у нас, Контакты

 Статьи/обзоры   Новые обзоры | Software | Hardware | Система | Безопасность | Интернет | Бизнес и Заработок | Игры | Фото | Mobile | Разное | Пресс-релизы компаний | Авторам статей

Старые рубрики этого раздела - FAQ Windows 9x/Me | FAQ Windows NT/2K | FAQ Windows XP FAQ | Software FAQ | Hardware FAQ | Linux FAQ | Скачай сейчас | Веб-навигатор

ITrader – преобразуй время в деньги!
Программа, дающая доступ к торговле на всех мировых финансовых рынках для возможности заработка с помощью следующих инструментов: валюты, акции, индексы, нефть, драгоценные металлы. Скачай и открой бесплатный Демо-счет! Обучение. Депозит от 1000 рублей.
Подробнее...

Software


HTML-to-RTF: коловращение форматов

Дата публикации: 21 Октября 2004
Автор: WildHare
http://softsearch.ru/

На свете существует великое множество форматов — текстовых, графических, бинарных, медийных и прочих. Как следствие, сплошь и рядом возникают ситуации, когда мы получаем информацию в одном формате, а хранить (обрабатывать, передавать дальше) хотим в другом. Вот, к примеру, едва ли не самый банальный случай: мы собираем в Сети какую-то информацию, которую затем компилируем в некий отчет (исследование, доклад, реферат, etc.) — в исходном виде информация представляет собою набор разноформатных HTML-страниц, надерганных с разных сайтов, а финальный документ мы верстаем, понятное дело, в MS Word (ну или в Adobe Page Maker, или кто где привык).

Сколько лишней работы мы при этом делаем? В каждом HTML-файле нужно отыскать требуемые фрагменты, очистить их от лишних (с нашей точки зрения) дизайнерских изысков и перенести в нашу рабочую среду. Что делает Word при вставке текста из буфера? Правильно, он вместе с текстом тащит еще и стиль. А нам оно надо? Нет, нам оно не надо — у наc в документе собственный стиль, и приходится постоянно отвлекаться на выравнивание — гарнитуры, кегля и цвета фонтов, центрирования абзацев, прибивания лишних деталей и прочего в том же духе. HTML ведь не предназначен для обработки, это формат для чтения глазами.

Поэтому задачу удобнее решать в два приема: вначале превратить собранные HTML-страницы в нечто, более удобное, а уже потом заняться собственно обработкой. Конечно, можно открыть каждую страницу в том же MS Word, выбросить весь лишний дизайн, сохранить в виде DOC-файла, и иметь дело уже с ним. Но, опять же, зачем тратить лишнее время, если можно взять в руки правильный конвертор, который все сделает сам?

Правильный конвертор так и зовут — HTMLtoRTF Converter (найти на SoftSearch, скачать у автора). Он умеет делать только одну вещь: превращать HTML-разметку в документы формата RTF и TXT, но эту единственную вещь он умеет делать хорошо. С текстовым форматом все просто и понятно: выбросить форматирующие тэги, и сохранить то, что останется (если, конечно, что-то останется). При желании можно задать принудительный перевод строки через каждые N символов, для пущей удобочитаемости. Но это самый простой случай.

Интерфейс конвертора прост и ясен, как и полагается сервисным утилитам. Откуда, куда, как именно - и поехали. Причём быстро поехали.

С форматом RTF дело обстоит интереснее: поддерживается несколько режимов конвертирования. Полный (максимальное сходство финального документа с исходным), стандартный (выбрасывается все лишнее и остается только текст) и выборочный (конвертировать ли таблицы, сохранять ли картинки, цвет и стиль текста, etc.) — помимо этого можно принудительно задавать кодировку, гарнитуру и кегль шрифта для финального документа. Небольшие манипуляции с настройками позволят причесать стадо разноцветных и разноформатных страниц под одну гребенку, ну а дальнейшая судьба сконвертированной информации — личное дело пользователя, конвертору она безразлична.

Но конвертор не был бы полноценным, если бы не поддерживал пакетную обработку — конвертацию сразу пачки HTML в пачку же RTF. Отдельно нужно отметить, что работает HTMLtoRTF не только качественно, но еще и быстро: тестовый набор из 289 файлов (правда, небольших, но где вы видели мегабайтные HTML-страницы?) он перелопатил за 15 секунд. В качестве недостатка стоит упомянуть такую вещь: в отличие от многих своих собратьев, HTMLtoRTF не встраивается в контекстное меню Проводника, что не есть гуд, хотя и мелочь. А вот для любителей автоматизировать свою деятельность есть два бонуса: во-первых, полноценная работа из командной строки, и во-вторых специальная поставка HTMLtoRTF в виде DLL-библиотеки (но это уже для программистов).

Резюме: пользователям, по жизни имеющим дело с превращением форматов, стоит подумать о расширении набора своих дежурных конверторов. ;-)

***

Смотрите также:
  • HDD Regenerator
  • Конструируем тесты
  • Админ спит - служба идёт
  • Разрушитель и Созидатель
  • Браузер для блоггера
  • Все статьи рубрики Software


    Главная | Domino | Статьи | Computer FAQ | Download | T0P-100 Software | Форум
    Рассылка - Реклама у нас - Экспорт новостей (RSS) - Карта сайта  | Наши проекты: Скачать программы
    Copyright © Internet Zone. Информация об использовании материалов сайта, Контакты
    Rambler's Top100