Формат DjVu

Представление об Интернете как о всемирном хранилище данных несколько преувеличено. Огромное количество информации, накопленное в виде бумажных носителей, до сих пор недоступно подавляющему числу потенциальных потребителей. Причин этому много. Одна из них заключается в том, что перевод информации с бумажных носителей в электронный вид представляет собой определенные трудности технического характера. Прежде всего это расхождение возможностей пропускного канала линий связи и размеров отсканированных файлов. Решить эту вилку может формат DjVu, созданный компанией AT&T Labs.

Проблема перевода текста с бумажного носителя в электронный вид решается путем обычного сканирования с последующим распознаванием текста и сохранением его в текстовых форматах, которые великолепно поддаются сжатию. Однако это далеко не всегда решает проблемы перевода информации в электронный вид.

Таким образом не решаются (или решаются неудовлетворительно) проблемы текстов с таблицами, формулами, графиками, рисунками, что характерно для технической литературы. Этим способом совершенно невозможно оцифровать рукописи, исторические тексты. Кроме того, для исторических и рукописных материалов довольно часто важен не только сам текст, но и его оформление и внешний вид. Кроме того, для некоторых редких или мертвых языков нет распознавалок отсканированных изображений.

Эти и другие проблемы решаются, как правило, с помощью графических форматов TIFF, JPEG, GIF, PNG. Но из этих форматов только TIFF может без искажений сохранять изображение. За это он платит огромным размером файла (порядка 25 Мб на страницу формата А4). Все остальные форматы достаточно хорошо ужимают графику, но, увы, с существенными, в некоторых случаях просто неприемлемыми искажениями.

DjVu

Выход найден в расслоении отсканированного изображения и обработке этих слоев разными методами, что дает существенные возможности для уменьшения размера файла. Изображение делится на Background (фон), Mask (монохромную маску) и Foreground (цвета маски). Каждый из слоев обрабатывается и сжимается своим, оптимальным для него алгоритмом. При этом, конечно же, происходят потери в данных, тем не менее изображение выглядит очень реалистично, глаз заметит потери, только если имеет возможность сравнивать изображение на экране монитора с реальной бумажной страницей.

Монохромная маска - это выделенная часть изображения с резкими, контрастными границами. Как правило - это текст и линейные объекты (графики, схемы и так далее), но в этот слой могут попасть и элементы графики с резкими границами и цветом, совпавшим с цветом текста. Эта часть страницы сохраняется с максимальным разрешением, но в цветности всего в 1 бит. Маска сжимается методом JB2 (аналогичным факсовому методу оптимизации).

Результат слияния слоя маски и слоя Foreground

Foreground - цвет текста сохраняется с нормальной (24) битностью, но с существенно меньшим разрешением, всего 25 dpi. Само по себе уменьшение разрешения - это уже существенный фактор экономии объема файла. Сжимается этот слой с помощью вейвлет-алгоритма IW44 (4х4 wavelets), который очень близок к новому формату JPEG2000.

Фоновый слой

Background - фоновый слой. Здесь располагаются картинки и отображается текстура бумаги. Этот слой сохраняется в полноцветном режиме, но с пониженным до 100 dpi разрешением. Сжимается слой так же, как и Foreground-алгоритмом IW44.

Результат слияния всех слоев

Достоинства формата

Первым и неоспоримым достоинством будет существенно меньший размер файла при зрительном сохранении всех особенностей страницы. В качестве примера рассмотрим страницу "Энциклопедии Британника" (маленький скриншот которой представлен в начале статьи). Картинка этой страницы в формате JPG (без сжатия), сделанная со страницы в формате DjVu, потянет на 1677 Кб (с 75%-ным сжатием - на 446 Кб), в формате BMP - на 22 239 Кб. Оригинальная страница в формате DjVu имеет вес чуть больше 25 Кб.

В качестве другого примера приведем файлспецификации формата DjVu, который (правда, в однослойном - Bitinal - режиме) занимает всего 235 Кб на 39 страницах, то есть по 6 с небольшим килобайт на страницу. (Распознанная и переведенная в формат DOC первая страница этой спецификации занимает 24 Кб.)

Изображение не разъезжается независимо от увеличения

Вторым достоинством формата необходимо назвать практически факсимильное качество передачи изображения, не страдающее от изменения масштаба просмотра. Судите сами, на иллюстрации три надписи, снятые с картинки DjVu в разных масштабах: 300, 200 и 100 процентов. Еще одна особенность: скролинг страниц происходит без характерного подергивания текста даже на LCD-мониторах.

Формат DjVu реализован таким образом, что просматривать его можно на самых слабых компьютерах. Здесь сказывается такая особенность формата, как обработка данных на лету, что резко снижает потребности программ-вьюверов в оперативной памяти.

В последних версиях формата стало доступным возможность ввода в файл текста, полученного в результате распознавания (OCR). Это большой шаг в плане увеличения возможностей формата. Раньше получение текста с изображения в формате DjVu требовало либо перевода изображения в BMP, TIFF с последующим распознаванием, либо использования программ распознавания с экрана монитора типа ABBYY Screenshot Reader.

Краткая история формата

В 1996 году компания AT&T Labs-Research начала работу над созданием стандарта DjVu. В 1998 году вышел релиз плагина для браузеров для Windows и Linux. 1999-й - год выхода второй версии формата, которая позволяла объединять несколько изображений в один файл с возможностью перелистывания страниц, а также наносить на изображение так называемые "горячие точки" - участки изображения, служащие гиперссылками. В 2000 году появился DjVu третьей версии. В этом же году к продвижению формата подключилась компания LizardTech. В ноябре 2000 года DjVu стал распространяться на условиях GNU General Public Licence (свободно распространяемый программный продукт). В январе 2001 года вышла самая известная версия (3.1) программы для создания DjVu-документов - DjVu Solo. Более чем через год (в марте 2002-го) появилась коммерческая DjVu Enterprise 3.5, а еще через год, в марте 2003-го, - довольно дорогая версия самой совершенной программы для создания DjVu-книг - Document Express.

DjVu и Интернет

Современные браузеры не могут пока понимать формат DjVu в виде картинок, включенных в код страницы. Поэтому, в частности, иллюстрации к этой статье идут в формате JPG или GIF. Но это не значит, что использование этого формата в Сети невозможно. Если использовать DjVu-картинку в тегах <a href="имя_файла.djvu">, то файл будет открываться, если в браузере установленплагин от компании LizardTech. Впрочем, файлы можно просто загрузить на компьютер каким-нибудь менеджером загрузки и просмотреть потом любой программой для просмотра файлов DjVu.

Файлы формата DjVu достаточно распространены во Всемирной сети. Прежде всего это технические и научные библиотеки. Именно их специфические проблемы представления информации (с формулами, схемами, диаграммами и графиками) этот формат решает успешнее всего. Далее следует историческая литература, для которой важно передать дыхание времени, выражающееся в самом внешнем виде документа. Но и современной литературы в этом формате довольно много и появляется все больше.

Ссылки по теме

  • Спецификация формата DjVu
  • Плагин для MSIE для просмотра файлов в формате DjVu
1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Пока оценок нет)
Загрузка...

Дата публикации:
Автор публикации: