Защита текстового контента в Интернете

Проблемы и решения

Соблюдение авторского права, защита интеллектуальной собственности, технология защиты изображений водяными знаками, защита информации в Интернет - эти словосочетания все чаще можно увидеть и услышать в российском Интернете. Это и не удивительно, ведь Интернет весьма привлекательная среда, как для любительского самиздата, так и для профи - писателей и публицистов, издателей и библиотек, научных коллективов, институтов дистанционного обучения и для многих других.

Очевидно, что привлекательность среды Web обусловлена, прежде всего, доступностью и простотой размещения документов и материалов. Но имеется и обратная сторона медали, негативная. Негатив связан с нарушением авторского права и интеллектуальной собственности, несанкционированным копированием и незаконным коммерческим тиражированием, присвоением материалов. Простота доступа к среде Web оборачивается большими проблемами в защите интеллектуальной собственности и в защите прав владельцев. К наиболее сложным задачам относится задача защиты или, по крайней мере, ограничения незаконного копирования текстовой информации. Из анализа публикаций на эту тему можно сделать вывод, что в настоящее время еще нет даже четкой формулировки пути к решению этой проблемы. Вместе с тем, можно привести несколько интересных технологий, ограничивающих несанкционированное присвоение текстовой информации.

Международной организацией Digital Object Identifier (DOI) разработана система идентификации интеллектуальной собственности, которая получила название - цифрового идентификатора объекта (DOI). Основу этой международной организации составляют фирмы издательской индустрии и, в частности, Ассоциация Американских Издателей (http://www.publishers.org). Предназначение DOI состоит в том, чтобы связывать клиентов с издателями, облегчать электронную торговлю, и осуществлять автоматизированное управление авторским правом. На сайте http://www.doi.org была представлена демонстрационная версия системы DOI, Демоверсия, на этом сайте, используется в качестве навигатора. Подчеркнутый текст ссылок содержит цифровой идентификатор DOI вложенный в URL, которому "разрешено" проникать через proxy сервер. В реальной же ситуации клиентам должна предоставляться услуга внедрения в HTML страницы метаданных цифрового идентификатора. Затем системой DOI осуществляется регистрация HTML страниц и накопление метаданных в банках данных DOI.

В аналогичном ключе в рамках стратегии компании Дукс по правовой защите, в сети Интернет была анонсирована услуга, представляющая собой "Web-депозитарий", который будет предназначен для защиты содержания публикаций в Интернет. Защита авторских и смежных прав будет достигаться на основе безусловной регистрации и помещения страниц и сайтов клиентов в специальный депозитарий. Последнее обстоятельство, по мнению авторов, расширит возможности по доказательству приоритета в спорных ситуациях.

Совсем иное направление для решения поставленной выше задачи было предложено Web Professionals, Inc. (http://www.indus.net/). Здесь предполагается, что доступ к большинству информационных ресурсов разрешен всем. К отдельным же материалам, частного характера, доступ ограничен с помощью кодирования этих документов. Задача кодирования и задача декодирования решается с помощью программного обеспечения на Java, выполняющего эти процедуры по так называемой технологии "на лету". Одна программа-приложение осуществляет кодирование информации в среде сервера. При этом закодированный текст заносится в HTML страницу в виде "специального комментария". Вторая программа-апплет выполняет декодирование в среде браузера. Апплет ищет специальный комментарий, и когда находит, то декодирует данные и ждет ввода ключа-пароля для открытия этих данных.

Общим недостатком, приведенных выше подходов, является наличие, в той или иной степени, ограничений для доступа к текстовым ресурсам. При разработке же системы DOI и апробации новых технологий по защите интеллектуальной собственности, Ассоциация Американских Издателей предполагала, что главное достоинство, которым должна обладать такая технология состоит в соблюдении баланса между открытостью и защищенностью (http://www.scripting.com/seybold/stories/960702.html). Попытка реализации подобной концепции (технология GraphicText) как раз и представлена в настоящей публикации.

Технология GraphicText

Как уже отмечалось у многих авторов, издательств, фирм возникает проблема, как защитить свои публикации и документы, хранящиеся в виде файлов от пользователей, пытающихся скопировать или изменить содержимое с целью последующего коммерческого тиражирования. При этом перед авторами и фирмами встает дилемма, как с одной стороны не допустить несанкционированное копирование содержимого файла, а с другой стороны - обеспечить свободный доступ к материалам всех клиентов и потенциальных покупателей. Здесь напрашивается сравнение с обычной библиотекой. Доступ к книгам и журналам является свободным, имеется даже возможность ксерокопирования или фотографирования (за отдельную плату), однако доступ к печатному набору отсутствует!

Как достигнуть подобного эффекта в сети Интернет или в случае записи файлов на CD? По-видимому, можно назвать три основных подхода - представление файлов в некотором "своем" формате, шифрование материалов, представление на экране монитора текстовой информации в графическом режиме. В этой статье, конечно, невозможно более или менее подробно рассмотреть все pro и contra данных подходов. Примерами "своего" формата могут служить такие известные форматы как DjVu и PDF. Однако, файлы текста в DjVu или в PDF форматах могут быть легко сохранены на диск пользователя. Относительно систем кодирования текстовой информации можно констатировать, что шифросистемы уже давно используется для противодействия несанкционированному доступу к текстовым данным в Интернете. Преобразование текста в один из графических форматов, чаще всего применяется к большим объемам текста (техническим описаниям, книгам, журналам), и является мало привлекательным для пиратского копирования. Разумеется, что текст представленный в графическом режиме может и должен быть дополнительно защищен графическими водяными знаками. Отображенный в графическом режиме текст нельзя непосредственно скопировать в файл. Для этого необходимо сначала запомнить "экран" в буфере обмена Windows, затем раскрыть содержимое буфера обмена в окне какого-нибудь графического пакета (например, Adob PhotoShop), и только затем скопировать в файл.

Именно такое решение, связанное с предварительным шифрованием и размещением закодированного текстового материала на сервере (базе данных), и последующем декодированием и отображением в графическом режиме в среде браузера, мы и предлагаем. При этом вопрос степени защищенности сводится к вопросу целесообразности восстановления текста из защищенного цифрового изображения. Целесообразность же состоит в том, что затраты на восстановление текста из изображения должны превышать затраты, связанные со сканированием бумажного оригинала. А дело именно так и обстоит, так как кроме процедуры захвата изображения требуется процедура удаления водяных знаков с помощью графического пакета и процедура распознавания графического текста с помощью программных пакетов типа FineReader. Если размер текстовых страниц по высоте выбрать немного больше, чем вертикальный размер экрана, то изображение текста придется захватывать дважды. При этом добавиться процедура редактирования для объединения двух частей страницы в одну. Если же к рассмотренной технологии добавить этап регистрации как текстовых материалов, так и пользователей, то можно гарантировать доказуемость авторского права или права владельца информации.

Программное обеспечение

Для технической реализации рассмотренного подхода требуется программное обеспечение для кодирования и для декодирования текстовых файлов. Программа для подготовки кодированных текстов может располагаться на любом компьютере и работать в среде Windows. Полученные после кодирования файлы переносятся на сервер (в базу данных) в формате TXT. На сервере размещается также и программа для декодирования и одновременного отображения текста в графическом режиме в окне браузера. Такой программой может быть Java-апплет, работающий в среде браузера. При запросе пользовательским браузером некоторого сетевого ресурса (предварительно закодированного), в браузер считывается HTML страница, содержащая теги апплета. Апплет запрашивает с сервера требуемый ресурс, декодирует текст, и затем "на лету" отображает на экране монитора в графическом режиме. Графический текст одновременно замешивается с видимыми водяными знаками или цветным фоновым изображением. Для кодирования и декодирования файлов используются кодовые ключи, которые могут быть различными для различных сетевых ресурсов (текстовых файлов). Ключи, в свою очередь, также кодируется и размещается в тегах апплета. Таким образом, единовременный взлом (если такое случиться) апплета не позволит декодировать файлы, которые открываются другими ключевыми словами. Несомненно, что защищенность апплета от взлома может усиливаться.

Демонстрационная версия GraphicText

Работа сдемоверсией начинается с идентификации пользователя - предлагается ввести пароль. Если пользователь предварительно не зарегистрировался, то доступ к ресурсу будет невозможен. В демонстрационной версии этап регистрации не задействован. Так что можно смело набрать код: 54321.

После этого будет запрошен соответствующий ресурс, и декодированный текст с помощью апплета отобразиться в окне браузера. Прозрачным (видимым) водяным знаком служит изображение символа "copyright", растянутого на весь текст. В качестве водяного знака также может использоваться название фирмы, аббревиатура логотипа, торговая марка и т.п. или прозрачный цветной фон.

Кардинальным решением, обеспечивающим лучшую защиту, может быть замешивание текста с цветным фоновым изображением, например текстурным. При этом сам текст также будет выводиться на экран в цвете с плавно изменяющейся палитрой. Закон изменения цветовой палитры текста выбирается таким образом, чтобы гистограмма текста пересекалась бы с гистограммой фонового изображения. В этом случае, для восстановления текста из текстурного рисунка потребуется последовательная обработка отдельных участков "смеси" текста и текстурного фона. И наконец, в текстурный фон можно встроитьскрытый водяной знак, несущий информацию, например, о владельце ресурса. При этом, сам факт наличия подобной информации будет скрыт.

Заключение

Представленная технология не рассчитана на стопроцентную защищенность от фанатичных пиратов и взломщиков, для которых экономические затраты ничего не значат. Вместе с тем, для подавляющей части пользователей сети Интернет, технология GraphicText будет являть собой вполне ощутимый как физический, так и правовой барьер. Как нам кажется, рассмотренная технология защиты интеллектуальной собственности будет способствовать правовому регулированию взаимоотношений, формированию правовой среды в среде Web.

(Пока оценок нет)

Загрузка...