Потрошим DVD: Субтитры

Любой владелец DVD с удовольствием расскажет, какой же это неудобный формат. Такое впечатление, что разработчики формата DVD главной целью ставили перекрыть потенциальным пользователям весь потенциально возможный кислород. «Смотреть — смотри, а руками не трогай!», примерно такой девиз можно будет начертать на надгробной плите изобретателя. Есть ли в тотальном закрывании всего и вся хоть какой-то смысл, кроме чистой, как слеза комсомолки, параноидальной шизофрении? С этим пускай разбираются психиатры. Ну а мы подойдем к делу прагматически.

Ясно даже и ежу, что данные, извлекаемые из «хитро» упакованного (горячий привет упаковщикам) DVD-фильма, подразделяются на три вида: видео, аудио и текст. О том, как выпотрошить DVD на предмет видеоряда и аудиопотока, мы, конечно, поговорим, но не сегодня. Сегодня нас интересуют субтитры. Казалось бы, чего проще — положить субтитры на диск прямо в текстовом формате. Но товарищи медиа-магнаты не ищут легких путей, так что субтитры конвертируются в графику и засовываются в ту же самую емкость, что и все остальное. Добропорядочного пользователя такая ситуация никак не устраивает: субтитры иногда хочется читать отдельно. Особенно, когда мы имеем дело с некачественным переводом. Разбирать английскую речь на слух может далеко не каждый, бегло читать с экрана прямо в процессе просмотра — тоже. Ну а натравить подстрочный словарь на статичный текст умеет даже обезьяна, не говоря уже о пользователе персонального компьютера.

Следствие из теоремы ровно такое же, как и всегда — нужна специально обученная программа, которая сделает все за нас (вариант «поставить на паузу, переписать фразу с экрана в блокнот, снять с паузы до следующего кадра» способен разве что вогнать в тяжелую депрессию, но никак не помочь в обретении искомого текста). Программ-грабберов для DVD-субтитров существует не одна и не две, но я после энного количества проб остановился вот на этой:SubRip.

В статике это не выглядит. Другое дело - в динамике. Буквой, как видим, может оказаться что угодно, хоть "wwy", хоть "rty".. Но их таких немного.

SubRip, как и любой пакет, перетирающий графику в ASCII, имеет внутри себя OCR-модуль. Сделано не в Швеции, но таки с умом: программа начинает парсить субтитры, и, дойдя до непонятного образа, просто-напросто спрашивает у пользователя. OCR немножко настраивается, но и при дефолтных установках справляется неплохо. В идеале пытливому юзеру придется ввести по два раза каждую букву (регистры еще никто не отменял), и по разу каждую цифру и каждый знак препинания. Но то в идеале, а на самом деле в процессе распознавания обязательно попадутся «слитные» буквосочетания, все зависит от используемого в субтитрах фонта. Накопленную «таблицу символов» желательно не выбрасывать, а заботливо сохранить в файл — и подключить при обработке следующего диска (может не прокатить с дисками от разных производителей).

Процесс протекает очень весело: ты сидишь и тупо пялишься в экран, по которому сами собой ползут слова. Сверху родные, а снизу распознанные. Процессор нагружается изрядно (а вы попробуйте перемолотить четыре гигабайта, и не вспотеть), но программа работает вполне стабильно, так что можно параллельно заниматься другими делами. И вот здесь авторы SubRip недодумали — если окно программы неактивно, а она как раз дошла до незнакомой буквы, то никакого сигнала не будет. Сами догадайтесь переключиться, телепатически.

Производительность.. Черт его знает, какая у SubRip производительность. Смотря с чем сравнивать. Например, со свежекупленным "South Park the Movie" риппер расправился минут за двадцать (3.7 Gb данных на входе, 140 kb текста на выходе). Если учесть, что говорят в фильме не переставая — очень даже неплохая производительность. Выпотрошенные субтитры можно сохранить в любом из двух десятков форматов, на выбор (такое впечатление, что форматы субтитров придумывают все, кому только не лень, анархия фантастическая). А вот конвертора в человеческий вид (WinWord, к примеру) в пакете не обнаружилось, увы. Придется искать где-то в другом месте.

В качестве финального аккорда планировалась цитата из тех самых 140 kb. Но лучше я это цитировать не буду. Поскольку не расшифровка мультфильма, а просто-таки наглядное пособие по современному американскому мату. А нас, возможно, и дети читают..

1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Пока оценок нет)
Загрузка...

Дата публикации:
Автор публикации: