КулЛиб - Классная библиотека! Скачать книги бесплатно
Всего книг - 712063 томов
Объем библиотеки - 1398 Гб.
Всего авторов - 274349
Пользователей - 125027

Новое на форуме

Новое в блогах

Впечатления

pva2408 про Зайцев: Стратегия одиночки. Книга шестая (Героическое фэнтези)

Добавлены две новые главы

Рейтинг: +2 ( 2 за, 0 против).
medicus про Русич: Стервятники пустоты (Боевая фантастика)

Открываю книгу.

cit: "Мягкие шелковистые волосы щекочут лицо. Сквозь вязкую дрему пробивается ласковый голос:
— Сыночек пора вставать!"

На втором же предложении автор, наверное, решил, что запятую можно спиздить и продать.

Рейтинг: +2 ( 2 за, 0 против).
vovih1 про Багдерина: "Фантастика 2024-76". Компиляция. Книги 1-26 (Боевая фантастика)

Спасибо автору по приведению в читабельный вид авторских текстов

Рейтинг: +3 ( 3 за, 0 против).
medicus про Маш: Охота на Князя Тьмы (Детективная фантастика)

cit anno: "студентка факультета судебной экспертизы"


Хорошая аннотация, экономит время. С четырёх слов понятно, что автор не знает, о чём пишет, примерно нихрена.

Рейтинг: +2 ( 2 за, 0 против).
serge111 про Лагик: Раз сыграл, навсегда попал (Боевая фантастика)

маловразумительная ерунда, да ещё и с беспричинным матом с первой же страницы. Как будто какой-то гопник писал... бее

Рейтинг: +2 ( 2 за, 0 против).

Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро [TWDragon] (fb2) читать постранично


 [Настройки текста]  [Cбросить фильтры]

TWDragon, 4u4undr Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро

От TWDragon

Предисловие автора

Итак: перед вами взятая у приятеля, из библиотеки, или просто хорошая, интересная книга, которую хотелось бы иметь на компьютере. И не просто иметь, а иметь в таком виде, который позволил бы выполнять поиск по тексту, удобно читать книгу на экране монитора или на устройствах еВоок, а если это не научно-техническая или справочная литература — еще и читать на любимом сотовом телефоне, iPhon'e или PDA. В этом пошаговом руководстве, основанном на собственном опыте, я постараюсь рассказать о том, как «выжать» максимум результатов из проделанной простой, но иногда весьма утомительной работы по сканированию книги.

Пусть вас не испугает длина этого руководства и кажущаяся сложность сканирования и обработки книги. Процесс действительно довольно сложен и многоступенчат, но поверьте мне, описать все эти операции было гораздо труднее, чем выполнить их шаг за шагом.

Итак, ПОЕХАЛИ!

Шаг 1. Сканирование

1.1 Подготовка к процессу

Сканирование, с которого начинается, зачастую, долгий путь «в Сеть» любой изданной когда-либо книги (рынок легальных электронных книг, размещаемых издателями непосредственно после электронной верстки, у нас совершенно неразвит) — это самая монотонная часть всей предстоящей работы, поэтому к ней стоит тщательно подготовиться заранее — протереть стекло сканера, проверить наличие свободного места на диске — несжатый скан одной средней по размеру книги может занимать до 1 Гбайт. Потом начинается собственно сканирование.

Я намеренно не привожу здесь сравнительных характеристик разных моделей сканеров, поскольку каждый из нас в подавляющем большинстве случаев располагает только одним сканером, характеристики которого более или менее хорошо известны.


Phistek OpticBook: преимущества и недостатки

Из всех сканеров, имеющихся на рынке, для сканирования книг в больших количествах нет ничего лучше серии Plustek OpticBook. Эти планшетные сканеры отличаются высоким корпусом и прозрачным основанием, выполненным «в край» — так, чтобы на него можно было уложить книгу, не ломая и не деформируя корешок. Такой сканер — идеален для перевода в электронный вид десятков томов, например из библиотеки университетской кафедры. Однако, для домашнего повседневного применения он практически непригоден. Причина этого — в сугубой спецbализированности устройства под книгосканирование и OCR. В конструкции PlusTek OpticBook в жертву быстродействию и разрешению принесено все, что только можно, включая четкость, избирательность и цветопередачу.


Сканирование всех своих книг я проводил и провожу на достаточно старом (2003 года выпуска) полупрофессиональном планшетном сканере для документсистем Hewlett-Packard ScanJet 6390с. Эта машина отличается высоким быстродействием (15–25 сек на страницу формата А4 в режиме градаций серого). Кроме того, в ее комплект поставки входит удобное программное обеспечение HP Precision Scan Pro. Именно на этой программе сделаны все скрины с примерами сканирования.

1.2 Сканирование

Заранее хочу предостеречь от использования в качестве основного инструмента сканирования программы FineReader. Оставим эту программу до стадии OCR. Пока она может лишь максимально усложнить нам задачу пакетной обработки, применив (причем, без нашего ведома) — свои не слишком хорошие алгоритмы чистки и сжатия сканов. А главное — она практически лишит нас шансов применить важнейший прием — оверсемплинг до разрешения 600 dpi.

Собственно сканирование состоит из трех этапов: сканирования обложки, основной части книги, цветных вклеек и иллюстрации. Последовательно описывать эти этапы нет смысла — они переплетаются друг с другом в зависимости от верстки книги. Стоит привести лишь параметры сканирования, оптимальные для разных типов книжных страниц.

Здесь приведу еще одно важнейшее предупреждение(!):

На некоторых очень старых моделях сканеров есть возможность вручную включать внутренний оверсемплинг, тo есть фактически сканировать с меньшим разрешением, чем имеет выходной файл. Обозначается такая установка разрешения обычно словом Software или Resampled. Эту установку использовать нельзя! Ее включение приведет в полную негодность полученные файлы, и их дальнейшая обработка окончательно потеряет смысл. Также нельзя использовать установку сканирования в режиме Linearеt или Black amp;White (одноцветный)


Общие рекомендации такие: для текстовых страниц используйте:

• Режим Grayscale (оттенки серого), для цветных иллюстраций и обложек — True Color (полноцветный).

• Разрешение сканирования — 300 dpi (только оптическое, повторимся еще