LEEET.net

НОВОЕ НА САЙТЕ

Обзор устро­йства для чте­ния книг iRiver Story: Белая ладья

Обзор устро­йства для чте­ния книг PocketBook 360°

Обзор устро­йства для чте­ния книг Sony Re­ader PRS-600

Добавлен еще обзор устро­йства для чте­ния книг Amazon Kindle 2

Описание тех­но­ло­гии Bluetooth

История компании Canon

Обзор устро­йства для чте­ния книг Amazon Kindle 2

История компании Ama­zon

ABC Amber LIT – кон­вер­тер файлов LIT фор­мата

ShortBook – про­грам­ма для чте­ния книг iPhone

DjVu Do­cu­ment Exp­ress Edi­tor Pro – про­грам­ма для соз­да­ния и про­смо­тра DjVu-до­ку­мен­тов

Немного инфо­рма­ции о се­нсо­рных экра­нах

Fb2Fix & FF Shell – кор­рек­тор fb2-книг с Либ­русе­ка

Русификация устро­йства для чте­ния книг Sony Re­ader PRS-700

STDU Converter – про­грам­ма для кон­вер­тации файлов в фор­мате DjVu или TIFF в PDF

CHM Decoder – про­грам­ма для кон­вер­тации файлов в фор­мате CHM

Macintosh Book Re­a­der – про­грам­ма для чте­ния книг (Win­dows, Linux, Ma­cin­tosh)

µBook Reader – про­грам­ма для чте­ния книг (Windows)

История корпорации Sony

iPhone TextReader – про­грам­ма для чте­ния книг iPhone

Программа Fiction­Book Editor 2.0 – для созда­ния и редак­тирова­ния Fb2 фай­лов

Обзоры и описание устро­йства для чте­ния книг Sony Reader PRS-700

Обзоры и описание устро­йства для чте­ния книг PocketBook 301

Купить PocketBook 301 Plus

Inscenic Smart DjVu – про­грам­ма для чте­ния файлов DjVu (КПК)

Foxit Reader – про­грам­ма чте­ния файлов PDF (Windows)

Программа Yo – пред­назна­че­на для ёфи­ка­ции рус­ских текст­ов (Win­dows)

Программа для чте­ния книг PocketDjVu (Win­dows Mo­bi­le)

Brava Reader – про­грам­ма для чте­ния файлов PDF (Win­dows)

ведение бухучета Ростов

  Информация / Статьи / Как создать электронную книгу

Как создать электронную книгу


Эта статья даёт краткий обзор методов сканирования книги с использованием трёх различных типов сканеров. Здесь вы найдёте сравнения и комментарии по поводу различных преимуществ и недостатков этих методов.


Применение

  • Электронная библиотека;
  • Цент полиграфических услуг;
  • Книжный (документный) архив.

  • Обсуждаемые методы

  • Планшетный сканер;
  • Планетарный сканер;
  • Сканер на основе цифровых фотокамер.
  • Схема создания электронной книги

    Оцифровку книг условно можно разложить на три основных процесса (рис. 1):

  • Получение образов изображений от используемого сканера;
  • Их пост-обработка с помощью ПО: кадрирование, поворот, изменение размера изображения, изменение его формата, регулировка яркости и контраста, устранение искажений, неровностей и проч.
  • Перевод изображений в редактируемый и доступный для поиска текстовый вид с помощью программных пакетов ОРС (оптического распознавания символов).

  • Сканирование планшетным сканером


    На протяжении 10 последних лет для оцифровки книг и других сшитых документов дома или в офисе используются планшетные сканеры, хотя, будучи предназначенными для расшитых документов, для оцифровки книг оптимальным решением не являются и имеют ряд проблем:


    Во-первых, при попытке сканировать сшитое издания на выходе получаются изображения с искажениями, размытиями и затемнённой областью в районе корешка книги.

    Искажения и другие дефекты изображения в большинстве случаев можно исправить программным путем, однако это отнимает дополнительное время, особенно если требуется выполнять последовательную корректировку каждой страницы. Символы, попавшие в затемнённую область, труднодоступны для прочтения и корректировки.

    Если же расшивка документов не представляет проблемы, то сканирование отдельных страниц книги несложно и занимает мало времени, а полученные изображения получаются естественными и схожими с оригиналом. Однако зачастую приходится иметь дело с ценными, раритетными изданиями, расшивать которые значит нанести книге непоправимый ущерб.


    Второй этап оцифровки электронной книги представляет собой обработку полученных изображений программным способом – кадрирование, корректировка яркости/контраста, поворот изображений и устранение искажений. При высоком уровне искажений требуется ручная корректировка, в других случаях пользователь может обойтись пакетным режимом обработки.

    Новички в области оцифровки книг чаще всего пытаются выполнять корректировку страниц по одной, однако затем отказываются от этого метода как от трудоёмкого и занимающего много времени в пользу пакетного режима – параметры обработки выставляются для одной страницы, а затем применяются ко всем остальным.


    Последняя операция – компоновка изображения в электронную книгу. Самый популярный формат электронной книги - PDF. Для создания изменяемых файлов необходимо приобрести профессиональную версию Adobe Acrobat. Некоторые пользователи также предпочитают конвертировать изображения с помощью программного обеспечения для ОРС (оптического распознавания символов). Для этого полученное изображение должно иметь разрешение не менее 300 dpi.


    Основные проблемы, возникающие при сканировании книг различными типами сканеров:


    Здесь представлены тестовые изображения от трёх типов сканеров, до их последующей обработки программным способом.


    Планшетный сканер
    Планетарный сканер
    Сканер на основе ЦФК

    Рис. 2

    Рис. 3

    Рис. 4

    Рис. 5

    Рис. 6

    Рис. 7

    Рис. 8

    Рис.9

    Планшетный сканер
    Решение:
  • Освещение сканера не достигает затемнённой области у корешка книги, даже если используется редуцирующая линза большой резкости; информация, попавшая в данную область, не восстанавливается с помощью ПО.
  • Необходимо, чтобы сканируемое издание оставалось в одном и том же положении, иначе оператору придется заниматься обрезкой страниц вручную, поскольку настройки пакетного режима не подойдут ко всем страницам, и распознавание текста в дальнейшем будет производиться с потерей качества (см. рис. 8).
  • Тщательно следить за тем, чтобы сканируемое издание находилось параллельно границам сканера;

  • Использовать ПО для устранения искажений.
  • Планетарный сканер Решение:
  • Основной проблемой считается большое количество искажений. Их количество минимизируется, но не устраняется полностью, за счёт прижимного стекла, используемого в некоторых моделях планетарных сканеров.
  • Использовать ПО для устранения искажений. Его неудобство заключается в очень низкой скорости обработки изображений, за счёт чего значительно снижается общая скорость сканирования книг этим типом сканеров.
  • Сканер на основе цифровых фотоаппаратов Решение:
  • Эффект «Margin crawl», обусловленный толщиной бумаги издания, заставляет изображения по мере сканирования немного продвигаться по горизонтали (см. рис. 9).
  • При пост-обработке изображений менять настройки кадрирования каждые 100…200 страниц.

  • Устранение искажений, выравнивание


    Если полученные после сканирования изображения не являются гладкими, или имеют неровные границы, необходимо их выровнять. Если отсканированное изображение имеет случайный наклон (чаще всего – с планшетного сканера), пользователю необходимо выполнить выравнивание постранично или с помощью автоматического выравнивания. Определения угла наклона и выравнивание параллельно границе занимает немного времени, однако увеличивается продолжительность самого процесса и снижается качество изображения. Рекомендуется сканировать изображения параллельно границе перед их обработкой.



    Планшетный
    сканер
    Планетарный
    сканер
    Сканер с V-образной
    колыбелью
    Уровень искажений Умеренный Высокий Низкий
    Уровень тёмных областей
    Высокий
    Низкий
    Низкий
    Время сканирования
    Быстро
    Медленно
    Медленно
    Размер устройства
    Небольшой
    Умеренный
    Большой

    Данная проблема возникает в основном при использовании планшетных сканеров, поскольку книгу выпрямить очень сложно. Если пользователь кадрирует изображения без выравнивания искажений, это приведёт к некорректной обрезке границ и потере качества электронного изображения. Некоторое программное обеспечение по распознаванию текста умеет распознавать наклон текста, но, если Вы хотите получить качественное распознавание, лучше распознавайте качественные изображения


    Операция для предотвращения проблем с выравниванием:

    • Сканирование изображений параллельно границам;
    • Использования программного обеспечения для устранения искажений изображений.

    Размер изображения


    Большинство отсканированных изображений сохраняются в растровом формате (BMP), JPEG (JPG). Растровые изображения содержат в себе много деталей, поэтому файл весит очень много. Изображение в формате JPEG весят меньше, но даже их небольшие файлы все ещё слишком велики для оцифровки книги в целом. Качество изображений книги уменьшается с изменением размера изображения или цветовым режимом.



    JPEG-файл

    Уменьшение размера до 70%

    Уменьшение размера до 50%

    На данном примере Вы видите, как изменение размера изображения влияет на его качество. В этом случае исходный JPEG-файл имеет очень высокое качество. Изменение его размера до 70% снизило качество до среднего. Размер может быть уменьшен еще на 20% от оригинала, но это уменьшит лишь качество, а не размер файла. Пожалуйста, убедитесь, что изображения, размер которых Вы изменяете, подходят для распознавания текста.


    Шумы


    Конвертирование файлов из 24-битного режима в черно-белый создает шумы на изображениях, которые не могут полностью быть удалены. Даже использование лучших, высококачественных сканеров не спасает от появления шумов полностью.

    Шумы могут быть убраны с помощью ПО, обладающего функцией коррекции шумов. Эта функция позволит устранить шумы, содержащиеся в данном изображении без удаления текста или печати.



    Необработанное

    Обработанное

    Функция коррекции шумов позволит получить чистое изображение, содержащее только текст. Это лучшее решение для распознания текста и создания электронного архива книг.<.p>

    Чёрная граница


    Отсканированное изображение будет иметь чёрную границу. Особенно часто это происходит с планшетными сканерами. Она появляется, поскольку страница плохо освещена или не попадает в фокус сканера. Чёрная граница может быть удалена с помощью программного обеспечения, но информация, содержащаяся в затемнённой области, неизвлекаема.


    Разрешение


    Некоторые специалисты по оцифровке книг озадачены датчиками изображений, использованных в цифровых фотокамерах и планшетных сканерах. Оба типа датчиков используют одну и ту же технологию. Разница между ними такова: планшетный сканер использует линейный датчик изображения, а цифровая фотокамера – полноформатный. Линейные датчики имеют маленькие размеры и высокое разрешение. Они двигаются вдоль сканируемого документа – это ограничивает скорость сканирования. Для того, чтобы заставить их передвигаться быстро, разработчикам придётся добавлять механическую часть, сложную и дорогостоящую. Сканер с автоподачей в разы быстрее, чем планшетный, его датчик – экономичное решение.

    С полноформатным датчиком изображение больше по размерам, но имеет низкое разрешение по сравнению с линейным датчиком. Для получения высококачественного изображения также требуется более сложные линзы. Пользователи, предпочитающие изображения высочайшего качества, могут использовать профессиональные цифровые зеркальные фотокамеры.

    Используя полноформатные датчики, Вам придётся столкнуться с необходимостью иметь дополнительное пространство – решения для сканирования на базе цифровых фотоаппаратов требуют большое количество свободного пространства.



    Линейный датчик Полноформатный датчик
    Размер датчика Небольшой Большой
    Требуемое пространство Мало Много
    Время сканирования Долго Быстро
    Стоимость Низкая Высокая
    Разрешение Высокое Низкое

    Тип планшетных сканеров


    Существует два типа книжных сканеров - с редуцирующей линзой и контактным датчиком изображений. Оба типа используют линейные датчики. Это могут быть CCD или CMOS, в зависимости от производителя оборудования. У каждого типа есть свои преимущества и недостатки.

    Тип CIS является более экономичной и небольшой альтернативой, так как линза и зеркала не включены и сборка не требуется.

    Этот тип может быть уменьшен на один дюйм, так как используется оптический разветвлитель 1:1 и предназначен для оцифровки плоской, гладкой бумаги, где глубина резкости не проблема.

    Редуцирующая линза намного дороже, чем CIS. Однако она обеспечивает лучшее разрешение и качество. В этой линзе используется объектив с зеркалом для отражения внутри сканера. Глубина для этого типа больше, чем у CIS, что делает сканер подходящим для объемных (3D) объектов, включая книги. Некоторые производители утверждают, что данный сканер разработан специально для оцифровки книг.


    Утомительная работа оцифровщика


    Представьте, Вы сканируете две книги (примерно 1000 страниц) на планшетном сканере. Вам необходимо место, чтобы сохранять позицию страницы и ждать, пока сканирующий элемент медленно двигается, оцифровывая нужную страницу. Во время сканирования книгу перемещать нельзя. Для ускорения сканирования уменьшить разрешение вы не можете, так как необходимо сканировать в 300 DPI. Вам также нужно перелистать все 1000 страниц одна за другой, предварительно каждый раз переворачивая книгу. Это неудобно и отнимает много времени. Вот почему для оцифровки книг планшетный сканер не подходит.

    Планшетные сканеры обеспечивают сканирование «лицом вниз», что позволяет им мало весить и занимать мало места. Однако, эти преимущества бесполезны для оцифровки книг. Многие «пионеры» оцифровки книг использовали сканирование «лицом вверх», что облегчало работу и пользователи меньше уставали. Им лишь требовалось перевернуть страничку и ждать ее оцифровки.


    Разрешение


    Разрешение изображения означает определённое количество точек на определённую длину. Обычно используется количество точек на дюйм (DPI). Разрешение изображения зависит как от датчика изображения, так и от размера сканируемого объекта. Разрешение на планшетном сканере доходит до 2400 dpi (оптическое разрешение). Такое разрешение предназначено для пленки и маленьких объектов.

    Высокое разрешение влечет за собой больший размер файла, увеличивает время обработки, размеры хранения и т. п. Для планшетного сканера увеличение разрешения приводит к увеличению времени сканирования. Для последующего распознавания нужно лишь 300 dpi, максимум не требуется.

    Для цифровой фотокамеры разрешение обычно измеряется в общем количестве пикселов (мегапикселях). Фотокамеры с большим разрешением получают изображения лучшего качества. Пользователи, работающие с цифровой фотокамерой как с устройством по фиксированию изображений, должны переводить количество пикселов в DPI.


    Пример


    Цифровые зеркальные камеры Canon Rebel XT (EOS 350D)


    Спецификация:

    • 8.2 Мпиксела
    • Используемые пикселы = 3456×2304
    • Пропорции 4:3

    Разрешение:

    • Приблизительно 300 точек на дюйм.

    Сканирование формата A4
    (8,26×11,7 дюйма)

    Это означает, что датчик имеет 3456 используемых пикселей по горизонтали и 2304 используемых пикселей по вертикали. Отношение между горизонталью и вертикалью называется пропорцией. У данной камеры пропорция 3:2. Разрешение в DPI зависит от расстояния между линзой и объектом. Большее расстояние означает большее разрешение.

    В этом примере пропорции книги и камеры не соответствуют друг-другу. У книги формата А4 пропорции меньше, чем у фотокамеры. Изображение книги подходит по вертикали, но не подходит по горизонтали. Пользователю необходимо высчитывать разрешение по вертикали, вместо вычисления обоих размеров.


    Скорость


    Многие пользователи задают вопросы о скорости сканирования, особенно о количестве отсканированных в час страниц. Но есть ещё один важный показатель. Время между страницами (секунда/страница), во время которых пользователю необходимо закрепить свою книгу устойчиво на сканере. Это увеличивает процент ошибок, которые могут возникнуть, если книга случайно смещена во время самого сканирования.



    Планшетный
    сканер
    Сканер на основе
    цифровых фотоаппаратов
    Сканирование/снимок (300 dpi) 6 2
    Перелистывание страниц 2 0,5
    Установка книги 2 0,5
    Общее время 10 3
    Страниц в минуту 360 1200

    Модель Цена Мпикселей A2 A3 A4 B4 B5 Стандарт
    (216*35)
    Письмо 0,5 г/л
    (279*432)
    EOS 350D $440 8M 139 197 279 227 321 250 271 203
    EOS 400D $650 10M 157 222 313 256 362 281 305 229
    EOS 30D $660 8M 141 200 282 230 326 254 275 206
    EOS 5D $860 12.5M 176 249 352 287 406 316 343 257
    EOS 1 DMark II $4250 16.5M 201 285 402 328 464 361 392 294

    Скорость сканирования устройств на основе цифровых фотоаппаратов не зависит от разрешения. Цифровая фотокамера обеспечивает более быструю оцифровку, чем обычный сканер при том же разрешении, но увеличить его не может.


    Оптическое распознавание символов


    Таблица результатов:


    Количество Планшетный
    сканер
    Планетарный
    сканер
    Сканер с V-образной
    колыбелью
    Сомнительные символы 217 186 8
    Всего символов 2267 2214 2355
    Точность 90,42% 91,59% 99,66%


    Скачать руководство по оцифровке книг (PDF)

          © 2008 -2016 LEEET.net