Как оцифровать ваши документы

Как оцифровать ваши документыУ вас начались серьезные проблемы с хранением бумажных документов? Полки ломятся от нелепо раздувшихся папок, и вы по три часа ищите нужную бумажку? Тогда пришло время заняться оцифровкой документов, которая сделает ваш кабинет или квартиру более чистой, а способ поиска более простым и удобным. Создайте собственную электронную библиотеку, редактируйте, копируйте и перемещайте цифровые файлы по своему желанию. Возможность создания цифровых документов – одно из благ цивилизации. Так воспользуйтесь им!

Прежде, чем отважиться на оцифровку своих документов, вам следует знать, что хранить их можно двумя способами – в виде изображений и в виде текстовых файлов. Хранение изображений потребует гораздо больше места на жестком диске, но при этом вы сможете сохранить стиль исходного документа. Преобразование отсканированных изображений в текстовый файл потребует дополнительных затрат времени, так как необходимо осуществить процесс оптического распознавания символов OCR (правда, если быть точным, то это название не совсем верно, так как здесь речь идет о работе с цифровой информацией, однако, как это нередко бывает, термин прижился).

Как же выбрать формат хранения документов? Очень просто: если оригинал документа написан от руки, и вам важно сохранить его «характерность» (письмо от любимого человека) или если документ является, к примеру, произведением искусства, то сохраните его в виде изображения (иногда узнаваемый почерк столь же важен, как и написанные слова). Другой более прозаической причиной для сохранения рукописных документов в виде изображений является отсутствие коммерчески доступного программного решения, пригодного для интерпретации рукописных символов. Пока эта технология застряла в КПК и планшетах, в которых она реализована несколько в ином виде, чем нам требуется. Работая с планшетом, вы пишите символы «от руки», вводя их по порядку, а программа в режиме реального времени преобразует их в печатный текст. Распознавание почерка отдельно взятого человека с отсканированного документа – дело будущего.

Сканеры

Независимо от того, в каком виде выбудете хранить ваши документы – в виде изображений или в виде текстовых файлов, вам понадобится сканер для их оцифровки. Если вы хотите оцифровать сравнительно небольшое количество документов, то многофункционального принтера или планшетного сканера вам будет вполне достаточно. Единственный их недостаток – относительно медленная скорость работы. Имейте в виду, что только более дорогие модели имеют функцию автоматической подачи листов для обработки многостраничных документов.

ScanSnap S1500 от Fujitsu

Среди самых лучших моделей назовем ScanSnap S1500 от Fujitsu и ScanJet Professional 3000 от HP. Скорость сканирования документов этих устройств составляет в среднем 20 страниц в минуту и выше. При этом ScanJet Professional 3000 отличается более надежным механизмом подачи бумаги, в то время как ScanSnap S1500 имеет более совершенное программное обеспечение. Оба сканера находятся примерно в одной ценовой категории, так что выбирать вам.

OCR – софт

Большинство сканеров поставляются с программным обеспечением для осуществления OCR, которое устанавливается на вашем компьютере. Если вы недовольны сопутствующим ПО или его нет, то подобные программы вещь довольно распространенная и их можно приобрести отдельно. Существуют следующие рыночные предложения:

•    FineReader 9 Express от ABBYY, $ 100 за обычную и $ 400 за профессиональную версию программы Pro 10;
•    OmniPage 17 Standard от Nuance, $ 150 за обычную версию программы и $ 500 за профессиональную;
•    Acrobat X Standard от Adobe, $ 299 за обычную версию и $ 449 за профессиональную;
•    PaperPort 12 Standard от Nuance стоит $ 100 за обычную и $ 200 за профессиональную версию ПО, правда здесь нет функции OCR, только вариант управления отсканированными документами.

Разрешение

Для документов, хранящихся в виде изображений, как правило, достаточно выставить разрешение от 150 до 200 точек на дюйм, однако OCR – софт работает гораздо лучше, если изображения сохранены в более высоком разрешении – 300 пикселей на дюйм. Все зависит от того, что вам нужно. Если вы просто хотите сохранить хотя бы минимальную читабельность отсканированного документа, можете снизить требования к разрешению. Если для вас важно высокое качество, то, соответственно, увеличьте его.

OCR в веб

Существует несколько онлайн-сервисов, которые предоставляют услугу распознавания отсканированных документов. Среди наиболее известных назовем бесплатные ресурсы Free OCR, NewOCR и OCR Online. Они прекрасно подходят для небольших проектов, то есть работают только с небольшими по объему документами. Сначала вы должны отсканировать оригинал в память компьютера, а затем загрузить изображение документа на веб-сайт. Естественно, на каждом из ресурсов существуют свои ограничения как по объему, так и по содержанию документа. Так, веб-приложения распознают исключительно текст, без линий или дополнительных символов, которые присутствуют на странице.

Сервис Free OCR является бесплатным, однако размер загружаемого файла не может превышать 2 Мб и не содержать не более чем 5000 пикселей, а это примерно 50 точек на дюйм для документа обычного стандарта. Причем, вы сможете обработать не более 10 подобных документов в час.  Услугами сайта  NewOCR вы также можете воспользоваться бесплатно, но его интерфейс крайне примитивен, зато объем обрабатываемых документов в 2,5 раза больше – до 5 Мб. И, наконец, ресурс OCR Online требует создания бесплатного аккаунта, но позволяет загружать до 15 файлов в час объемом до 4 Мб в разрешении около 200 точек на дюйм на странице. Если вас такие объемы не устраивают, то можно купить платный доступ за $ 3.95 (8 центов за страницу) и получить возможность обработать до 50 документов за раз или заплатить $ 49.95 за обработку до 5000 (1 цент за страницу). Данное веб-приложение работает как с текстом, так и с графическими элементами, однако ему, естественно, далеко до стандартов Acrobat X или FineReader 10.

E-книги

Наверное, вы, как и я, любите запах настоящей книги, любите ощущение плотной бумаги и вид красивой графики. Однако сегодня все больше и больше людей предпочитают иметь дело с электронными книгами, для чтения которых используются так называемые специальные читалки, планшеты, смартфоны, плееры и прочие портативные устройства. Огромное количество интернет-магазинов предлагает просто гигантские объемы контента. Но что, если вы захотите иметь вашу собственную коллекцию е-книг, которые не доступны в цифровом формате?

Чтобы преобразовать ваши любимые «физические» книги в электронные, требуется их сначала отсканировать, а затем перевести в текстовый формат при помощи программы OCR. Это утомительно даже если вы будете использовать очень быстрый FLATBED-сканер. Такие сканеры напоминают «ксероксы», имея прижимную крышку, поэтому они могут сканировать не только отдельные листы, но и книги целиком. Если же вы готовы «распотрошить» любимую книгу, то можете использовать SHEETFED-сканер, которая работает по принципу факса, то есть с отдельными страницами (как ScanSnap S1500 от Fujitsu и ScanJet Professional 3000 от HP).

После того, как вы переведете свои документы, учебники или книги в форматы PDF, Word или fb2, вы можете воспользоваться специальными программами для организации, редактирования или чтения электронных документов. Например, Calibre или Stanza. Calibre – бесплатный органайзер и редактор для вашей коллекции электронных книг. Программа помогает работать с каталогом – организовывать, классифицировать, комментировать, искать, сохранять новые и старые книги на жестком диске вашего компьютера или в памяти е-ридера.

Окно программы Calibre

Программа Stanza предназначена для ля загрузки и чтения электронных книг на любое устройство – будь то компьютер, iPhone, iPod или Kindle. Приложение дает возможность удобно организовать свою электронную библиотеку, создать свои собственные литературные списки предпочтений, узнать о книге, прежде чем вы загрузите ее из магазина, найти другую обложку для книги и многое другое.

Скачать ABBYY FineReader Professional 10

Скачать Stanza 1.0.0

Скачать Calibre 0.7.53

Обсуждение
rachehan36 написал(а):
Господа. Что в этой статье, что на странице проги скриншоты Calibre для Линукса. А хотелось бы хоть одним глазком глянуть, как выглядит версия для "форточек".