HOW-TO: Сканирование документов в PDF и DJVU Сравнение версий

Различия

Здесь показаны различия между двумя версиями данной страницы.

Ссылка на это сравнение

Следующая версия
Предыдущая версия
fullcircle:27:scan_pdf_djvu [2010/05/21 21:40]
создано
fullcircle:27:scan_pdf_djvu [2010/05/29 17:58] (текущий)
Строка 1: Строка 1:
-====== HOW-TO Сканирование документов в PDF и DJVU ======+====== HOW-TOСканирование документов в PDF и DJVU ======
 <style right> <style right>
 //​Автор — Дэз (Dez)// //​Автор — Дэз (Dez)//
 </​style>​ </​style>​
 +
 +Сберегите ваши бумажные журналы и документы,​ пока они не пожелтели,​ не распались на кусочки и не разлетелись по ветру, отсканировав их и сохранив в форматы PDF/DjVu.
 +
 +Просто подключите сканер — и вы готовы к работе. Во-первых,​ установите gscan2pdf. Домашняя страница:​ http://​gscan2pdf.sourceforge.net. Также его можно найти в репозиториях. Для установки через терминал введите:​
 +
 +<​code>​sudo apt-get install gscan2pdf</​code>​
 +
 +Установите также pdftk. Это пакет для резки/​сборки/​калибровки PDF-файлов,​ я использую его для всех своих PDF-проектов.
 +
 +<​code>​sudo apt-get install pdftk</​code>​
 +
 +Кроме того, вам потребуется pdf2djvu, чтобы, имея на руках высококачественные PDF, вы смогли их переконвертировать в формат djvu 400 dpi, сохранив тем самым уйму места без потери качества. Просто введите в терминале:​
 +
 +<​code>​sudo apt-get install pdf2djvu</​code>​
 +
 +Это всё, что вам потребуется. Приступим к сканированию!
 +{{:​fullcircle:​27:​fcm27-scan01.png?​350 }}
 +Запустите gscan2pdf и щёлкните по кнопке сканирования. Если вам повезёт,​ сканер обнаружится автоматически,​ и вы сможете изменить некоторые его настройки. Я использую сканер HP Scan-Jet 6300 с устройством автоподачи на 25 листов. Для тех, кто не знает, что такое устройство автоподачи:​ мой сканер немного напоминает факс. В нём можно выбирать скорость сканирования. Я всегда выбираю самую быструю. Затем нужно выбрать разрешение — я всегда выбираю 300 DPI. Теперь выберите режим сканирования.
 +
 +  - чёрно-белый
 +  - полутона
 +  - оттенки серого
 +  - цветной
 +
 +**Чёрно-белый режим** отлично подходит для сканирования страниц,​ на которых присутствует только чёрный цвет. Не используйте его, если на странице есть фотографии,​ иначе они будут выглядеть ужасно. Отсканированное изображение занимает немного места.
 +
 +В режиме полутонов тёмный исходный документ будет выглядеть довольно блёкло на остканированном изображении. Я никогда не использую этот режим.
 +
 +**Оттенки серого** — используйте этот режим при сканировании чёрно-белых страниц из журналов или газет, на которых есть фотографии. В этом режиме вы получите довольно неплохую ч/б репродукцию. Файлы изображений занимают побольше места, но всё же не так много, как в полноцветном режиме.
 +
 +**Полноцветный режим** — название говорит само за себя.
 +
 +Чтобы получить электронную копию журнала,​ отсканируйте 10-20 страниц и сохраните их в PDF-формате. Можно выбрать различные настройки сохранения отсканированных страниц. Например,​ вы можете сохранить каждую страницу отдельно или все вместе,​ в единый PDF-файл. Кроме того, вы можете выбрать формат jpeg или один из нескольких других форматов.
 +
 +
 +Во время моих экспериментов я научился использовать сжатие jpeg при сохранении PDF. Jpeg — это формат сжатия с потерями,​ поэтому в битве за качество я сохранял проекты с качеством 84%. При выборе качества 85% размер файла сразу возрастал в невероятных пропорциях. Продолжайте процесс сканирования вашей книги, в результате в каталоге сохранения будут появляться файлы с отсканированными страницами,​ примерно вот с такими именами:​
 +
 +<​code>​my.magazine.part1.pdf
 +my.magazine.part2.pdf
 +my.magazine.part3.pdf
 +my.magazine.part4.pdf
 +my.magazine.part5.pdf</​code>​
 +
 +Предположим,​ что каждый файл содержит 20 страниц и имеет размер 20 Мб. Поэтому,​ когда вы соедините их все вместе,​ на выходе получится единый PDF-файл размером 100Мб и с уже пронумероваными страницами.
 +{{ :​fullcircle:​27:​fcm27-scan02.png?​350}}
 +Чтобы добиться такого результата,​ перейдите в командную строку,​ затем в каталог с сохранёнными страницами и запустите pdftk. Это приложение поможет проделать все нужные операции с PDF-файлами. С его помощью мы объединим отсканированные страницы,​ тем самым создав одну большую книгу. Оно с лёгкостью сделает всё, что захотите,​ ведь pdftk имеет множество настроек,​ но о них я не буду рассказывать подробно. Введите в терминале:​
 +
 +<​code>​pdftk my.ma</​code>​
 +
 +Теперь нажмите клавишу Tab, и, как по волшебству,​ перед вами появится:​
 +
 +<​code>​pdftk my.magazine.part</​code>​
 +
 +Как я и говорил,​ командная строка — это очень мощный инструмент. Ваш каталог будет просканирован и часть имени «magazine.part» подставится автоматически. Теперь нажмите 1, чтобы получилось:​
 +
 +<​code>​pdftk my.magazine.part1</​code>​
 +
 +Нажмите Tab ещё раз, и вы получите:​
 +
 +<​code>​pdftk my.magazine.part1.pdf</​code>​
 +
 +Удобно,​ не правда ли? Снова нажмите Tab для остальных номеров 2, 3, 4 и 5, чтобы в итоге получить следующую команду:​
 +
 +<​code>​pdftk my.magazine.part1.pdf
 +my.magazine.part2.pdf
 +my.magazine.part3.pdf
 +my.magazine.part4.pdf
 +my.magazine.part5.pdf</​code>​
 +
 +Затем вам нужно сказать pdftk, что вы собираетесь соединить все эти файлы вместе в один большой файл. Поэтому,​ добавьте следующее:​
 +
 +<​code>​cat output my.magazine.pdf verbose</​code>​
 +
 +Добавьте это в конец предыдущей команды,​ чтобы всё вместе выглядело примерно так:
 +
 +<​code>​pdftk my.magazine.part1.pdf
 +my.magazine.part2.pdf
 +my.magazine.part3.pdf
 +my.magazine.part4.pdf
 +my.magazine.part5.pdf cat
 +output my.magazine.pdf</​code>​
 +
 +С командой verbose в конце вы будете видеть в терминале всё, что выполняет приложение. Это поможет избежать вопросов в дальнейшем. Если же вы не укажете эту команду,​ то не получите никакого отклика от приложения. Теперь нажимайте Enter и следите за ходом выполнения. Через несколько секунд вы снова увидите командную строку с мигающим курсором.
 +
 +
 +Теперь в каталоге вы должны увидеть ваш окончательный документ под названием my.magazine.pdf. Откройте его (с помощью программы для просмотра PDF) и пролистайте,​ чтобы убедиться,​ что в нём действительно 100 страниц. Теперь взгляните на размер файла, он должен быть примерно 110 Мб или, возможно,​ чуть больше.
 +
 +Теперь,​ чтобы переконвертировать его в формат djvu, сохранив при этом высокое качество изображений,​ но уменьшив размер файла, снова откройте командную строку и введите:​
 +
 +<​code>​pdf2djvu -o my.magazine.djvu -d400 -v my.magazine.pdf</​code>​
 +
 +Немного поясню:​ вы только что сказали программе,​ что выходной файл будет называться my.magazine.djvu,​ что вы хотите использовать сжатие 400 DPI (-d400), хотите получать сообщения о том, что делает программа (-v) и что имя исходного файла — my.magazine.pdf. Теперь нажмите Enter. Вы должны увидеть что-то вроде этого:
 +
 +my.magazine.pdf:​
 +  - page #1 -> #1:
 +  - image size: 3199x4332
 +  - 353010 bytes out
 +  - page #2 -> #2:
 +  - image size: 3199x4332
 +(Примечание автора:​ Здесь я пропустил несколько подобных строк)
 +  - 341857 bytes out
 +  - page #76 -> #76:
 +  - image size: 3167x4332
 +  - 450144 bytes out
 +0.210 bits/pixel; 3.858:1, 74.08% saved, 105702515 bytes in, 27394816 bytes out
 +
 +Думаю, вы поняли,​ что к чему.
 +
 +Теперь перейдите в каталог,​ и вы увидите .djvu-файл,​ исходные части PDF и окончательный PDF.
 +
 +Удалите файлы частей .part1.pdf, но оставьте окончательные PDF- и DjVu-файлы. Чтобы удалить файлы, просто перейдите в каталог,​ выделите их и нажмите клавишу delete.
 +
 +Не удаляйте большой PDF-файл. С исходным PDF легче работать,​ чем с DjVu, поэтому в дальнейшем производите любые изменения в PDF-файле,​ а затем перековертируйте его в DjVu.
 +
 +При сканировании страниц убедитесь,​ что настроили яркость и контраст в gscan2pdf. При полноцветном сканировании вам, возможно,​ придётся изменить яркость/​контраст до 30 или 40, чтобы предотвратить просвечивание страниц,​ а также чтобы фон был более чётким. Я выяснил,​ что при сканировании в чёрно-белом режиме это также может быть необходимо. Кроме того, это помогает уменьшить желтизну старых журнальных страниц и сократить размер файла. Попробуйте поэкспериментировать с этими настройками. Уделите этому некоторое время, пока вы, увлёкшись,​ не отсканировали сотню-другую книг.
 +
 +---------------------------------------
 +
 +<style center>
 +//​[[..:​27|К содержанию номера]]//​
 +
 +//​[[:​fullcircle|К архиву журналов]]//​
 +</​style>​
 +
 +{{tag>​howto Full_Circle}}