Различия
Здесь показаны различия между двумя версиями данной страницы.
Следующая версия | Предыдущая версия | ||
fullcircle:27:scan_pdf_djvu [2010/05/21 21:40] создано |
fullcircle:27:scan_pdf_djvu [2010/05/29 17:58] (текущий) |
||
---|---|---|---|
Строка 1: | Строка 1: | ||
- | ====== HOW-TO Сканирование документов в PDF и DJVU ====== | + | ====== HOW-TO: Сканирование документов в PDF и DJVU ====== |
<style right> | <style right> | ||
//Автор — Дэз (Dez)// | //Автор — Дэз (Dez)// | ||
</style> | </style> | ||
+ | |||
+ | Сберегите ваши бумажные журналы и документы, пока они не пожелтели, не распались на кусочки и не разлетелись по ветру, отсканировав их и сохранив в форматы PDF/DjVu. | ||
+ | |||
+ | Просто подключите сканер — и вы готовы к работе. Во-первых, установите gscan2pdf. Домашняя страница: http://gscan2pdf.sourceforge.net. Также его можно найти в репозиториях. Для установки через терминал введите: | ||
+ | |||
+ | <code>sudo apt-get install gscan2pdf</code> | ||
+ | |||
+ | Установите также pdftk. Это пакет для резки/сборки/калибровки PDF-файлов, я использую его для всех своих PDF-проектов. | ||
+ | |||
+ | <code>sudo apt-get install pdftk</code> | ||
+ | |||
+ | Кроме того, вам потребуется pdf2djvu, чтобы, имея на руках высококачественные PDF, вы смогли их переконвертировать в формат djvu 400 dpi, сохранив тем самым уйму места без потери качества. Просто введите в терминале: | ||
+ | |||
+ | <code>sudo apt-get install pdf2djvu</code> | ||
+ | |||
+ | Это всё, что вам потребуется. Приступим к сканированию! | ||
+ | {{:fullcircle:27:fcm27-scan01.png?350 }} | ||
+ | Запустите gscan2pdf и щёлкните по кнопке сканирования. Если вам повезёт, сканер обнаружится автоматически, и вы сможете изменить некоторые его настройки. Я использую сканер HP Scan-Jet 6300 с устройством автоподачи на 25 листов. Для тех, кто не знает, что такое устройство автоподачи: мой сканер немного напоминает факс. В нём можно выбирать скорость сканирования. Я всегда выбираю самую быструю. Затем нужно выбрать разрешение — я всегда выбираю 300 DPI. Теперь выберите режим сканирования. | ||
+ | |||
+ | - чёрно-белый | ||
+ | - полутона | ||
+ | - оттенки серого | ||
+ | - цветной | ||
+ | |||
+ | **Чёрно-белый режим** отлично подходит для сканирования страниц, на которых присутствует только чёрный цвет. Не используйте его, если на странице есть фотографии, иначе они будут выглядеть ужасно. Отсканированное изображение занимает немного места. | ||
+ | |||
+ | В режиме полутонов тёмный исходный документ будет выглядеть довольно блёкло на остканированном изображении. Я никогда не использую этот режим. | ||
+ | |||
+ | **Оттенки серого** — используйте этот режим при сканировании чёрно-белых страниц из журналов или газет, на которых есть фотографии. В этом режиме вы получите довольно неплохую ч/б репродукцию. Файлы изображений занимают побольше места, но всё же не так много, как в полноцветном режиме. | ||
+ | |||
+ | **Полноцветный режим** — название говорит само за себя. | ||
+ | |||
+ | Чтобы получить электронную копию журнала, отсканируйте 10-20 страниц и сохраните их в PDF-формате. Можно выбрать различные настройки сохранения отсканированных страниц. Например, вы можете сохранить каждую страницу отдельно или все вместе, в единый PDF-файл. Кроме того, вы можете выбрать формат jpeg или один из нескольких других форматов. | ||
+ | |||
+ | |||
+ | Во время моих экспериментов я научился использовать сжатие jpeg при сохранении PDF. Jpeg — это формат сжатия с потерями, поэтому в битве за качество я сохранял проекты с качеством 84%. При выборе качества 85% размер файла сразу возрастал в невероятных пропорциях. Продолжайте процесс сканирования вашей книги, в результате в каталоге сохранения будут появляться файлы с отсканированными страницами, примерно вот с такими именами: | ||
+ | |||
+ | <code>my.magazine.part1.pdf | ||
+ | my.magazine.part2.pdf | ||
+ | my.magazine.part3.pdf | ||
+ | my.magazine.part4.pdf | ||
+ | my.magazine.part5.pdf</code> | ||
+ | |||
+ | Предположим, что каждый файл содержит 20 страниц и имеет размер 20 Мб. Поэтому, когда вы соедините их все вместе, на выходе получится единый PDF-файл размером 100Мб и с уже пронумероваными страницами. | ||
+ | {{ :fullcircle:27:fcm27-scan02.png?350}} | ||
+ | Чтобы добиться такого результата, перейдите в командную строку, затем в каталог с сохранёнными страницами и запустите pdftk. Это приложение поможет проделать все нужные операции с PDF-файлами. С его помощью мы объединим отсканированные страницы, тем самым создав одну большую книгу. Оно с лёгкостью сделает всё, что захотите, ведь pdftk имеет множество настроек, но о них я не буду рассказывать подробно. Введите в терминале: | ||
+ | |||
+ | <code>pdftk my.ma</code> | ||
+ | |||
+ | Теперь нажмите клавишу Tab, и, как по волшебству, перед вами появится: | ||
+ | |||
+ | <code>pdftk my.magazine.part</code> | ||
+ | |||
+ | Как я и говорил, командная строка — это очень мощный инструмент. Ваш каталог будет просканирован и часть имени «magazine.part» подставится автоматически. Теперь нажмите 1, чтобы получилось: | ||
+ | |||
+ | <code>pdftk my.magazine.part1</code> | ||
+ | |||
+ | Нажмите Tab ещё раз, и вы получите: | ||
+ | |||
+ | <code>pdftk my.magazine.part1.pdf</code> | ||
+ | |||
+ | Удобно, не правда ли? Снова нажмите Tab для остальных номеров 2, 3, 4 и 5, чтобы в итоге получить следующую команду: | ||
+ | |||
+ | <code>pdftk my.magazine.part1.pdf | ||
+ | my.magazine.part2.pdf | ||
+ | my.magazine.part3.pdf | ||
+ | my.magazine.part4.pdf | ||
+ | my.magazine.part5.pdf</code> | ||
+ | |||
+ | Затем вам нужно сказать pdftk, что вы собираетесь соединить все эти файлы вместе в один большой файл. Поэтому, добавьте следующее: | ||
+ | |||
+ | <code>cat output my.magazine.pdf verbose</code> | ||
+ | |||
+ | Добавьте это в конец предыдущей команды, чтобы всё вместе выглядело примерно так: | ||
+ | |||
+ | <code>pdftk my.magazine.part1.pdf | ||
+ | my.magazine.part2.pdf | ||
+ | my.magazine.part3.pdf | ||
+ | my.magazine.part4.pdf | ||
+ | my.magazine.part5.pdf cat | ||
+ | output my.magazine.pdf</code> | ||
+ | |||
+ | С командой verbose в конце вы будете видеть в терминале всё, что выполняет приложение. Это поможет избежать вопросов в дальнейшем. Если же вы не укажете эту команду, то не получите никакого отклика от приложения. Теперь нажимайте Enter и следите за ходом выполнения. Через несколько секунд вы снова увидите командную строку с мигающим курсором. | ||
+ | |||
+ | |||
+ | Теперь в каталоге вы должны увидеть ваш окончательный документ под названием my.magazine.pdf. Откройте его (с помощью программы для просмотра PDF) и пролистайте, чтобы убедиться, что в нём действительно 100 страниц. Теперь взгляните на размер файла, он должен быть примерно 110 Мб или, возможно, чуть больше. | ||
+ | |||
+ | Теперь, чтобы переконвертировать его в формат djvu, сохранив при этом высокое качество изображений, но уменьшив размер файла, снова откройте командную строку и введите: | ||
+ | |||
+ | <code>pdf2djvu -o my.magazine.djvu -d400 -v my.magazine.pdf</code> | ||
+ | |||
+ | Немного поясню: вы только что сказали программе, что выходной файл будет называться my.magazine.djvu, что вы хотите использовать сжатие 400 DPI (-d400), хотите получать сообщения о том, что делает программа (-v) и что имя исходного файла — my.magazine.pdf. Теперь нажмите Enter. Вы должны увидеть что-то вроде этого: | ||
+ | |||
+ | my.magazine.pdf: | ||
+ | - page #1 -> #1: | ||
+ | - image size: 3199x4332 | ||
+ | - 353010 bytes out | ||
+ | - page #2 -> #2: | ||
+ | - image size: 3199x4332 | ||
+ | (Примечание автора: Здесь я пропустил несколько подобных строк) | ||
+ | - 341857 bytes out | ||
+ | - page #76 -> #76: | ||
+ | - image size: 3167x4332 | ||
+ | - 450144 bytes out | ||
+ | 0.210 bits/pixel; 3.858:1, 74.08% saved, 105702515 bytes in, 27394816 bytes out | ||
+ | |||
+ | Думаю, вы поняли, что к чему. | ||
+ | |||
+ | Теперь перейдите в каталог, и вы увидите .djvu-файл, исходные части PDF и окончательный PDF. | ||
+ | |||
+ | Удалите файлы частей .part1.pdf, но оставьте окончательные PDF- и DjVu-файлы. Чтобы удалить файлы, просто перейдите в каталог, выделите их и нажмите клавишу delete. | ||
+ | |||
+ | Не удаляйте большой PDF-файл. С исходным PDF легче работать, чем с DjVu, поэтому в дальнейшем производите любые изменения в PDF-файле, а затем перековертируйте его в DjVu. | ||
+ | |||
+ | При сканировании страниц убедитесь, что настроили яркость и контраст в gscan2pdf. При полноцветном сканировании вам, возможно, придётся изменить яркость/контраст до 30 или 40, чтобы предотвратить просвечивание страниц, а также чтобы фон был более чётким. Я выяснил, что при сканировании в чёрно-белом режиме это также может быть необходимо. Кроме того, это помогает уменьшить желтизну старых журнальных страниц и сократить размер файла. Попробуйте поэкспериментировать с этими настройками. Уделите этому некоторое время, пока вы, увлёкшись, не отсканировали сотню-другую книг. | ||
+ | |||
+ | --------------------------------------- | ||
+ | |||
+ | <style center> | ||
+ | //[[..:27|К содержанию номера]]// | ||
+ | |||
+ | //[[:fullcircle|К архиву журналов]]// | ||
+ | </style> | ||
+ | |||
+ | {{tag>howto Full_Circle}} | ||