Автор — Дэз (Dez)

Сберегите ваши бумажные журналы и документы, пока они не пожелтели, не распались на кусочки и не разлетелись по ветру, отсканировав их и сохранив в форматы PDF/DjVu.

Просто подключите сканер — и вы готовы к работе. Во-первых, установите gscan2pdf. Домашняя страница: http://gscan2pdf.sourceforge.net. Также его можно найти в репозиториях. Для установки через терминал введите:

sudo apt-get install gscan2pdf

Установите также pdftk. Это пакет для резки/сборки/калибровки PDF-файлов, я использую его для всех своих PDF-проектов.

sudo apt-get install pdftk

Кроме того, вам потребуется pdf2djvu, чтобы, имея на руках высококачественные PDF, вы смогли их переконвертировать в формат djvu 400 dpi, сохранив тем самым уйму места без потери качества. Просто введите в терминале:

sudo apt-get install pdf2djvu

Это всё, что вам потребуется. Приступим к сканированию! Запустите gscan2pdf и щёлкните по кнопке сканирования. Если вам повезёт, сканер обнаружится автоматически, и вы сможете изменить некоторые его настройки. Я использую сканер HP Scan-Jet 6300 с устройством автоподачи на 25 листов. Для тех, кто не знает, что такое устройство автоподачи: мой сканер немного напоминает факс. В нём можно выбирать скорость сканирования. Я всегда выбираю самую быструю. Затем нужно выбрать разрешение — я всегда выбираю 300 DPI. Теперь выберите режим сканирования.

  1. чёрно-белый
  2. полутона
  3. оттенки серого
  4. цветной

Чёрно-белый режим отлично подходит для сканирования страниц, на которых присутствует только чёрный цвет. Не используйте его, если на странице есть фотографии, иначе они будут выглядеть ужасно. Отсканированное изображение занимает немного места.

В режиме полутонов тёмный исходный документ будет выглядеть довольно блёкло на остканированном изображении. Я никогда не использую этот режим.

Оттенки серого — используйте этот режим при сканировании чёрно-белых страниц из журналов или газет, на которых есть фотографии. В этом режиме вы получите довольно неплохую ч/б репродукцию. Файлы изображений занимают побольше места, но всё же не так много, как в полноцветном режиме.

Полноцветный режим — название говорит само за себя.

Чтобы получить электронную копию журнала, отсканируйте 10-20 страниц и сохраните их в PDF-формате. Можно выбрать различные настройки сохранения отсканированных страниц. Например, вы можете сохранить каждую страницу отдельно или все вместе, в единый PDF-файл. Кроме того, вы можете выбрать формат jpeg или один из нескольких других форматов.

Во время моих экспериментов я научился использовать сжатие jpeg при сохранении PDF. Jpeg — это формат сжатия с потерями, поэтому в битве за качество я сохранял проекты с качеством 84%. При выборе качества 85% размер файла сразу возрастал в невероятных пропорциях. Продолжайте процесс сканирования вашей книги, в результате в каталоге сохранения будут появляться файлы с отсканированными страницами, примерно вот с такими именами:

my.magazine.part1.pdf
my.magazine.part2.pdf
my.magazine.part3.pdf
my.magazine.part4.pdf
my.magazine.part5.pdf

Предположим, что каждый файл содержит 20 страниц и имеет размер 20 Мб. Поэтому, когда вы соедините их все вместе, на выходе получится единый PDF-файл размером 100Мб и с уже пронумероваными страницами. Чтобы добиться такого результата, перейдите в командную строку, затем в каталог с сохранёнными страницами и запустите pdftk. Это приложение поможет проделать все нужные операции с PDF-файлами. С его помощью мы объединим отсканированные страницы, тем самым создав одну большую книгу. Оно с лёгкостью сделает всё, что захотите, ведь pdftk имеет множество настроек, но о них я не буду рассказывать подробно. Введите в терминале:

pdftk my.ma

Теперь нажмите клавишу Tab, и, как по волшебству, перед вами появится:

pdftk my.magazine.part

Как я и говорил, командная строка — это очень мощный инструмент. Ваш каталог будет просканирован и часть имени «magazine.part» подставится автоматически. Теперь нажмите 1, чтобы получилось:

pdftk my.magazine.part1

Нажмите Tab ещё раз, и вы получите:

pdftk my.magazine.part1.pdf

Удобно, не правда ли? Снова нажмите Tab для остальных номеров 2, 3, 4 и 5, чтобы в итоге получить следующую команду:

pdftk my.magazine.part1.pdf
my.magazine.part2.pdf
my.magazine.part3.pdf
my.magazine.part4.pdf
my.magazine.part5.pdf

Затем вам нужно сказать pdftk, что вы собираетесь соединить все эти файлы вместе в один большой файл. Поэтому, добавьте следующее:

cat output my.magazine.pdf verbose

Добавьте это в конец предыдущей команды, чтобы всё вместе выглядело примерно так:

pdftk my.magazine.part1.pdf
my.magazine.part2.pdf
my.magazine.part3.pdf
my.magazine.part4.pdf
my.magazine.part5.pdf cat
output my.magazine.pdf

С командой verbose в конце вы будете видеть в терминале всё, что выполняет приложение. Это поможет избежать вопросов в дальнейшем. Если же вы не укажете эту команду, то не получите никакого отклика от приложения. Теперь нажимайте Enter и следите за ходом выполнения. Через несколько секунд вы снова увидите командную строку с мигающим курсором.

Теперь в каталоге вы должны увидеть ваш окончательный документ под названием my.magazine.pdf. Откройте его (с помощью программы для просмотра PDF) и пролистайте, чтобы убедиться, что в нём действительно 100 страниц. Теперь взгляните на размер файла, он должен быть примерно 110 Мб или, возможно, чуть больше.

Теперь, чтобы переконвертировать его в формат djvu, сохранив при этом высокое качество изображений, но уменьшив размер файла, снова откройте командную строку и введите:

pdf2djvu -o my.magazine.djvu -d400 -v my.magazine.pdf

Немного поясню: вы только что сказали программе, что выходной файл будет называться my.magazine.djvu, что вы хотите использовать сжатие 400 DPI (-d400), хотите получать сообщения о том, что делает программа (-v) и что имя исходного файла — my.magazine.pdf. Теперь нажмите Enter. Вы должны увидеть что-то вроде этого:

my.magazine.pdf:

  1. page #1 → #1:
  2. image size: 3199×4332
  3. 353010 bytes out
  4. page #2 → #2:
  5. image size: 3199×4332

(Примечание автора: Здесь я пропустил несколько подобных строк)

  1. 341857 bytes out
  2. page #76 → #76:
  3. image size: 3167×4332
  4. 450144 bytes out

0.210 bits/pixel; 3.858:1, 74.08% saved, 105702515 bytes in, 27394816 bytes out

Думаю, вы поняли, что к чему.

Теперь перейдите в каталог, и вы увидите .djvu-файл, исходные части PDF и окончательный PDF.

Удалите файлы частей .part1.pdf, но оставьте окончательные PDF- и DjVu-файлы. Чтобы удалить файлы, просто перейдите в каталог, выделите их и нажмите клавишу delete.

Не удаляйте большой PDF-файл. С исходным PDF легче работать, чем с DjVu, поэтому в дальнейшем производите любые изменения в PDF-файле, а затем перековертируйте его в DjVu.

При сканировании страниц убедитесь, что настроили яркость и контраст в gscan2pdf. При полноцветном сканировании вам, возможно, придётся изменить яркость/контраст до 30 или 40, чтобы предотвратить просвечивание страниц, а также чтобы фон был более чётким. Я выяснил, что при сканировании в чёрно-белом режиме это также может быть необходимо. Кроме того, это помогает уменьшить желтизну старых журнальных страниц и сократить размер файла. Попробуйте поэкспериментировать с этими настройками. Уделите этому некоторое время, пока вы, увлёкшись, не отсканировали сотню-другую книг.