Это любительский перевод документации. Не стоит относится к нему со 100%-ным доверием.
Много оригинальных английских предложений есть в сносках (активируются при наведении.)

Destination(title, page, typ, *args) (класс)

Класс олицетворяет пункт назначения в PDF файле.

DocumentInformation() (класс)

Класс предоставляет элементарные метаданные, содержащиеся в PDF файле.

PageObject(pdf) (класс)

Класс олицетворяет страницу из PDF файла, одну страницу.

PdfFileReader(stream) (класс)

Инициализирует объект PdfFileReader.

stream Объект, поддерживающий стандартные методы read и seek подобно файловому объекту.

PdfFileWriter() (класс)

Этот класс поддерживает запись PDF файлов на диск, которые сделаны другим классом: PdfFileReader.

Класс Destination

Destination(title, page, typ, *args) (class)

Класс олицетворяет пункт назначения в PDF файле.

Смотрите раздел 8.2.1 спецификации PDF 1.6, для того, чтобы понять, что такое пункт назначения.1)

Вырезка из спецификации PDF. Оригинальный текст можно увидеть в сносках.

8.2 Навигация на уровне документа

Особенности, описанные в этом разделе позволяют приложениям для чтения PDF предоставлять пользователю интерактивный, глобальный обзор документа в какой-либо из этих форм:2)

  • В форме иерархической структуры, показывающей внутреннее устройство документа. 3)
  • Как набор маленьких изображений, олицетворяющих каждую страницу в документе в форме миниатюры.4)

Каждый элемент структуры или каждая миниатюра может быть связана с соответствующим пунктом_назначения в документе, в смысле, пользователь может попасть прямо в пункт_назначения с помощью клика мыши. 5)

Раздел 8.2.1 вы можете найти здесь, так как он слишком объемный.

Стабильность: Добавлено в версии 1.10, будет существовать в будущих 1.х выпусках.

bottom

Read-only свойство, дающее доступ к нижней вертикальной координате.

Возвращает: Число или None, если недоступно.

left

Read-only свойство, дающее доступ к левой горизонтальной координате.

Возвращает: Число или None, если недоступно.

page

Read-only свойство, дающее доступ странице пункта назначения.

Возвращает: An integer.

right

Read-only свойство, дающее доступ к правой горизонтальной координате.

Возвращает: Число или None, если недоступно.

title

Read-only свойство, дающее доступ к названию (title) пункта назначения.

Возвращает: Строку

top

Read-only свойство, дающее доступ к верхней вертикальной координате.

Возвращает: Число или None, если недоступно.

typ

Read-only свойство, дающее доступ к типу пункта назначения.

Возвращает: Строку

zoom

Read-only свойство, дающее доступ к коэффициенту увеличения.

Возвращает: Число или None, если недоступно.

Класс DocumentInformation

DocumentInformation() (класс)

Класс предоставляет элементарные метаданные, содержащиеся в PDF файле.

По состоянию на pyPDF v1.10, все текстовые свойства метаданных документа имеют два свойства свойства класса, например author и author_raw. Не-raw свойство всегда возвращает TextStringObject, делая его идеальным в случае, если нужно отобразить метаданные. Raw-свойство может иногда возвращать ByteStringObject, если pyPDF не в состоянии определить кодировку текстовой строки; это требует дополнительной аккуратности от разработчика и, как следствие, редкого использования.

author

Read-only свойство, дающее доступ к автору документа.

Возвращает: Unicode-строку , или None, если автор не указан в документе.

Добавлено в версии 1.6, будет существовать в будущих 1.х выпусках. Модифицировано в версии 1.10, чтобы всегда возвращалась строка в unicode (TextStringObject).

creator

Read-only свойство, дающее доступ к создателю документа. Если документ был сконвертирован в PDF из другого формата, то это имя приложения (например, OpenOffice), которое сделало оригинальный документ, из которого данный был сконвертирован.

Возвращает: Unicode-строку, или None если создатель не указан в документе.

Добавлено в версии 1.6, будет существовать в будущих 1.х выпусках. Модифицировано в версии 1.10, чтобы всегда возвращалась строка в unicode (TextStringObject).

producer

Read-only свойство, дающее доступ к создателю документа. Если документ был сконвертирован в PDF из другого формата, то это имя приложения (например, OSX Quartz), которое сконвертировало оригинальный документ в PDF.

Возвращает: Unicode-строку, или None если производитель не указан в документе.

Добавлено в версии 1.6, будет существовать в будущих 1.х выпусках. Модифицировано в версии 1.10, чтобы всегда возвращалась строка в unicode (TextStringObject).

subject

Read-only свойство, дающее доступ к теме документа.

Возвращает: Unicode-строку, или None если тема не указана в документе.

Добавлено в версии 1.6, будет существовать в будущих 1.х выпусках. Модифицировано в версии 1.10, чтобы всегда возвращалась строка в unicode

title

Read-only свойство, дающее доступ к заголовку документа.

Возвращает: Unicode-строку, или None если заголовок не указан в документе.

Добавлено в версии 1.6, будет существовать в будущих 1.х выпусках. Модифицировано в версии 1.10, чтобы всегда возвращалась строка в unicode

Класс PageObject

PageObject(pdf) (класс)

Класс олицетворяет одиночную страницу в PDF файле. Банально этот объект может быть создан с помощью доступа к функции PdfFileReader.getPage, принадлежащей классу PdfFileReader.

artBox

Прямоугольник (RectangleObject), выраженный в дефолтных пользовательских единицах измерения, определяющий размеры значимого контента, как было задумано создателем. 6)

Стабильность: Добавлено в v1.1, будет существовать во всех будущих 1.х выпусках.

bleedBox

Прямоугольник (RectangleObject), выраженный в дефолтных пользовательских единицах измерения, определяющий область, в которую контент страницы должен быть обрезан, когда производится вывод в реальный мир. 7)

Стабильность: Добавлено в v1.1, будет существовать во всех будущих 1.х выпусках.

compressContentStreams()

Сжимает размер этой страницы, объединяя все контентные потоки и применяя FlateDecode фильтр.8)

Стабильность: Added in v1.6, will exist for all future v1.x releases. However, it is possible that this function will perform no action if content stream compression becomes «automatic» for some reason.

cropBox

Прямоугольник (RectangleObject), выраженный в дефолтных пользовательских единицах измерения, определяющий видимую область дефолтного пользовательского пространства. Когда страница отображается, или распечатывается, ее контент должен быть обрезан этим прямоугольником и затем наложен на внешнюю среду каким-нибудь способом.9)

Значение по умолчанию: same as MediaBox.
Стабильность: Добавлено в v1.1, будет существовать во всех будущих 1.х выпусках.

extractText()

Найти все рисующие текст команды, в порядке их представления в потоке содержания, и извлечь текст. 10) Это хорошо работает для некоторых PDF, но ужасно для других, это зависит от используемого генератора. Это будет усовершенствовано в будущем. Не полагайтесь на порядок текста, исходящий от этой функции, из-за того, что он может изменится при усложнении функции.

Возвращает: unicode string-объект
Стабильность: Добавлено в v1.1, будет существовать во всех будущих 1.х выпусках. Может быть переписана с нуля, чтобы предоставить более упорядоченный текст в будущем.

mediaBox

Прямоугольник (RectangleObject), выраженный в дефолтных пользовательских единицах измерения, определяющий границы физической среды, на которой страница предназначена быть показанной или распечатанной.11)

Стабильность: Добавлено в v1.1, будет существовать во всех будущих 1.х выпусках.

mergePage(page2)

Объединяет потоки с контентом двух страниц в один. Ссылки на ресурсы (вроде шрифтов) поддерживаются из обоих страниц. mediabox/cropbox/прочее, принадлежащее этой страницы не изменится. Параметр контентного потока страницы будет добавлен в конец контентного потока этой страницы. Это означает, что все будет дорисовано после, или на вершине этой страницы.

page2 Экземпляр класса PageObject, который нужно объединить с текущим.
Стабильность: Добавлено в версии 1.4, будет существовать во всех будущих выпусках.

rotateClockwise(angle)

Поворачивает страницу по часовой стрелки на число градусов, кратное 90.

angleУгол на который нужно повернуть страницу. Должен увеличиваться только на 90 градусов за раз.
Стабильность: Добавлено в v1.1, будет существовать во всех будущих 1.х выпусках.

rotateCounterClockwise(angle)

Поворачивает страницу против часовой стрелки на число градусов, кратное 90.

angleУгол на который нужно повернуть страницу. Должен увеличиваться только на 90 градусов за раз.
Стабильность: Добавлено в v1.1, будет существовать во всех будущих 1.х выпусках.

trimBox

Прямоугольник (RectangleObject), выраженный в дефолтных пользовательских единицах измерения, определяющий придуманные вами габариты конечной страницы после обрезки. 12)

Стабильность: Добавлено в v1.1, будет существовать во всех будущих 1.х выпусках.

Класс PdfFileReader

PdfFileReader(stream) (class)

Инициализирует PdfFileReader объект. Данная операция может занять некоторое время, пока таблицы перекрестных ссылок считываются из stream в память. 13)

stream Объект, поддерживающий стандартные методы read и seek подобно файловому объекту.

Стабильность: Добавлено в версии 1.0. Будет существовать во всех 1.х выпусках.

decrypt(password)

Когда используется зашифрованный/защищенный PDF файл со стандартным обработчиком шифрования, эта функция позволит дешифровать файл. Она проверяет переданный пароль на соответствие «пользовательскому» и «паролю владельца», и сохраняет полученный ключ для дешифровки, если какой-либо пароль подошел.

Неважно какой пароль подошел. Оба пароля предлагают верный ключ дешифровки, который позволит использовать документ с помощью этой библиотеки.

passwordПароль пользователя или владельца.
Возвращает: 0 при неверном пароле, 1 при совпадении с паролем пользователя и 2 при совпадении с паролем владельца.
Генерирует исключение NotImplementedError: Документ использует неизвестный метод шифрования.

Стабильность: Добавлено в версии 1.8. Будет существовать во всех 1.х выпусках.

documentInfo

Read-only свойство, которое предоставляет доступ к функции getDocumentInfo.

Стабильность: Добавлено в версии 1.7. Будет существовать во всех 1.х выпусках.

getDocumentInfo()

Извлекает информационный словарь из PDF документа, если такой существует. Заметьте, что некоторые файлы используют потоки метаданных вместо информационных словарей, и эти потоки не будут доступны с помощью этой функции.

Возвращает экземпляр DocumentInformation или None, если ничего не существует.

Возвращает: Экземпляр DocumentInformation или None если ничего нет.

Стабильность: Добавлено в версии 1.6. Будет существовать во всех 1.х выпусках.

getNamedDestinations(tree=None, retval=None)

Извлекает именованные пункты назначения в документе.

Возвращает: Возвращает словарь-отображение имен в пункты назначения.

Стабильность: Добавлено в версии 1.10. Будет существовать во всех 1.х выпусках.

getNumPages()

Подсчитывает количество страниц в данном PDF файле.

Возвращает: Целое число.

Стабильность: Добавлено в версии 1.0. Будет существовать во всех 1.х выпусках.

getOutlines(node=None, outlines=None)

Извлекает структуру документа, присутствующую в нем.

Возвращает: Возвращает вложенный список пунктов назначения.

Стабильность: Добавлено в версии 1.10. Будет существовать во всех 1.х выпусках.

getPage(pageNumber)

Извлекает страницу с определенным номером из PDF файла.

pageNumber Номер извлекаемой страницы.
Возвращает: Экземпляр класса PageObject

Стабильность: Добавлено в версии 1.0. Будет существовать во всех 1.х выпусках.

isEncrypted

Read-only булево свойство, показывающее зашифрован ли файл. Заметьте, что это свойство, если оно True, то оно останется True даже после вызова дешифрирующей функции PdfFileReader.decrypt.

namedDestinations

Read-only свойство, дающее доступ к функции PdfFileReader.getNamedDestinations.

Стабильность: Добавлено в версии 1.10. Будет существовать во всех 1.х выпусках.

numPages

Read-only свойство, дающее доступ к функции PdfFileReader.getNumPages.

Стабильность: Добавлено в версии 1.7. Будет существовать во всех 1.х выпусках.

outlines

Read-only свойство, дающее доступ к функции PdfFileReader.getOutlines.

Стабильность: Добавлено в версии 1.10. Будет существовать во всех 1.х выпусках.

pages

Read-only свойство, которое эмулирует список основанный на PdfFileReader.getNumPages И PdfFileReader.getPage функциях.

Стабильность: Добавлено в версии 1.7. Будет существовать во всех 1.х выпусках.

Класс PdfFileWriter

PdfFileWriter() (class)

Этот класс поддерживает запись PDF объектов на диск, которые сделаны классом PdfFileReader.

addPage(page)

Добавляет страницу к этому PDF файлу. Страница обычно получена от экземпляра PdfFileReader.

pageСтраницу, которую нужно добавить к документу. Аргумент должен быть экземпляром класса PageObject

Стабильность: Добавлено в версии 1.0. Будет существовать во всех 1.х выпусках.

encrypt(user_pwd, owner_pwd=None, use_128bit=True)

Шифрует данный PDF файл с помощью стандартного обработчика шифрования PDF. 14)

user_pwd«Пароль пользователя», который позволяет открывать и читать PDF файл с предусмотренными ограничениями.
owner_pwd«Пароль владельца», который позволяет открывать PDF файл без каких либо ограничений. По умолчанию пароль владельца такой же как и пароль пользователя.
use_128bitЛогический аргумент относительно использования 128-битного шифрования. Когда false, будет использовано 40-битное шифрование . По умолчанию этот флаг активирован.

write(stream)

Записывает коллекцию страниц, добавленных а объект для вывода, как PDF файл.

streamОбъект, в который нужно записать PDF файл. Объект должен поддерживать write и tell методы подобно файловым объектам.

Стабильность: Добавлено в версии 1.0. Будет существовать во всех 1.х выпусках.

Раздел 8.2.1 из спецификации PDF

8.2.1 Пункты назначения

Пункт назначения определяет конкретный вид документа, состоящего из следующих элементов:

  • Страница, которая будет отображена
  • Расположение окна документа на этой странице. 15)
  • Увеличение, которое нужно использовать при показе страницы

Пункт назначения в документе может ассоциироваться с элементом структуры документа (смотрите раздел 8.2.2, «Document Outline»), аннотациями (смотрите “Link Annotations” на странице 587), или действиями (“Go-To Actions” на странице 616 и “Remote Go-To Actions” на 617-й), в каждом случае пункт назначения указывает что будет показано при открытии элемента структуры документа или аннотации, или если выполнено действие. В дополнение, дополнительный ввод OpenAction в каталог документа (смотрите раздел 3.6.1, “Document Catalog”) может указывать пункт назначения, который будет показан при открытии документа. Пункт назначения может быть указан явно с помощью массива параметров, определяющим эти параметры или косвенно с помощью имени. 16)

Явный пункт назначения

Таблица 8.2 показывает разрешенные синтаксические формы для явного указания пункта назначения в PDF файле. В любом случае, страница является неявной ссылкой на объект-страницу. Все значения координат (слева, справа, сверху, снизу) выражены в дефолтной пользовательской системе координат.

Ограничительная рамка страницы является наименьшим прямоугольником вмещающем все ее содержание. (Если какая-либо сторона ограничительной рамки лежит за пределами обрезающей рамки, соответствующая сторона обрезающей рамки используется вместо. Смотрите раздел 10.10.1, «Page Boundaries», для дальнейшего обсуждения обрезающей рамки.)

Никакой page-объект на может быть указан для ассоциации с пунктом назначения с помощью операции goto (смотрите «Remote Go-To Actions» на странице 617) потому что страница пункта назначения находится в другом PDF документе. В этом случае, параметр страницы указывает номер страницы в удаленном документе вместо page-объекта в текущем документе. 17)

TABLE 8.2 Destination syntax

Синтаксис………………… MEANING
[page /XYZ left top zoom] Display the page designated by page, with the coordinates (left, top) positioned at the upper-left corner of the window and the contents of the pagemagnified by the factor zoom. A null value for any of the parameters left, top, or zoom specifies that the current value of that parameter is to be retained unchanged. A zoom value of 0 has the same meaning as a null value.
[page /Fit] Display the page designated by page, with its contents magnified just enough to fit the entire page within the window both horizontally and vertically. If the required horizontal and vertical magnification factors are different, use the smaller of the two, centering the page within the window in the other dimension.
[page /FitH top] Display the page designated by page, with the vertical coordinate top positioned at the top edge of the window and the contents of the page magnified just enough to fit the entire width of the page within the window.
[page /FitV left] Display the page designated by page, with the horizontal coordinate left positioned at the left edge of the window and the contents of the page magnified just enough to fit the entire height of the page within the window.
[page /FitR left bottom right top] Display the page designated by page, with its contents magnified just enough to fit the rectangle specified by the coordinates left, bottom, right, and top entirely within the window both horizontally and vertically. If the required horizontal and vertical magnification factors are different, use the smaller of the two, centering the rectangle within the window in the other dimension.
[page /FitB] (PDF 1.1) Display the page designated by page, with its contents magnified just enough to fit its bounding box entirely within the window both horizontally and vertically. If the required horizontal and vertical magnification factors are different, use the smaller of the two, centering the bounding box within the window in the other dimension.
[page /FitBH top] (PDF 1.1) Display the page designated by page, with the vertical coordinate top positioned at the top edge of the window and the contents of the page magnified just enough to fit the entire width of its bounding box within the window.
[page /FitBV left] (PDF 1.1) Display the page designated by page, with the horizontal coordinate left positioned at the left edge of the window and the contents of the page magnified just enough to fit the entire height of its bounding box within the window.

Именованные пункты назначения

Instead of being defined directly with the explicit syntax shown in Table 8.2, a destination may be referred to indirectly by means of a name object (PDF 1.1) or a string (PDF 1.2). This capability is especially useful when the destination is lo- cated in another PDF document. For example, a link to the beginning of Chapter 6 in another document might refer to the destination by a name, such as Chap6.begin, instead of by an explicit page number in the other document. Then, the location of the chapter in the other document could change without invalidat- ing the link. If an annotation or outline item that refers to a named destination has an associated action, such as a remote go-to action (see “Remote Go-To Ac- tions” on page 617) or a thread action (“Thread Actions” on page 623), the desti- nation is in the file specified by the action’s F entry, if any; if there is no F entry, the destination is in the current file. In PDF 1.1, the correspondence between name objects and destinations is defined by the Dests entry in the document catalog (see Section 3.6.1, “Docu- ment Catalog”). The value of this entry is a dictionary in which each key is a des- tination name and the corresponding value is either an array defining the destination, using the syntax shown in Table 8.2, or a dictionary with a D entry whose value is such an array. The latter form allows additional attributes to be associated with the destination, as well as enabling a go-to action (see “Go-To Actions” on page 616) to be used as the target of a named destination. In PDF 1.2, the correspondence between strings and destinations is defined by the Dests entry in the document’s name dictionary (see Section 3.6.3, “Name Dic- tionary”). The value of this entry is a name tree (Section 3.8.5, “Name Trees”) mapping name strings to destinations. (The keys in the name tree may be treated as text strings for display purposes.) The destination value associated with a key in the name tree may be either an array or a dictionary, as described in the pre- ceding paragraph.

Note: The use of strings as destination names is a PDF 1.2 feature. If compatibility with earlier versions of PDF is required, only name objects may be used to refer to named destinations. A document that supports PDF 1.2 can contain both types. However, if backward compatibility is not a consideration, applications should use the string form of representation in the Dests name tree.
1)
See section 8.2.1 of the PDF 1.6 reference.
2)
The features described in this section allow a PDF viewer application to present the user with an interactive, global overview of a document in either of two forms:
3)
As a hierarchical outline showing the document’s internal structure
4)
As a collection of thumbnail images representing the pages of the document in miniature form
5)
Each item in the outline or each thumbnail image can be associated with a corresponding destination in the document, so that the user can jump directly to the destination by clickingwith the mouse.
6)
A rectangle (RectangleObject), expressed in default user space units, defining the extent of the page's meaningful content as intended by the page's creator.
7)
A rectangle (RectangleObject), expressed in default user space units, defining the region to which the contents of the page should be clipped when output in a production enviroment.
8)
Compresses the size of this page by joining all content streams and applying a FlateDecode filter.
9)
A rectangle (RectangleObject), expressed in default user space units, defining the visible region of default user space. When the page is displayed or printed, its contents are to be clipped (cropped) to this rectangle and then imposed on the output medium in some implementation-defined manner.
10)
Locate all text drawing commands, in the order they are provided in the content stream, and extract the text.
11)
A rectangle (RectangleObject), expressed in default user space units, defining the boundaries of the physical medium on which the page is intended to be displayed or printed.
12)
A rectangle (RectangleObject), expressed in default user space units, defining the intended dimensions of the finished page after trimming.
13)
This operation can take some time, as the PDF stream's cross-reference tables are read into memory.
14)
В оригинале: (PDF Standard encryption handler)
15)
The location of the document window on that page
16)
A destination may be specified either explicitly by an array of parameters defining its properties or indirectly by name.
17)
Note: No page object can be specified for a destination associated with a remote goto action (see “Remote Go-To Actions” on page 617) because the destination page is in a different PDF document. In this case, the page parameter specifies a page number within the remote document instead of a page object in the current document.