Это старая версия документа.

Документация к pyPDF (в процессе перевода на русский)

Если вы попали сюда, не злитесь из-за того, что не все переведено. Перевод документации - дело довольно непростое. Нужно быть внимательным к мелочам, что я и стараюсь делать.

Destination(title, page, typ, *args) (класс)

Класс олицетворяет пункт назначения в PDF файле.

DocumentInformation() (класс)

Класс предоставляет элементарные метаданные, содержащиеся в PDF файле.

PageObject(pdf) (класс)

Класс олицетворяет страницу из PDF файла, одну страницу.

PdfFileReader(stream) (класс)

Инициализирует объект PdfFileReader.

stream Объект, поддерживающий стандартные методы read и seek подобно файловому объекту.

PdfFileWriter() (класс)

Этот класс поддерживает запись PDF файлов на диск, которые сделаны другим классом: PdfFileReader.

Класс Destination

Destination(title, page, typ, *args) (class)

Класс олицетворяет пункт назначения в PDF файле.

Смотрите раздел 8.2.1 спецификации PDF 1.6, для того, чтобы понять, что такое пункт назначения.1)

Вырезка из спецификации PDF. Оригинальный текст можно увидеть в сносках.

8.2 Навигация на уровне документа

Особенности, описанные в этом разделе позволяют приложениям для чтения PDF предоставлять пользователю интерактивный, глобальный обзор документа в какой-либо из этих форм:2)

  • В форме иерархической структуры, показывающей внутреннее устройство документа. 3)
  • Как набор маленьких изображений, олицетворяющих каждую страницу в документе в форме миниатюры.4)

Каждый элемент структуры или каждая миниатюра может быть связана с соответствующим пунктом_назначения в документе, в смысле, пользователь может попасть прямо в пункт_назначения с помощью клика мыши. 5)

Раздел 8.2.1 вы можете найти здесь, так как он слишком объемный.

Стабильность: Добавлено в версии 1.10, будет существовать в будущих 1.х выпусках.


Read-only property accessing the bottom vertical coordinate.

Возвращает: A number, or None if not available.


Read-only property accessing the left horizontal coordinate.

Возвращает: A number, or None if not available.


Read-only property accessing the destination page.

Возвращает: An integer.


Read-only property accessing the right horizontal coordinate.

Возвращает: A number, or None if not available.


Read-only property accessing the destination title.

Возвращает: A string.


Read-only property accessing the top vertical coordinate.

Возвращает: A number, or None if not available.


Read-only property accessing the destination type.

Возвращает: A string.


Read-only property accessing the zoom factor.

Возвращает: A number, or None if not available.

Класс DocumentInformation

DocumentInformation() (класс)

Класс предоставляет элементарные метаданные, содержащиеся в PDF файле.

По состоянию на pyPDF v1.10, все текстовые свойства метаданных документа имеют два свойства свойства класса, например author и author_raw. Не-raw свойство всегда возвращает TextStringObject, делая его идеальным в случае, если нужно отобразить метаданные. Raw-свойство может иногда возвращать ByteStringObject, если pyPDF не в состоянии определить кодировку текстовой строки; это требует дополнительной аккуратности от разработчика и, как следствие, редкого использования.


Read-only свойство, дающее доступ к автору документа.

Возвращает: Unicode-строку , или None, если автор не указан в документе.

Добавлено в версии 1.6, будет существовать в будущих 1.х выпусках. Модифицировано в версии 1.10, чтобы всегда возвращалась строка в unicode (TextStringObject).


Read-only свойство, дающее доступ к создателю документа. Если документ был сконвертирован в PDF из другого формата, то это имя приложения (например, OpenOffice), которое сделало оригинальный документ, из которого данный был сконвертирован.

Возвращает: Unicode-строку, или None если создатель не указан в документе.

Добавлено в версии 1.6, будет существовать в будущих 1.х выпусках. Модифицировано в версии 1.10, чтобы всегда возвращалась строка в unicode (TextStringObject).


Read-only свойство, дающее доступ к создателю документа. Если документ был сконвертирован в PDF из другого формата, то это имя приложения (например, OSX Quartz), которое сконвертировало оригинальный документ в PDF.

Возвращает: Unicode-строку, или None если производитель не указан в документе.

Добавлено в версии 1.6, будет существовать в будущих 1.х выпусках. Модифицировано в версии 1.10, чтобы всегда возвращалась строка в unicode (TextStringObject).


Read-only свойство, дающее доступ к теме документа.

Возвращает: Unicode-строку, или None если тема не указана в документе.

Добавлено в версии 1.6, будет существовать в будущих 1.х выпусках. Модифицировано в версии 1.10, чтобы всегда возвращалась строка в unicode


Read-only свойство, дающее доступ к заголовку документа.

Возвращает: Unicode-строку, или None если заголовок не указан в документе.

Добавлено в версии 1.6, будет существовать в будущих 1.х выпусках. Модифицировано в версии 1.10, чтобы всегда возвращалась строка в unicode

Класс PageObject

PageObject(pdf) (класс)

This class represents a single page within a PDF file. Typically this object will be created by accessing the {@link #PdfFileReader.getPage getPage} function of the {@link #PdfFileReader PdfFileReader} class.


A rectangle (RectangleObject), expressed in default user space units, defining the extent of the page's meaningful content as intended by the page's creator.

Стабильность: Added in v1.4, will exist for all future v1.x releases.


A rectangle (RectangleObject), expressed in default user space units, defining the region to which the contents of the page should be clipped when output in a production enviroment.

Стабильность: Added in v1.4, will exist for all future v1.x releases.


Compresses the size of this page by joining all content streams and applying a FlateDecode filter.

Стабильность: Added in v1.6, will exist for all future v1.x releases. However, it is possible that this function will perform no action if content stream compression becomes «automatic» for some reason.


A rectangle (RectangleObject), expressed in default user space units, defining the visible region of default user space. When the page is displayed or printed, its contents are to be clipped (cropped) to this rectangle and then imposed on the output medium in some implementation-defined manner. Default value: same as MediaBox.

Стабильность: Added in v1.4, will exist for all future v1.x releases.


Locate all text drawing commands, in the order they are provided in the content stream, and extract the text. This works well for some PDF files, but poorly for others, depending on the generator used. This will be refined in the future. Do not rely on the order of text coming out of this function, as it will change if this function is made more sophisticated.

Возвращает: a unicode string object
Стабильность: Added in v1.7, will exist for all future v1.x releases. May be overhauled to provide more ordered text in the future.


A rectangle (RectangleObject), expressed in default user space units, defining the boundaries of the physical medium on which the page is intended to be displayed or printed.

Стабильность: Added in v1.4, will exist for all future v1.x releases.


Merges the content streams of two pages into one. Resource references (i.e. fonts) are maintained from both pages. The mediabox/cropbox/etc of this page are not altered. The parameter page's content stream will be added to the end of this page's content stream, meaning that it will be drawn after, or «on top» of this page.

page2 An instance of {@link #PageObject PageObject} to be merged into this one.
Стабильность: Added in v1.4, will exist for all future 1.x releases.


Rotates a page clockwise by increments of 90 degrees.

angle Angle to rotate the page. Must be an increment of 90 deg.
Стабильность: Added in v1.1, will exist for all future v1.x releases.


Rotates a page counter-clockwise by increments of 90 degrees.

angleAngle to rotate the page. Must be an increment of 90 deg.
Стабильность: Added in v1.1, will exist for all future v1.x releases.


A rectangle (RectangleObject), expressed in default user space units, defining the intended dimensions of the finished page after trimming.

Стабильность: Added in v1.4, will exist for all future v1.x releases.

Класс PdfFileReader

PdfFileReader(stream) (class)

Инициализирует PdfFileReader объект. Данная операция может занять некоторое время, пока таблицы перекрестных ссылок считываются из stream в память. 6)

stream Объект, поддерживающий стандартные методы read и seek подобно файловому объекту.

Стабильность: Добавлено в версии 1.0. Будет существовать во всех 1.х выпусках.


Когда используется зашифрованный/защищенный PDF файл со стандартным обработчиком шифрования, эта функция позволит дешифровать файл. Она проверяет переданный пароль на соответствие «пользовательскому» и «паролю владельца», и сохраняет полученный ключ для дешифровки, если какой-либо пароль подошел.

Неважно какой пароль подошел. Оба пароля предлагают верный ключ дешифровки, который позволит использовать документ с помощью этой библиотеки.

passwordПароль пользователя или владельца.
Возвращает: 0 при неверном пароле, 1 при совпадении с паролем пользователя и 2 при совпадении с паролем владельца.
Генерирует исключение NotImplementedError: Документ использует неизвестный метод шифрования.

Стабильность: Добавлено в версии 1.8. Будет существовать во всех 1.х выпусках.


Read-only свойство, которое предоставляет доступ к функции getDocumentInfo.

Стабильность: Добавлено в версии 1.7. Будет существовать во всех 1.х выпусках.


Извлекает информационный словарь из PDF документа, если такой существует. Заметьте, что некоторые файлы используют потоки метаданных вместо информационных словарей, и эти потоки не будут доступны с помощью этой функции.

Возвращает экземпляр DocumentInformation или None, если ничего не существует.

Возвращает: Returns a {@link #DocumentInformation DocumentInformation} instance, or None if none exists.

Стабильность: Добавлено в версии 1.6. Будет существовать во всех 1.х выпусках.

getNamedDestinations(tree=None, retval=None)

Retrieves the named destinations present in the document.

Возвращает: Returns a dict which maps names to {@link #Destination destinations}.

Стабильность: Добавлено в версии 1.10. Будет существовать во всех 1.х выпусках.


Подсчитывает количество страниц в данном PDF файле.

Возвращает: Целое число.

Стабильность: Добавлено в версии 1.0. Будет существовать во всех 1.х выпусках.

getOutlines(node=None, outlines=None)

Retrieves the document outline present in the document.

Возвращает: Returns a nested list of {@link #Destination destinations}.

Стабильность: Добавлено в версии 1.10. Будет существовать во всех 1.х выпусках.


Извлекает страницу с определенным номером из PDF файла.

pageNumber Номер извлекаемой страницы.
Возвращает: Экземпляр класса PageObject

Стабильность: Добавлено в версии 1.0. Будет существовать во всех 1.х выпусках.


Read-only boolean property showing whether this PDF file is encrypted. Note that this property, if true, will remain true even after the {@link #PdfFileReader.decrypt decrypt} function is called.


Read-only property that accesses the {@link #PdfFileReader.getNamedDestinations getNamedDestinations} function.

Стабильность: Добавлено в версии 1.10. Будет существовать во всех 1.х выпусках.


Read-only property that accesses the {@link #PdfFileReader.getNumPages getNumPages} function.

Стабильность: Добавлено в версии 1.7. Будет существовать во всех 1.х выпусках.


Read-only property that accesses the {@link #PdfFileReader.getOutlines getOutlines} function.

Стабильность: Добавлено в версии 1.10. Будет существовать во всех 1.х выпусках.


Read-only property that emulates a list based upon the {@link #PdfFileReader.getNumPages getNumPages} and {@link #PdfFileReader.getPage getPage} functions.

Стабильность: Добавлено в версии 1.7. Будет существовать во всех 1.х выпусках.

Класс PdfFileWriter

PdfFileWriter() (class)

Этот класс поддерживает запись PDF объектов на диск, которые сделаны классом PdfFileReader.


Добавляет страницу к этому PDF файлу. Страница обычно получена от экземпляра PdfFileReader.

pageСтраницу, которую нужно добавить к документу. Аргумент должен быть экземпляром класса PageObject

Стабильность: Добавлено в версии 1.0. Будет существовать во всех 1.х выпусках.

encrypt(user_pwd, owner_pwd=None, use_128bit=True)

Шифрует данный PDF файл с помощью стандартного обработчика шифрования PDF. 7)

user_pwd«Пароль пользователя», который позволяет открывать и читать PDF файл с предусмотренными ограничениями.
owner_pwd«Пароль владельца», который позволяет открывать PDF файл без каких либо ограничений. По умолчанию пароль владельца такой же как и пароль пользователя.
use_128bitЛогический аргумент относительно использования 128-битного шифрования. Когда false, будет использовано 40-битное шифрование . По умолчанию этот флаг активирован.


Записывает коллекцию страниц, добавленных а объект для вывода, как PDF файл.

streamОбъект, в который нужно записать PDF файл. Объект должен поддерживать write и tell методы подобно файловым объектам.

Стабильность: Добавлено в версии 1.0. Будет существовать во всех 1.х выпусках.

Раздел 8.2.1 из спецификации PDF

8.2.1 Пункты назначения

A destination defines a particular view of a document, consisting of the following items:

  • The page of the document to be displayed
  • The location of the document window on that page
  • The magnification (zoom) factor to use when displaying the page

Destinations may be associated with outline items (see Section 8.2.2, “Document Outline”), annotations (“Link Annotations” on page 587), or actions (“Go-To Actions” on page 616 and “Remote Go-To Actions” on page 617). In each case, the destination specifies the view of the document to be presented when the outline item or annotation is opened or the action is performed. In addition, the optional OpenAction entry in a document’s catalog (Section 3.6.1, “Document Catalog”) may specify a destination to be displayed when the document is opened. A destination may be specified either explicitly by an array of parameters defining its properties or indirectly by name.

Explicit Destinations

Table 8.2 shows the allowed syntactic forms for specifying a destination explicitly in a PDF file. In each case, page is an indirect reference to a page object. All coordinate values (left, right, top, and bottom) are expressed in the default user space coordinate system. The page’s bounding box is the smallest rectangle enclosing all of its contents. (If any side of the bounding box lies outside the page’s crop box, the corresponding side of the crop box is used instead; see Section 10.10.1, “Page Boundaries,” for further discussion of the crop box.)

Note: No page object can be specified for a destination associated with a remote go- to action (see “Remote Go-To Actions” on page 617) because the destination page is in a different PDF document. In this case, the page parameter specifies a page num- ber within the remote document instead of a page object in the current document.

TABLE 8.2 Destination syntax

Синтаксис………………… MEANING
[page /XYZ left top zoom] Display the page designated by page, with the coordinates (left, top) positioned at the upper-left corner of the window and the contents of the pagemagnified by the factor zoom. A null value for any of the parameters left, top, or zoom specifies that the current value of that parameter is to be retained unchanged. A zoom value of 0 has the same meaning as a null value.
[page /Fit] Display the page designated by page, with its contents magnified just enough to fit the entire page within the window both horizontally and vertically. If the required horizontal and vertical magnification factors are different, use the smaller of the two, centering the page within the window in the other dimension.
[page /FitH top] Display the page designated by page, with the vertical coordinate top positioned at the top edge of the window and the contents of the page magnified just enough to fit the entire width of the page within the window.
[page /FitV left] Display the page designated by page, with the horizontal coordinate left positioned at the left edge of the window and the contents of the page magnified just enough to fit the entire height of the page within the window.
[page /FitR left bottom right top] Display the page designated by page, with its contents magnified just enough to fit the rectangle specified by the coordinates left, bottom, right, and top entirely within the window both horizontally and vertically. If the required horizontal and vertical magnification factors are different, use the smaller of the two, centering the rectangle within the window in the other dimension.
[page /FitB] (PDF 1.1) Display the page designated by page, with its contents magnified just enough to fit its bounding box entirely within the window both horizontally and vertically. If the required horizontal and vertical magnification factors are different, use the smaller of the two, centering the bounding box within the window in the other dimension.
[page /FitBH top] (PDF 1.1) Display the page designated by page, with the vertical coordinate top positioned at the top edge of the window and the contents of the page magnified just enough to fit the entire width of its bounding box within the window.
[page /FitBV left] (PDF 1.1) Display the page designated by page, with the horizontal coordinate left positioned at the left edge of the window and the contents of the page magnified just enough to fit the entire height of its bounding box within the window.

Named Destinations

Instead of being defined directly with the explicit syntax shown in Table 8.2, a destination may be referred to indirectly by means of a name object (PDF 1.1) or a string (PDF 1.2). This capability is especially useful when the destination is lo- cated in another PDF document. For example, a link to the beginning of Chapter 6 in another document might refer to the destination by a name, such as Chap6.begin, instead of by an explicit page number in the other document. Then, the location of the chapter in the other document could change without invalidat- ing the link. If an annotation or outline item that refers to a named destination has an associated action, such as a remote go-to action (see “Remote Go-To Ac- tions” on page 617) or a thread action (“Thread Actions” on page 623), the desti- nation is in the file specified by the action’s F entry, if any; if there is no F entry, the destination is in the current file. In PDF 1.1, the correspondence between name objects and destinations is defined by the Dests entry in the document catalog (see Section 3.6.1, “Docu- ment Catalog”). The value of this entry is a dictionary in which each key is a des- tination name and the corresponding value is either an array defining the destination, using the syntax shown in Table 8.2, or a dictionary with a D entry whose value is such an array. The latter form allows additional attributes to be associated with the destination, as well as enabling a go-to action (see “Go-To Actions” on page 616) to be used as the target of a named destination. In PDF 1.2, the correspondence between strings and destinations is defined by the Dests entry in the document’s name dictionary (see Section 3.6.3, “Name Dic- tionary”). The value of this entry is a name tree (Section 3.8.5, “Name Trees”) mapping name strings to destinations. (The keys in the name tree may be treated as text strings for display purposes.) The destination value associated with a key in the name tree may be either an array or a dictionary, as described in the pre- ceding paragraph.

Note: The use of strings as destination names is a PDF 1.2 feature. If compatibility with earlier versions of PDF is required, only name objects may be used to refer to named destinations. A document that supports PDF 1.2 can contain both types. However, if backward compatibility is not a consideration, applications should use the string form of representation in the Dests name tree.
See section 8.2.1 of the PDF 1.6 reference.
The features described in this section allow a PDF viewer application to present the user with an interactive, global overview of a document in either of two forms:
As a hierarchical outline showing the document’s internal structure
As a collection of thumbnail images representing the pages of the document in miniature form
Each item in the outline or each thumbnail image can be associated with a corresponding destination in the document, so that the user can jump directly to the destination by clickingwith the mouse.
This operation can take some time, as the PDF stream's cross-reference tables are read into memory.
В оригинале: (PDF Standard encryption handler)