Это старая версия документа.

Содержание

Документация к pyPDF (в процессе перевода на русский)
Класс Destination
Класс DocumentInformation
Класс PageObject
Класс PdfFileReader
Класс PdfFileWriter
- Раздел 8.2.1 из спецификации PDF

Документация к pyPDF (в процессе перевода на русский)

Если вы попали сюда, не злитесь из-за того, что не все переведено. Перевод документации - дело довольно непростое. Нужно быть внимательным к мелочам, что я и стараюсь делать.

Destination(title, page, typ, *args) (класс)

Класс олицетворяет пункт назначения в PDF файле.

DocumentInformation() (класс)

Класс предоставляет элементарные метаданные, содержащиеся в PDF файле.

PageObject(pdf) (класс)

Класс олицетворяет страницу из PDF файла, одну страницу.

PdfFileReader(stream) (класс)

Инициализирует объект PdfFileReader.

stream	Объект, поддерживающий стандартные методы `read` и `seek` подобно файловому объекту.

PdfFileWriter() (класс)

Этот класс поддерживает запись PDF файлов на диск, которые сделаны другим классом: PdfFileReader.

Класс Destination

Destination(title, page, typ, *args) (class)

Класс олицетворяет пункт назначения в PDF файле.

Смотрите раздел 8.2.1 спецификации PDF 1.6, для того, чтобы понять, что такое пункт назначения.¹⁾

Вырезка из спецификации PDF. Оригинальный текст можно увидеть в сносках.

8.2 Навигация на уровне документа

Особенности, описанные в этом разделе позволяют приложениям для чтения PDF предоставлять пользователю интерактивный, глобальный обзор документа в какой-либо из этих форм:²⁾

В форме иерархической структуры, показывающей внутреннее устройство документа. ³⁾
Как набор маленьких изображений, олицетворяющих каждую страницу в документе в форме миниатюры.⁴⁾

Каждый элемент структуры или каждая миниатюра может быть связана с соответствующим пунктом_назначения в документе, в смысле, пользователь может попасть прямо в пункт_назначения с помощью клика мыши. ⁵⁾

Раздел 8.2.1 вы можете найти здесь, так как он слишком объемный.

Стабильность: Добавлено в версии 1.10, будет существовать в будущих 1.х выпусках.

bottom

Read-only property accessing the bottom vertical coordinate.

Возвращает:	A number, or None if not available.

left

Read-only property accessing the left horizontal coordinate.

Возвращает:	A number, or None if not available.

page

Read-only property accessing the destination page.

Возвращает:	An integer.

right

Read-only property accessing the right horizontal coordinate.

Возвращает:	A number, or None if not available.

title

Read-only property accessing the destination title.

Возвращает:	A string.

top

Read-only property accessing the top vertical coordinate.

Возвращает:	A number, or None if not available.

typ

Read-only property accessing the destination type.

Возвращает:	A string.

zoom

Read-only property accessing the zoom factor.

Возвращает:	A number, or None if not available.

Класс DocumentInformation

DocumentInformation() (класс)

Класс предоставляет элементарные метаданные, содержащиеся в PDF файле.

По состоянию на pyPDF v1.10, все текстовые свойства метаданных документа имеют два свойства свойства класса, например author и author_raw. Не-raw свойство всегда возвращает TextStringObject, делая его идеальным в случае, если нужно отобразить метаданные. Raw-свойство может иногда возвращать ByteStringObject, если pyPDF не в состоянии определить кодировку текстовой строки; это требует дополнительной аккуратности от разработчика и, как следствие, редкого использования.

author

Read-only свойство, дающее доступ к автору документа.

Возвращает:	Unicode-строку , или `None`, если автор не указан в документе.

Добавлено в версии 1.6, будет существовать в будущих 1.х выпусках. Модифицировано в версии 1.10, чтобы всегда возвращалась строка в unicode (TextStringObject).

creator

Read-only свойство, дающее доступ к создателю документа. Если документ был сконвертирован в PDF из другого формата, то это имя приложения (например, OpenOffice), которое сделало оригинальный документ, из которого данный был сконвертирован.

Возвращает:	Unicode-строку, или `None` если создатель не указан в документе.

producer

Read-only свойство, дающее доступ к создателю документа. Если документ был сконвертирован в PDF из другого формата, то это имя приложения (например, OSX Quartz), которое сконвертировало оригинальный документ в PDF.

Возвращает:	Unicode-строку, или `None` если производитель не указан в документе.

subject

Read-only свойство, дающее доступ к теме документа.

Возвращает:	Unicode-строку, или `None` если тема не указана в документе.

Добавлено в версии 1.6, будет существовать в будущих 1.х выпусках. Модифицировано в версии 1.10, чтобы всегда возвращалась строка в unicode

title

Read-only свойство, дающее доступ к заголовку документа.

Возвращает:	Unicode-строку, или `None` если заголовок не указан в документе.

Класс PageObject

PageObject(pdf) (класс)

This class represents a single page within a PDF file. Typically this object will be created by accessing the {@link #PdfFileReader.getPage getPage} function of the {@link #PdfFileReader PdfFileReader} class.

artBox

A rectangle (RectangleObject), expressed in default user space units, defining the extent of the page's meaningful content as intended by the page's creator.

Стабильность:

Added in v1.4, will exist for all future v1.x releases.

bleedBox

A rectangle (RectangleObject), expressed in default user space units, defining the region to which the contents of the page should be clipped when output in a production enviroment.

Стабильность:

Added in v1.4, will exist for all future v1.x releases.

compressContentStreams()

Compresses the size of this page by joining all content streams and applying a FlateDecode filter.

Стабильность:

Added in v1.6, will exist for all future v1.x releases. However, it is possible that this function will perform no action if content stream compression becomes «automatic» for some reason.

cropBox

A rectangle (RectangleObject), expressed in default user space units, defining the visible region of default user space. When the page is displayed or printed, its contents are to be clipped (cropped) to this rectangle and then imposed on the output medium in some implementation-defined manner. Default value: same as MediaBox.

Стабильность:

Added in v1.4, will exist for all future v1.x releases.

extractText()

Locate all text drawing commands, in the order they are provided in the content stream, and extract the text. This works well for some PDF files, but poorly for others, depending on the generator used. This will be refined in the future. Do not rely on the order of text coming out of this function, as it will change if this function is made more sophisticated.

Возвращает:	a unicode string object
Стабильность:	Added in v1.7, will exist for all future v1.x releases. May be overhauled to provide more ordered text in the future.

mediaBox

A rectangle (RectangleObject), expressed in default user space units, defining the boundaries of the physical medium on which the page is intended to be displayed or printed.

Стабильность:

Added in v1.4, will exist for all future v1.x releases.

mergePage(page2)

Merges the content streams of two pages into one. Resource references (i.e. fonts) are maintained from both pages. The mediabox/cropbox/etc of this page are not altered. The parameter page's content stream will be added to the end of this page's content stream, meaning that it will be drawn after, or «on top» of this page.

page2	An instance of {@link #PageObject PageObject} to be merged into this one.
Стабильность:	Added in v1.4, will exist for all future 1.x releases.

rotateClockwise(angle)

Rotates a page clockwise by increments of 90 degrees.

angle	Angle to rotate the page. Must be an increment of 90 deg.
Стабильность:	Added in v1.1, will exist for all future v1.x releases.

rotateCounterClockwise(angle)

Rotates a page counter-clockwise by increments of 90 degrees.

angle	Angle to rotate the page. Must be an increment of 90 deg.
Стабильность:	Added in v1.1, will exist for all future v1.x releases.

trimBox

A rectangle (RectangleObject), expressed in default user space units, defining the intended dimensions of the finished page after trimming.

Стабильность:

Added in v1.4, will exist for all future v1.x releases.

Класс PdfFileReader

PdfFileReader(stream) (class)

Инициализирует PdfFileReader объект. Данная операция может занять некоторое время, пока таблицы перекрестных ссылок считываются из stream в память. ⁶⁾

stream	Объект, поддерживающий стандартные методы read и seek подобно файловому объекту.

Стабильность: Добавлено в версии 1.0. Будет существовать во всех 1.х выпусках.

decrypt(password)

Когда используется зашифрованный/защищенный PDF файл со стандартным обработчиком шифрования, эта функция позволит дешифровать файл. Она проверяет переданный пароль на соответствие «пользовательскому» и «паролю владельца», и сохраняет полученный ключ для дешифровки, если какой-либо пароль подошел.

Неважно какой пароль подошел. Оба пароля предлагают верный ключ дешифровки, который позволит использовать документ с помощью этой библиотеки.

password	Пароль пользователя или владельца.
Возвращает:	0 при неверном пароле, 1 при совпадении с паролем пользователя и 2 при совпадении с паролем владельца.
Генерирует исключение	NotImplementedError: Документ использует неизвестный метод шифрования.

Стабильность: Добавлено в версии 1.8. Будет существовать во всех 1.х выпусках.

documentInfo

Read-only свойство, которое предоставляет доступ к функции getDocumentInfo.

Стабильность: Добавлено в версии 1.7. Будет существовать во всех 1.х выпусках.

getDocumentInfo()

Извлекает информационный словарь из PDF документа, если такой существует. Заметьте, что некоторые файлы используют потоки метаданных вместо информационных словарей, и эти потоки не будут доступны с помощью этой функции.

Возвращает экземпляр DocumentInformation или None, если ничего не существует.

Возвращает:	Returns a {@link #DocumentInformation DocumentInformation} instance, or None if none exists.

Стабильность: Добавлено в версии 1.6. Будет существовать во всех 1.х выпусках.

getNamedDestinations(tree=None, retval=None)

Retrieves the named destinations present in the document.

Возвращает:	Returns a dict which maps names to {@link #Destination destinations}.

Стабильность: Добавлено в версии 1.10. Будет существовать во всех 1.х выпусках.

getNumPages()

Подсчитывает количество страниц в данном PDF файле.

Возвращает:	Целое число.

Стабильность: Добавлено в версии 1.0. Будет существовать во всех 1.х выпусках.

getOutlines(node=None, outlines=None)

Retrieves the document outline present in the document.

Возвращает:	Returns a nested list of {@link #Destination destinations}.

Стабильность: Добавлено в версии 1.10. Будет существовать во всех 1.х выпусках.

getPage(pageNumber)

Извлекает страницу с определенным номером из PDF файла.

pageNumber	Номер извлекаемой страницы.
Возвращает:	Экземпляр класса PageObject

Стабильность: Добавлено в версии 1.0. Будет существовать во всех 1.х выпусках.

isEncrypted

Read-only boolean property showing whether this PDF file is encrypted. Note that this property, if true, will remain true even after the {@link #PdfFileReader.decrypt decrypt} function is called.

namedDestinations

Read-only property that accesses the {@link #PdfFileReader.getNamedDestinations getNamedDestinations} function.

Стабильность: Добавлено в версии 1.10. Будет существовать во всех 1.х выпусках.

numPages

Read-only property that accesses the {@link #PdfFileReader.getNumPages getNumPages} function.

Стабильность: Добавлено в версии 1.7. Будет существовать во всех 1.х выпусках.

outlines

Read-only property that accesses the {@link #PdfFileReader.getOutlines getOutlines} function.

Стабильность: Добавлено в версии 1.10. Будет существовать во всех 1.х выпусках.

pages

Read-only property that emulates a list based upon the {@link #PdfFileReader.getNumPages getNumPages} and {@link #PdfFileReader.getPage getPage} functions.

Стабильность: Добавлено в версии 1.7. Будет существовать во всех 1.х выпусках.

Класс PdfFileWriter

PdfFileWriter() (class)

Этот класс поддерживает запись PDF объектов на диск, которые сделаны классом PdfFileReader.

addPage(page)

Добавляет страницу к этому PDF файлу. Страница обычно получена от экземпляра PdfFileReader.

page	Страницу, которую нужно добавить к документу. Аргумент должен быть экземпляром класса PageObject

Стабильность: Добавлено в версии 1.0. Будет существовать во всех 1.х выпусках.

encrypt(user_pwd, owner_pwd=None, use_128bit=True)

Шифрует данный PDF файл с помощью стандартного обработчика шифрования PDF. ⁷⁾

user_pwd	«Пароль пользователя», который позволяет открывать и читать PDF файл с предусмотренными ограничениями.
owner_pwd	«Пароль владельца», который позволяет открывать PDF файл без каких либо ограничений. По умолчанию пароль владельца такой же как и пароль пользователя.
use_128bit	Логический аргумент относительно использования 128-битного шифрования. Когда `false`, будет использовано 40-битное шифрование . По умолчанию этот флаг активирован.

write(stream)

Записывает коллекцию страниц, добавленных а объект для вывода, как PDF файл.

stream	Объект, в который нужно записать PDF файл. Объект должен поддерживать `write` и `tell` методы подобно файловым объектам.

Стабильность: Добавлено в версии 1.0. Будет существовать во всех 1.х выпусках.

Раздел 8.2.1 из спецификации PDF

pypdf documentation

¹⁾

See section 8.2.1 of the PDF 1.6 reference.

²⁾

The features described in this section allow a PDF viewer application to present the user with an interactive, global overview of a document in either of two forms:

³⁾

As a hierarchical outline showing the document’s internal structure

⁴⁾

As a collection of thumbnail images representing the pages of the document in miniature form

⁵⁾

Each item in the outline or each thumbnail image can be associated with a corresponding destination in the document, so that the user can jump directly to the destination by clickingwith the mouse.

⁶⁾

This operation can take some time, as the PDF stream's cross-reference tables are read into memory.

⁷⁾

В оригинале: (PDF Standard encryption handler)