Member 13898361 Ответов: 1

Извлечение ключа и связанного с ним значения из заказа на покупку (PDF-файл) с помощью Python


Версия Python: 3

Входные данные: PDF-файл, содержащий пример ввода заказа на покупку: http://gem.compaq.com/gemstore/sites/downloads/SLED_PO_Template.pdf

Примечание: это пустой формат образца заказа на покупку, фактический формат может отличаться. В реальном времени pdf не может быть пустым.

Желаемый результат - получить имя ключа и его значение из pdf-файла.

Пример Вывода:

PO number: его значение в формате pdf (то же самое для других ключей)

Вопрос: Как извлечь имя ключа и соответствующие ему данные значения из данного pdf-файла?

Что я уже пробовал:

Попробовал tabula-py, pdfminer2, pdftotext, OCR, pdf2json.
Но главная проблема, с которой я сталкиваюсь, заключается в том, чтобы соотнести ключ с его истинной ценностью.

Richard MacCutchan

На самом деле это не проблема программирования. Ответ зависит от структуры PDF-файла и того, как эти элементы могут быть распознаны и связаны между собой.

1 Ответов

Рейтинг:
0

Gerry Schmitz

"Сбросьте" PDF-файл в текстовый файл.

Если PDF содержит "разметку", которая идентифицирует PO# (если вы можете найти ее с помощью "найти" в тексте), то вы можете использовать эту "разметку", чтобы найти PO# в других документах.

Понимание портативного формата документа (PDF) - PrintMyFolders[^]