Извлечение ключа и связанного с ним значения из заказа на покупку (PDF-файл) с помощью Python
Версия Python: 3
Входные данные: PDF-файл, содержащий пример ввода заказа на покупку: http://gem.compaq.com/gemstore/sites/downloads/SLED_PO_Template.pdf
Примечание: это пустой формат образца заказа на покупку, фактический формат может отличаться. В реальном времени pdf не может быть пустым.
Желаемый результат - получить имя ключа и его значение из pdf-файла.
Пример Вывода:
PO number: его значение в формате pdf (то же самое для других ключей)
Вопрос: Как извлечь имя ключа и соответствующие ему данные значения из данного pdf-файла?
Что я уже пробовал:
Попробовал tabula-py, pdfminer2, pdftotext, OCR, pdf2json.
Но главная проблема, с которой я сталкиваюсь, заключается в том, чтобы соотнести ключ с его истинной ценностью.
Richard MacCutchan
На самом деле это не проблема программирования. Ответ зависит от структуры PDF-файла и того, как эти элементы могут быть распознаны и связаны между собой.