Извлечение заполняемых полей PDF в excel
У меня есть стопка из 4 PDF-форм, которые были заполнены. Это та же самая пустая форма, заполненная. Я хотел бы взять все PDF - файлы в папку.
Я хотел бы закончить с этим
а)файл Excel или
(b) файл переменных, разделенных запятыми, с кавычками вокруг записей ячеек или
(c) отдельный файл трубы "|"
(d) файл, разделенный табуляцией
любой из которых может быть использован в статистических пакетах.
Первая строка целевого файла будет содержать имена полей. Тогда будет 1 строка из каждого PDF-файла.
Что я уже пробовал:
Полтора года назад я разработал достаточно Python, чтобы получить данные в зашифрованном текстовом файле. Я сдался после того, как застрял в этом месте.
Скремблированный файл был очень похож на кучу Алгола середины 1970-х.
Я надеялся, что кто-то уже все уладил. Я хотел выяснить, было ли это так.
сделано, прежде чем прыгнуть обратно в него.
Я не вижу, как прикрепить файлы на этом форуме, но я могу предоставить PDF-файл, который не был заполнен, 4 PDF-файла, которые были заполнены, и пример того, что я хочу получить в конечном итоге.
RedDk
Откройте pdf - файл в Acrobat Pro и сохраните содержимое "таблицы" в формате XML. Этот формат можно импортировать непосредственно в электронную таблицу Excel с помощью самого приложения Excel (несколько версий разрешили это с тех пор, как Excel впервые вышел, и я не могу себе представить, что последняя инкарнация также не разрешила бы этого). Существует некоторое расхождение, когда речь заходит о чистом (sp) XML и MS-вкусе XML, поэтому будьте предупреждены, что повторная маркировка таблиц может быть поражена или пропущена. Также попробуйте Stackoverflow на словах Excel и XML ... и PDF тоже, верно?