Member 13334317 Ответов: 0

Разбор неструктурированных PDF-данных...

У меня есть проект, чтобы прочитать содержание 10-15 различных заявлений поставщиков, которые находятся в формате PDF и имеют разные макеты. Я предполагаю, что мне придется написать 15 различных парсеров, чтобы захватить информацию, поместить ее в структурированный формат и сохранить в базе данных. Я знаю, что существует много различных API PDF to text, но хотел бы получить представление о том, сделали ли это другие и лучшие методы. Я свободно владею Java/C# / Python. У кого-нибудь есть мудрость, чтобы предложить?

Спасибо,
Кейси

Что я уже пробовал:

Посмотрел на фреймворк PDFTools, несколько библиотек c# и python.

PDF разбор Источник

David_Wimbley

Мне приходилось делать подобные вещи со страховыми тарифами. В итоге я просто использовал itextsharp и написал Парсеры для конкретных документов носителей.

Вероятно, это не то, что вы искали, но если это одноразовая вещь, то, возможно, не стоит тратить усилия на поиск какой-то фантазии/он изучает документ и сам находит решение типа, когда может быть быстрее просто закодировать 15 парсеров. Конечно, я ничего не знаю о документах, сложности или количестве раз, когда вы можете запустить это или добавить новые заявления поставщика. Только мои мысли.

Разбор неструктурированных PDF-данных...

David_Wimbley

0 Ответов

Категории

Недавние ответы

Изменение источника данных (базы данных) программно

Проблема при попытке вставить данные: ошибка при преобразовании типа данных nvarchar в числовой.

Может ли кто-нибудь, пожалуйста, сказать мне, как я практичен в жизненном цикле страницы .NET

C# get и set ? любая помощь ценится!

Как получить список ip-адресов пользователей, подключенных к моему Wi-Fi