Разбор неструктурированных PDF-данных...
У меня есть проект, чтобы прочитать содержание 10-15 различных заявлений поставщиков, которые находятся в формате PDF и имеют разные макеты. Я предполагаю, что мне придется написать 15 различных парсеров, чтобы захватить информацию, поместить ее в структурированный формат и сохранить в базе данных. Я знаю, что существует много различных API PDF to text, но хотел бы получить представление о том, сделали ли это другие и лучшие методы. Я свободно владею Java/C# / Python. У кого-нибудь есть мудрость, чтобы предложить?
Спасибо,
Кейси
Что я уже пробовал:
Посмотрел на фреймворк PDFTools, несколько библиотек c# и python.
David_Wimbley
Мне приходилось делать подобные вещи со страховыми тарифами. В итоге я просто использовал itextsharp и написал Парсеры для конкретных документов носителей.
Вероятно, это не то, что вы искали, но если это одноразовая вещь, то, возможно, не стоит тратить усилия на поиск какой-то фантазии/он изучает документ и сам находит решение типа, когда может быть быстрее просто закодировать 15 парсеров. Конечно, я ничего не знаю о документах, сложности или количестве раз, когда вы можете запустить это или добавить новые заявления поставщика. Только мои мысли.