Member 13976944 Ответов: 1

Какая программа может позволить мне быстро выполнить поиск по 20000 страницам текста в 700 PDF-файлах?


- Привет! Я исследователь, и у меня есть база данных примерно из 20 000 страниц в 700+ PDF-файлах. PDF-файлы доступны для поиска на рудиментарном уровне, но мне нужен инструмент кодирования (crawler?) это могло бы быстро обыскать их. Кроме того, было бы здорово, если бы программное обеспечение могло отфильтровывать шум, визуализировать результаты и агрегировать данные. Есть какие-нибудь предложения по уже существующему программному обеспечению или где взять что-то индивидуальное?

Что я уже пробовал:

Я заглянул в OCR, но это не совсем то, что я ищу? Я хочу что-то более похожее платформы Kibana.

RedDk

Почему именно Кибана, раз уж вы об этом заговорили?

1 Ответов

Рейтинг:
0

Gerry Schmitz

Вы говорите "ETL" (извлечение; перевод; загрузка).

Вы все еще находитесь только в фазе "извлечения"; остальное (фильтр, агрегат, визуализация) приходит только "после".

Вам нужно быть более конкретным в отношении "содержания".

"Простой" "текстовый" сканер может занять несколько минут для разработки и еще меньше для запуска.

(PDF-файлы могут содержать "текст")

http://www.antlr.org/

Как только вы получили (правильные) "сырые" данные, вы можете начать "перевод" / фильтрацию.