Какая программа может позволить мне быстро выполнить поиск по 20000 страницам текста в 700 PDF-файлах?
- Привет! Я исследователь, и у меня есть база данных примерно из 20 000 страниц в 700+ PDF-файлах. PDF-файлы доступны для поиска на рудиментарном уровне, но мне нужен инструмент кодирования (crawler?) это могло бы быстро обыскать их. Кроме того, было бы здорово, если бы программное обеспечение могло отфильтровывать шум, визуализировать результаты и агрегировать данные. Есть какие-нибудь предложения по уже существующему программному обеспечению или где взять что-то индивидуальное?
Что я уже пробовал:
Я заглянул в OCR, но это не совсем то, что я ищу? Я хочу что-то более похожее платформы Kibana.
RedDk
Почему именно Кибана, раз уж вы об этом заговорили?