Member 13976944 Ответов: 1

Какая программа может позволить мне быстро выполнить поиск по 20000 страницам текста в 700 PDF-файлах?

- Привет! Я исследователь, и у меня есть база данных примерно из 20 000 страниц в 700+ PDF-файлах. PDF-файлы доступны для поиска на рудиментарном уровне, но мне нужен инструмент кодирования (crawler?) это могло бы быстро обыскать их. Кроме того, было бы здорово, если бы программное обеспечение могло отфильтровывать шум, визуализировать результаты и агрегировать данные. Есть какие-нибудь предложения по уже существующему программному обеспечению или где взять что-то индивидуальное?

Что я уже пробовал:

Я заглянул в OCR, но это не совсем то, что я ищу? Я хочу что-то более похожее платформы Kibana.

база данных PDF данные OCR Источник

RedDk

Почему именно Кибана, раз уж вы об этом заговорили?

1 Ответов

Рейтинг:
0

Gerry Schmitz

Вы говорите "ETL" (извлечение; перевод; загрузка).

Вы все еще находитесь только в фазе "извлечения"; остальное (фильтр, агрегат, визуализация) приходит только "после".

Вам нужно быть более конкретным в отношении "содержания".

"Простой" "текстовый" сканер может занять несколько минут для разработки и еще меньше для запуска.

(PDF-файлы могут содержать "текст")

http://www.antlr.org/

Как только вы получили (правильные) "сырые" данные, вы можете начать "перевод" / фильтрацию.

Какая программа может позволить мне быстро выполнить поиск по 20000 страницам текста в 700 PDF-файлах?

RedDk

1 Ответов

Gerry Schmitz

Категории

Недавние ответы

Изменение источника данных (базы данных) программно

Проблема при попытке вставить данные: ошибка при преобразовании типа данных nvarchar в числовой.

Может ли кто-нибудь, пожалуйста, сказать мне, как я практичен в жизненном цикле страницы .NET

C# get и set ? любая помощь ценится!

Как получить список ip-адресов пользователей, подключенных к моему Wi-Fi