Member 14171998 Ответов: 0

Как лучше всего сделать экспертную систему в R, читающую технические отчеты из PDF-файлов, идентифицирующую автора(ов) по ключевым словам?


Привет, народ. Я новичок в языке R.
У меня есть следующая проблема: из многих PDF-файлов, содержащих технические отчеты (на португальском языке) от многих авторов (все на естественном языке), как я могу разработать интеллектуальную систему для идентификации имени автора(ов) по вводу небольшого набора ключевых слов, которые почти совпадают с их работами?

Я, например, знаю, что читать и начать обрабатывать этот текст в R можно использовать следующую строку кода: (где yyyyyyyyyyyyyy-это URL-адрес или путь к диску где мой PDF-файл, например. ХХХ.формат PDF)

install.packages("pdftools")
библиотека(pdftools)
скачать.file("yyyyyyyyyyyyyy / XXX.pdf", "./XXX.pdf")
text <- pdt_text("./XXX.pdf")

Я знаю, что мне нужно будет сделать НЛП (обработку естественного языка) отсюда, но как это лучше всего сделать? Понадобится ли мне использовать онтологию?
После этого, после структурированной обработки этого текста, как я могу разработать интеллектуальную систему для идентификации имени автора(ов) по вводу небольшого набора ключевых слов, которые почти совпадают с их произведениями?

Спасибо за любую помощь

Что я уже пробовал:

Я попробовал прочитать текст на естественном языке внутри PDF-отчета, и он выглядит нормально, но после этого я не знаю, как действовать дальше.

Gerry Schmitz

Если PDF-файл зашифрован, то все это не принесет вам никакой пользы. И, R, в данном случае, выглядит как кувалда, чтобы убить блоху. Вы даже не выяснили, "что" идентифицирует "автора". Как только вы это сделаете, простой "текстовый читатель", вероятно, подойдет.

0 Ответов