Member 14171998 Ответов: 0

Как лучше всего сделать экспертную систему в R, читающую технические отчеты из PDF-файлов, идентифицирующую автора(ов) по ключевым словам?

Привет, народ. Я новичок в языке R.
У меня есть следующая проблема: из многих PDF-файлов, содержащих технические отчеты (на португальском языке) от многих авторов (все на естественном языке), как я могу разработать интеллектуальную систему для идентификации имени автора(ов) по вводу небольшого набора ключевых слов, которые почти совпадают с их работами?

Я, например, знаю, что читать и начать обрабатывать этот текст в R можно использовать следующую строку кода: (где yyyyyyyyyyyyyy-это URL-адрес или путь к диску где мой PDF-файл, например. ХХХ.формат PDF)

install.packages("pdftools")
библиотека(pdftools)
скачать.file("yyyyyyyyyyyyyy / XXX.pdf", "./XXX.pdf")
text <- pdt_text("./XXX.pdf")

Я знаю, что мне нужно будет сделать НЛП (обработку естественного языка) отсюда, но как это лучше всего сделать? Понадобится ли мне использовать онтологию?
После этого, после структурированной обработки этого текста, как я могу разработать интеллектуальную систему для идентификации имени автора(ов) по вводу небольшого набора ключевых слов, которые почти совпадают с их произведениями?

Спасибо за любую помощь

Что я уже пробовал:

Я попробовал прочитать текст на естественном языке внутри PDF-отчета, и он выглядит нормально, но после этого я не знаю, как действовать дальше.

искусственный интеллект НЛП Р Источник

Gerry Schmitz

Если PDF-файл зашифрован, то все это не принесет вам никакой пользы. И, R, в данном случае, выглядит как кувалда, чтобы убить блоху. Вы даже не выяснили, "что" идентифицирует "автора". Как только вы это сделаете, простой "текстовый читатель", вероятно, подойдет.

Как лучше всего сделать экспертную систему в R, читающую технические отчеты из PDF-файлов, идентифицирующую автора(ов) по ключевым словам?

Gerry Schmitz

0 Ответов

Категории

Недавние ответы

Изменение источника данных (базы данных) программно

Проблема при попытке вставить данные: ошибка при преобразовании типа данных nvarchar в числовой.

Может ли кто-нибудь, пожалуйста, сказать мне, как я практичен в жизненном цикле страницы .NET

C# get и set ? любая помощь ценится!

Как получить список ip-адресов пользователей, подключенных к моему Wi-Fi