Hassan Jide Hassan Ответов: 1

Как удалить стоп-слова из текстового файла и показать количество совпадений слов между документами


Проблема с Java здесь, пожалуйста. У меня есть два текстовых файла. Один содержит длинный список стоп-слов, а другой файл содержит множество абзацев (корпус). Я читаю ранее указанные стоп-слова и удаляю эти стоп-слова из другого файла, в котором много абзацев, и указываю количество совпадающих слов и сколько раз стоп-слова были найдены в корпусе. После удаления стоп-слов из основного документа я сохраняю (записываю) его в другой новый текстовый файл. Я пытался придумать, как это сделать, но ничего не добился. Я застрял в том, как это сделать. Я хотел написать это на java. Помощь очень ценится.

Что я уже пробовал:

Я попытался перейти по этой ссылке, но застрял

java-как удалить определенную строку в текстовом файле? - переполнение стека[^]

1 Ответов

Рейтинг:
1

Peter Leow

Попробуйте следующий подход:
1. Прочитайте в списке стоп-слова и сохраните их в Карта (Java Platform SE 7 )[^] с стоп-словом в качестве ключа и его отсчетом в качестве значения, начинающегося с 0. Увеличьте значение на единицу всякий раз, когда это стоп-слово будет найдено в корпусе.
2. прочитайте текстовый файл корпуса строка за строкой, для каждой строки отсканируйте все стоп-слова, хранящиеся в качестве ключей в коллекции карт, созданной на шаге 1, удалите их из этой строки и сохраните эту строку в новом текстовом файле, чтобы не забыть увеличить количество стоп-слов, найденных в коллекции карт.
Что касается кодирования, спросите Google, так как у него есть много примеров, в частности, ищите манипуляции со строками и файловый ввод-вывод.