Member 12199293 Ответов: 1

Какие правильные шаги следует предпринять, чтобы обнаружить плагиат между 2 файлами?


я последний год учусь в Bca stuent, и мой проект-это обнаружение плагиата между 2 файлами .и я читал исследовательские работы по обнаружению плагиата, и я схожу с ума, делая это ... потому что есть много и разнообразие шагов, которые можно предпринять, и разнообразие алгоритмов, которые можно использовать. нет никакой конкретной статьи, которая давала бы подробное описание этого обнаружения плагиата..пожалуйста, помогите мне (я планирую использовать java и MySQL для базы данных)

Что я уже пробовал:

согласно информации, которую я получил из статьи, я попытался разбить абзац на предложения и подсчитать частоту ключевых слов... и я потерял представление о том, что именно нужно делать ...я все это делал на java

1 Ответов

Рейтинг:
0

Peter Leow

Вы можете рассмотреть возможность использования интеллектуального анализа текста (TM) для обнаружения сходства двух документов. Здесь невозможно вдаваться в подробности. Короче говоря, ТМ включает в себя, среди прочего, удаление ненужных или бессмысленных слов, таких как знаки препинания, стоп-слова, тривиальные слова, поиск синонимов и т. д. как способ преобразования неструктурированного текстового контента свободной формы в структурированные данные, которые могут быть использованы компьютером для машинного обучения любых паттернов с использованием соответствующих методов ИИ. Это предшественник интеллектуального анализа данных. Я даже не начал говорить здесь о кодировании.
Для начала вам следует записаться на некоторые модули искусственного интеллекта, esp Text Mining, в вашем колледже, чтобы подготовиться к такому проекту.
Для вашей справки Интеллектуальный анализ текста:современное состояние и проблемы[^]


Maciej Los

5ед!

Peter Leow

Спасибо, Мацей.

Member 12199293

спасибо Вам за ответ, очень ценю его.не могли бы вы дать мне несколько рекомендаций, чтобы я мог начать :)

Peter Leow

Проверьте это: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.428.8805&rep=rep1& type=pdf