Рейтинг:
0
Keith Barrow
Это в буквальном смысле большая задача. Ответ заключается в том, что вы не можете сделать это с помощью предложенной вами стратегии (проверки всех веб-сайтов):
Загрузка того, что мы имеем сейчас, займет много времени. Даже если вы возьмете метод загрузки и проверки, загрузки и проверки, к тому времени, когда вы закончите, многое изменится и потребуется проверить снова. Хуже того, будет добавлено больше материала, который вы сможете загрузить в то же время, так что это займет фактически бесконечное количество времени для обработки.
Поэтому вам нужно работать умно, а не усердно. Во-первых, вы можете сократить проблемный домен: проверять только сайты, связанные с вашей темой, вы можете использовать что-то вроде Google Custom Search API, чтобы уменьшить количество сайтов, которые вам нужно проверить. Во-вторых, вы также можете использовать что-то вроде API Google, чтобы найти текст в потенциально плагиированной статье, Чем более необычный текст, тем лучше, или посмотреть на тезисы. Вы можете использовать эвристический подход для улучшения производительности и результатов, но это будет сложно. К сожалению у Google есть ограничил свой API без оплаты[^] Даже с google вам будет трудно получить 100% охват или 100% точность (особенно если статья была переформулирована).
Наконец, вы можете посмотреть на существующие шашки плагиата(например, http://www.duplichecker.com/[^]), это полностью отнимет у вас тяжелую работу, но также вы потеряете интересную часть вашего проекта.
Sergey Alexandrovich Kryukov
Вы говорите об обнаружении совпадающего фрагмента текста, но это вряд ли помогает бороться с плагиатом. Это дало бы слишком много ложных отрицательных и ложных положительных результатов. Цитаты являются законными, если сделана надлежащая атрибуция, и большие фрагменты текста могут быть плагиированы путем введения крошечных различий. Кроме того, нет никаких критериев для определения того, какой текст является оригинальным, а какой-плагиатом.
--СА
Keith Barrow
Если Вы читаете мой текст, я в основном говорю ему, что грубая сила фактически невозможна, и все остальное, что он, вероятно, достигнет неточных результатов. Я ни в коем случае не говорил, что это даст надежный результат. Я ожидаю, что одинокий Дев, каким бы талантливым он ни был, вряд ли решит эту проблему.
Sergey Alexandrovich Kryukov
Я в принципе с этим согласен. Моя записка не была чем-то противоречащим вашей оценке; это просто еще один аспект, который следует принять во внимание. Даже если вам придется кодировать поиск текстовых совпадений, это не решит проблему.
--СА
nagiub2007
@Keith Barrow я буду искать этот api thanls много
Keith Barrow
IMO вы должны попытаться найти более простую проблему, если это университетский проект. Такие сайты, как Turnitin, будут иметь команды специализированных разработчиков, работающих со сложными алгоритмами, и они все равно не будут точными на 100%. Мне очень не нравится обескураживать разработчиков подобным образом, но важно сначала просмотреть проблемы, чтобы увидеть, выполнимы ли ваши цели . На мой взгляд, проверка плагиата будет слишком сложной задачей. Даже мои предложения-это только верхушка айсберга, это только снижает масштаб проблемы, одновременно увеличивая вероятность потери плагиата в процессе работы.
nagiub2007
большое спасибо, но это не университетский проект ,это связано с бизнесом
и действительно я хочу развивать этот сайт, даже мне нужно будет купить API или сервисы для этого.
кстати это кажется мне большим испытанием
моя проблема заключается в том, чтобы знать, как эти сайты сравнивают мой загруженный файл
а как получить все документы и сайты, когда сравнение произошло и все сделано в идеальное время, как??
Keith Barrow
Как же так? Если бы я знал это, я бы создал сайт для проверки плагиата :).
nagiub2007
хммм ...
спасибо за ваши усилия
nagiub2007
@Сергей Александрович Крюков
есть сайты делать это мы сами заинтересованы
я уже упоминал в своем вопросе, что хочу знать, как это сделали эти сайты