neveen neveen Ответов: 1

Алгоритм Minhash в Python


Может ли кто-нибудь помочь мне понять минхаш GitHub - chrisjmccormick/MinHash: пример кода Python для сравнения документов с использованием MinHash[^- пожалуйста ?!
1 - какова цель использования ряда файлов,таких как article_100, article_1000, article_10000 и т.д...
2 - Как добавить идентификатор типа t1039 в файл ?? вручную или как???
3 - Как сравнить между собой документы ?? использование определенных слов в документе или весь документ( с полной длиной) будет сравниваться с другим ???

Что я уже пробовал:

articles_100.поезд
articles_100.правда
-----
-----
-----

1 Ответов

Рейтинг:
0

Richard MacCutchan

Комментарии в исходном коде объясняют работу программы, а комментарий 3 содержит ссылку на алгоритм Minhash.


neveen neveen

да, но я не понимаю, как создать файл ".truth" и как указать сходство между каждой парой документов в этом файле ".truth"

Richard MacCutchan

Вам нужно изучить код, чтобы ответить на такие вопросы. Есть даже ссылка на блог автора, чтобы вы могли спросить ее или его.