Алгоритм Minhash в Python
Может ли кто-нибудь помочь мне понять минхаш GitHub - chrisjmccormick/MinHash: пример кода Python для сравнения документов с использованием MinHash[^- пожалуйста ?!
1 - какова цель использования ряда файлов,таких как article_100, article_1000, article_10000 и т.д...
2 - Как добавить идентификатор типа t1039 в файл ?? вручную или как???
3 - Как сравнить между собой документы ?? использование определенных слов в документе или весь документ( с полной длиной) будет сравниваться с другим ???
Что я уже пробовал:
articles_100.поезд
articles_100.правда
-----
-----
-----