Как использовать record linkage toolkit для сравнения строковых векторов?
Я реализовал этот код:
dfA = pd.read_csv(args.file,index_col="Full_url",sep=",",engine='c',skipinitialspace=True, encoding='utf-8',dtype={ "City": object,"Country": object,"State": object,"Email": object,"Identifier": object,"Family": object,"Given": object,"Prefix": object,"Suffix": object,"Phone": object}) indexer = rl.Index() indexer.add(Full()) candidate_links = indexer.index(dfA) compare_cl = rl.Compare() compare_cl.exact('Identifier', 'Identifier', label='Identifier') compare_cl.string('City', 'City', method='jarowinkler', threshold=0.85, label='City') compare_cl.string('Country', 'Country', method='jarowinkler', threshold=0.85, label='Country') compare_cl.string('State', 'State', method='jarowinkler', threshold=0.85, label='State') compare_cl.string('Email', 'Email', method='damerau_levenshtein', threshold=0.80, label='Email') compare_cl.string('Family', 'Family', method='jarowinkler', threshold=0.80, label='Family') compare_cl.string('Given', 'Given', method='jarowinkler', threshold=0.80, label='Given') compare_cl.string('Prefix', 'Prefix', method='jarowinkler', threshold=0.80, label='Prefix') compare_cl.string('Suffix', 'Suffix', method='jarowinkler', threshold=0.80, label='Suffix') compare_cl.exact('Phone', 'Phone', label='Phone') features = compare_cl.compute(candidate_links, dfA)
Однако, У меня есть проблема, потому что столбец "семья" - это вектор имен с переменной длиной.
Например, регистр может быть: Семья=Даниэль||Алекс||Джон||Феликс
Элементы вектора всегда разделяются символом "||". Могу ли я сравнить столбец "семья" как вектор? Как я могу указать характер разделения?
Спасибо.
Что я уже пробовал:
I have' tried nothing because i can't find a viable solution.