O presente programa tem como objetivo validar a biblioteca FuzzySharp https://github.com/BoomTownRoi/BoomTown.FuzzySharp.
Para isso foi utilizado, como parâmetro, a implementaçao da biblioteca original em python, a qual considera um dataset com base em nomes de hóteis.
Artigo base - https://towardsdatascience.com/natural-language-processing-for-fuzzy-string-matching-with-python-6632b7824c49
O DataSet utilizado foi importado do site http://www.dados.gov.br/dataset/alunos, sendo utilizada a base 2020/1. Foi utilizada somente a coluna de nome e criada uma nova coluna hipotética com uma amostragem dos nomes com acentuações.
Resultados da implementação em Python - https://github.com/susanli2016/NLP-with-Python/blob/master/Fuzzy%20String%20Matching.ipynb
Alguns links úteis quanto ao percentual ideal de match a ser considerado:
https://stackoverflow.com/questions/4086442/fuzzy-matching-with-threshold-filter-c-sharp https://stackoverflow.com/questions/17740833/checking-fuzzy-approximate-substring-existing-in-a-longer-string-in-python https://stackoverflow.com/questions/41178817/matching-string-using-levenshtein-distance-and-euristics https://stackoverflow.com/questions/5859561/getting-the-closest-string-match