pairwise-similarities

Code collection for comparative analysis of text similarity algorithms for detecting near duplicates in JavaDoc software documentation.

Folder structure

similarity: similarity algorithms.
helpers: functions for dataset generation and parsing, caching and similarity algorithm exhaustion.
datasets: source project files and generated datasets.
cache: cached similarities for the test dataset.
pipeline: segmentation and normalization functions.
metrics: functions for algorithm evaluation.
stats: evaluation results.
visualization: functions for result visualization.

Run one of the functions from the metrics folder, providing it with necessary datasets.

Name		Name	Last commit message	Last commit date
Latest commit History 94 Commits
cache		cache
data		data
helpers		helpers
metrics		metrics
pipeline		pipeline
similarities		similarities
stats		stats
visualization		visualization
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
d2v.ipynb		d2v.ipynb
d2v_kaggle.ipynb		d2v_kaggle.ipynb
f1.ipynb		f1.ipynb
kaggle.ipynb		kaggle.ipynb
playground.ipynb		playground.ipynb
siamx_train.ipynb		siamx_train.ipynb
unlabeled_stuff.ipynb		unlabeled_stuff.ipynb
результаты.txt		результаты.txt