Deduplication at Scale

Benchmarking scalable deduplication techniques across text and code datasets.

Environment: Single-machine CPU demo for pretraining data hygiene.

Method	Scale	Text Runtime (s)	Code Runtime (s)	Agreement vs Baseline	Speed-up
Jaccard	1K	12.7	3.7	100%	1×
MinHash–LSH	10K	123.2	33.8	≈100%	10–40×
SimHash–LSH	100K	1452.9	447.9	>98%	80–100×

Baseline = exact Jaccard at 1K/10K, plain LSH at 100K.

Configs

Methods

Environment:

python -m venv .venv && source .venv/bin/activate
pip install -r requirements.txt

Build data:

python dataset.py

Exact dedup:

python methods/exact.py

Evaluate:

python evals.py

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
docs		docs
methods		methods
README.md		README.md
dataset.py		dataset.py
evals.py		evals.py
requirements.txt		requirements.txt