Ten projekt pokazuje jak zmierzyć rozrzut semantyczny fraz wygenerowanych z Google Autocomplete, na przykładzie hasła „kredyt hipoteczny”.
Wizualizacja pozwala zrozumieć, które zapytania są blisko głównego tematu (core), a które zaczynają dryfować semantycznie (drift), co jest szczególnie przydatne w SEO, NLP i analizie intencji użytkowników.
- Wczytuje frazy z pliku
.jsonl(z Google Autocomplete) - Generuje embeddingi fraz lokalnym modelem
- Oblicza odległość każdej frazy od centroidu (średniego embeddingu)
- Dzieli frazy na:
core– bardzo zbliżone do głównego tematusemi– pobocznedrift– semantycznie odklejone
- Tworzy wykres PCA w 2D
Zainstaluj zależności:
pip install -r requirements.txt
Uruchamiaj po kolei pliki 1,2,3.py - jeśli masz ochotę wrzuć je jako pipeline poprzez np. orkiestrator main.py