Skip to content

LeSchnee/Futur

Repository files navigation

Futurkonstruktionen im Deutschen

Dieses Repositorium enthält die für den Aufbau meines Futurkorpus verwendeten Skripte. Die (Volltext-) Daten können insgesamt nicht zur Verfügung gestellt werden, als Beispieldaten liegen zwei Folgen des Corona-Podcast im Ordner CoronaKorpus_txtFiles/Podcast.

Dateiname Erläuterung
1_korpus_reproduzieren.ipynb Crawlt die URL-Liste, speichert einzelne txt-Files und erstellt eine Übersichtsdatei über die abgespeicherten Texte.
2_get_dates.ipynb Ermittelt die Veröffentlichungsdaten für die Texte, ergänzt diese in der Übersichtsdatei.
3_preprocessing_podcast.ipynb Vorbereiten der Podcast Texte
4_future_finder.ipynb Vergibt einen Future-Score nachdem Texte ausgewählt werden. Greift zu auf stop_words_german.txt
5_make_conlluplus.ipynb Erstellt Conlluplus Dateien aus Texten (für die Anwendung des COAST-Taggers)
6_make_annofiles.ipynb Erstellt Annotationsdateien aus ausgewählten Texten : Teilsatztokenisierung, TMV Tagging. Greift zu auf tmv_functions.ipynb und seinVerbs.txt
tmv_functions.ipynb Enthält Funktionen zur Satztokenisierung, zum TMV Tagging und zur Verbesserung der Lemmatisierung aus SpaCy.
seinVerbs.txt Liste von Verben, die Perfekt mit sein bilden
stop_words_german.txt German stop word list
requirements.txt Benötigte Pakete

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published