Dieses Repositorium enthält die für den Aufbau meines Futurkorpus verwendeten Skripte. Die (Volltext-) Daten können insgesamt nicht zur Verfügung gestellt werden, als Beispieldaten liegen zwei Folgen des Corona-Podcast im Ordner CoronaKorpus_txtFiles/Podcast.
| Dateiname | Erläuterung |
|---|---|
| 1_korpus_reproduzieren.ipynb | Crawlt die URL-Liste, speichert einzelne txt-Files und erstellt eine Übersichtsdatei über die abgespeicherten Texte. |
| 2_get_dates.ipynb | Ermittelt die Veröffentlichungsdaten für die Texte, ergänzt diese in der Übersichtsdatei. |
| 3_preprocessing_podcast.ipynb | Vorbereiten der Podcast Texte |
| 4_future_finder.ipynb | Vergibt einen Future-Score nachdem Texte ausgewählt werden. Greift zu auf stop_words_german.txt |
| 5_make_conlluplus.ipynb | Erstellt Conlluplus Dateien aus Texten (für die Anwendung des COAST-Taggers) |
| 6_make_annofiles.ipynb | Erstellt Annotationsdateien aus ausgewählten Texten : Teilsatztokenisierung, TMV Tagging. Greift zu auf tmv_functions.ipynb und seinVerbs.txt |
| tmv_functions.ipynb | Enthält Funktionen zur Satztokenisierung, zum TMV Tagging und zur Verbesserung der Lemmatisierung aus SpaCy. |
| seinVerbs.txt | Liste von Verben, die Perfekt mit sein bilden |
| stop_words_german.txt | German stop word list |
| requirements.txt | Benötigte Pakete |