Futurkonstruktionen im Deutschen

Dieses Repositorium enthält die für den Aufbau meines Futurkorpus verwendeten Skripte. Die (Volltext-) Daten können insgesamt nicht zur Verfügung gestellt werden, als Beispieldaten liegen zwei Folgen des Corona-Podcast im Ordner CoronaKorpus_txtFiles/Podcast.

Dateiname	Erläuterung
1_korpus_reproduzieren.ipynb	Crawlt die URL-Liste, speichert einzelne txt-Files und erstellt eine Übersichtsdatei über die abgespeicherten Texte.
2_get_dates.ipynb	Ermittelt die Veröffentlichungsdaten für die Texte, ergänzt diese in der Übersichtsdatei.
3_preprocessing_podcast.ipynb	Vorbereiten der Podcast Texte
4_future_finder.ipynb	Vergibt einen Future-Score nachdem Texte ausgewählt werden. Greift zu auf stop_words_german.txt
5_make_conlluplus.ipynb	Erstellt Conlluplus Dateien aus Texten (für die Anwendung des COAST-Taggers)
6_make_annofiles.ipynb	Erstellt Annotationsdateien aus ausgewählten Texten : Teilsatztokenisierung, TMV Tagging. Greift zu auf tmv_functions.ipynb und seinVerbs.txt
tmv_functions.ipynb	Enthält Funktionen zur Satztokenisierung, zum TMV Tagging und zur Verbesserung der Lemmatisierung aus SpaCy.
seinVerbs.txt	Liste von Verben, die Perfekt mit sein bilden
stop_words_german.txt	German stop word list
requirements.txt	Benötigte Pakete

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Futurkonstruktionen im Deutschen

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
.ipynb_checkpoints		.ipynb_checkpoints
CoronaKorpus_txtFiles/Podcast		CoronaKorpus_txtFiles/Podcast
1_korpus_reproduzieren.ipynb		1_korpus_reproduzieren.ipynb
2_get_dates.ipynb		2_get_dates.ipynb
3_preprocessing_podcast.ipynb		3_preprocessing_podcast.ipynb
4_future_finder.ipynb		4_future_finder.ipynb
5_make_conlluplus.ipynb		5_make_conlluplus.ipynb
6_make_annofiles.ipynb		6_make_annofiles.ipynb
README.md		README.md
requirements.txt		requirements.txt
seinVerbs.txt		seinVerbs.txt
stop_words_german.txt		stop_words_german.txt
tmv_functions.ipynb		tmv_functions.ipynb

LeSchnee/Futur

Folders and files

Latest commit

History

Repository files navigation

Futurkonstruktionen im Deutschen

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages