Este proyecto se propone generar un corpus de textos literarios argentinos en dominio público. El objetivo principal del corpus es servir como herramienta para el desarrollo de análisis computacionales (estilometría, topic modelling,text-reuse, etc.) que iluminen la historia de la literatura argentina de los siglos XIX y XX.
En un principio estamos reuniendo materiales de diferentes fuentes:
- Proyecto Gutenberg https://drive.google.com/drive/folders/1UfwGp3g6kWeSgw_BlGD4pPOShVuQ1Sqz
– Cligs_Textbox (https://github.com/cligs/textbox). El grupo Computergestützte literarische Gattungsstilistik de la Universidad de Würzburg compiló una interesante colección de textos en diferentes lenguas, entre los cuales se incluye un grupo de textos argentinos.
- Academia Argentina de Letras, textos digitalizados en Wikimedia: https://commons.wikimedia.org/wiki/Category:Files_from_Academia_Argentina_de_Letras
– Biblioteca Digital del Patrimonio Iberoamerica: http://www.iberoamericadigital.net/es/Inicio/
– Wikisource: https://es.wikisource.org/wiki/Categor%C3%ADa:Autores_argentinos