Corpus

English text here

Corpus

Nesta sección podes acceder a distintos corpus de texto ou voz en galego (monolingües e multilingües), que poden ser adaptados para diferentes tarefas. Todos estes recursos poden ser descargados con licenzas libres a partir do noso site en Zenodo e Hugging Face. Zenodo é un repositorio aberto de uso xeral administrado polo CERN e desenvolvido no ámbito do programa europeo OpenAIRE: rede de repositorios, arquivos e periódicos de acceso aberto que apoia as políticas de acceso aberto na Europa. Hugging Face é unha plataforma que facilita o acceso, a reproducibilidade e a compartición de recursos para a investigación e a creación de tecnoloxías baseadas en IA.

Corpus de texto

Nos_CorpusNOS-GL (Macrocorpus)

CorpusNÓS é un corpus masivo para a lingua galega composto por 2.1 mil millóns palabras principalmente deseñado para adestrar modelos de linguaxe grandes. As fontes do corpus son variadas e representan unha ampla gama de xéneros.

O corpus está estruturado da seguinte maneira:

Subcorpus	Xénero	Nº de tokens	Nº de documentos
Datos obtidos mediante acordo de transferencia	Libros	7,255,784	104
	Artigos de investigación	2,665,351	664
	Prensa	124,253,084	224,419
	Gubernamental	245,897,880	654,505
	Contidos web	15,946,686	44,165
	Enciclopédico	4,799,214	47,396
	Subtotal	400,817,999	971,253

Subcorpus	Xénero	Nº de tokens	Nº de documentos
Datos públicos	Prensa e blogs	153,497,883	665,265
	Enciclopédico	57,164,848	184,628
	Web crawls	1,384,015,664	3,366,449
	Corpus de tradución	133,726,004	4,745,799
	Subtotal	1,728,404,399	8,777,514
	Total	2,129,222,398	9,748,767
Descarga (Zenodo)	https://zenodo.org/records/10687642

Seguindo esta estrutura, o corpus contén dúas carpetas para cada subcorpus e dentro de cada subcorpus, pódense atopar carpetas cos diferentes xéneros. Os ficheiros están en formato de texto plano (*.txt) e os documentos individuais dentro de cada ficheiro están separados por dous saltos de liña.

Nota: Algúns dos ficheiros referidos poden faltar nesta versión do corpus debido a acordos de transferencia pendentes e serán incluídos nunha versión futura do corpus en canto estean dispoñibles para a súa publicación.

Nota: Os seguintes subcorpus teñen diferentes licenzas que corresponden coas súas licenzas orixinais, tal e como se especifica no paper: TED2020 (CC BY–NC–ND 4.0), mC4 (Apache License 2.0), OSCAR (CC0).

Se usas o CorpusNÓS para o teu traballo, por favor, cita a seguinte publicación:

de-Dios-Flores, Iria, Silvia Paniagua Suárez, Cristina Carbajal Pérez, Daniel Bardanca Outeiriño, Marcos Garcia and Pablo Gamallo. 2024. CorpusNÓS: A massive Galician corpus for training large language models. Proceedings of the 16th International Conference on Computational Processing of Portuguese - ACL Anthology (Volume 1), 593-599.

https://aclanthology.org/2024.propor-1.66.pdf

Corpus orientados a tarefas

Deteción de entidades nomeadas (NER): Galician_NER
Análise de sentimento: sentimento-gl
Parallel Universal Dependencies: UD_Galician-PUD

Datasets para instrución de modelos

No repositorio Instruction datasets

Conxuntos de avaliación

Resposta múltiple: OpenbookQA, VeritasQA, ThruthfulQA
Comprensión textual: Belebele, XStoryCloze
Creación de resumos: summarization_gl
Habilidades xerativas: Calame
Habilidades matemáticas mgsm_gl
Resolución de tarefas: multi_lmentry
Razoamento no espazo físico: Global PIQA
Aceptabilidade lingüística: Galcola
Identificación de paráfrases: parafrases_gl, PAWS-gl
Inferencia lingüística: xnli_gl

Recoñecemento da fala (ASR)

Neste apartado describimos corpus de texto e voz aliñados que poden empregarse para adestrar ou avaliar sistemas de recoñecemento da fala (ASR). Para este fin, o material sonoro debe segmentarse e aliñarse co texto correspondente, tarefa que pode realizarse de forma manual ou automática (aliñamento forzado). A continuación detallamos os corpus en galego para ASR desenvolvidos dentro do Proxecto Nós.

Nos_ParlaSpeech-GL

Corpus de voz para ASR (texto e voz aliñados), con aliñamento automático, cun total de máis de 1600 horas, creado a partir das sesións plenarias celebradas no Parlamento de Galicia entre os anos 2015 e 2022.

O corpus divídese en dous subcorpus, “clean” e “other”, que constan de 1.196,92 horas (667.308 segmentos) e 477,71 horas (130.332 segmentos) respectivamente. Os segmentos incluídos en “clean” foron filtrados de acordo con varios criterios de calidade, mentres que o subcorpus “other” recolle os segmentos descartados neste filtrado.

Ademais, cada segmento asóciase co identificador do falante correspondente. Os metadatos dos distintos locutores, recollidos dentro do proxecto ParlaMint, pódense consultar nesta ligazón.

O corpus está dispoñible nos formatos STM e JSON, e os ficheiros de audio en formato WAV a 16 kHz e 16 bits.

Nos_TranscriSpeech-GL

Corpus de voz para ASR (texto e voz aliñados) de dominio variado, con transcrición e aliñamento manuais e cun total de 53 horas.

O corpus divídese en catro subcorpus temáticos: Conferencias, Entrevistas, Debates e Discursos.

Os ficheiros de audio contidos no corpus están dispoñibles en formato WAV a 44.1 kHz e 16 bits, e os ficheiros de texto aliñado en formato STM e TRF. Acompáñase o corpus dos metadatos para cada locutor e da guía empregada na realización das transcricións.

Nos_RG-Podcast-GL

Nos_RG-Podcast-GL é un corpus de 328 horas de voz e texto con transcrición e aliñamento automáticos en galego deseñado para tarefas de recoñecemento da fala (ASR). Este corpus inclúe 33 series de podcasts en galego organizadas en sete xéneros principais: cultura, sociedade, historia, igualdade, ciencia, humor e ficción. Na seguinte táboa recóllense o título, xénero, número de capítulos e duración total de cada programa.

O conxunto de datos está dividido en tres particións "train", "dev" e "test" que constan de 259,07 horas, 14,54 horas e 14,53 horas, respectivamente.

Nos_Telexornais-GL

Nos_Telexornais-GL é un corpus de máis de 1100 horas de voz e texto con transcrición e aliñamento automáticos en galego empregando o modelo Chirp2, deseñado para tarefas de recoñecemento da fala (ASR). Este corpus inclúe datos dos informativos da CRTVG dos anos 2019 e 2022, que se dispoñibilizan segundo os termos do acordo de cesión de datos asinado con esta institución.

O corpus divídese en dous subconxuntos, "clean" (662,17 horas) e "other" (509,93). Para garantir unha alta calidade das transcricións, comparouse a saída de Chirp2 coa de Whisper-large-v3-gl de Mozilla e incluíronse no subcorpus "clean" só aqueles segmentos cun WER inferior ao 15% entre modelos; os restantes pasaron ao subcorpus "other". Ademais, realizouse unha revisión manual para corrixir os erros máis graves.

Nome do Corpus	Lingua/s	Transcrición	Aliñamento	Detalles	Descargar (Zenodo)	Descargar (Hugging Face)
Nos_ParlaSpeech-GL	gl	Manual (Parlamento)	Forzado	~1.700 horas (~1M segmentos)	URL	URL
Nos_TranscriSpeech-GL	gl	Manual (ad-hoc)	Manual	53 horas (~40.000 segmentos)	URL	URL
Nos_RG-Podcast-GL	gl	Forzado (ad hoc)	Forzado	328 horas	Proximamente	URL
Nos_Telexornais-GL	gl	Forzado (ad hoc)	Forzado	~1.170 horas (~147.000 segmentos)	Proximamente	URL

Síntese de voz (TTS)

Neste apartado describimos corpus de voz deseñados para o adestramento de sistemas de síntese de voz (TTS) en galego. Para este fin, o texto a ser gravado debe ser coidadosamente seleccionado para ser balanceado e representativo, e as gravacións deben ser de alta calidade e sen ruídos. A continuación detallamos os corpus en galego para TTS desenvolvidos dentro do Proxecto Nós.

Nos_Celtia-GL

Corpus de voz monolingüe monolocutor para TTS cun total de 25 horas.

Nos_Celtia-GL é un corpus fonética e morfosintacticamente balanceado de 20.000 frases (aproximadamente 200.000 palabras) integrado por dous subcorpus: un corpus previo creado polo Grupo de Tecnoloxías Multimedia (GTM), en colaboración co Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH) e un corpus elaborado dentro do Proxecto Nós a partir de textos de dominio variado.

O corpus foi gravado nun ambiente controlado (estudio de gravación) por unha voz feminina profesional escollida entre catro locutoras a partir dun test perceptivo realizado por máis de 50 persoas con mostras de catro voces onde se valoraba a claridade, a entoación, a agradabilidade e o nivel de lingua.

Os arquivos de son están dispoñibles no mesmo formato da gravación orixinal: 48 kHz e 16 bits en formato WAV e teñen unha duración de aproximadamente 25 horas.

Nos_Brais-GL

Corpus de voz monolocutor para TTS en galego de aproximadamente 18 horas de discurso.

Nos_Brais-GL é un corpus fonética e morfosintacticamente balanceado de 16.121 frases (aproximadamente 168.000 palabras) que comprende tres subcorpus: frases seleccionadas dun corpus compilado polo Proxecto Nós a partir de textos multidominio e utilizados no corpus TTS Nos_Celtia-GL; frases seleccionadas dun corpus previamente compilado polo Grupo de Tecnoloxía Multimedia (GTM) e o Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH); e, finalmente, un subcorpus de 500 palabras foneticamente rico extraído do Dicionario de pronuncia da lingua galega.

Nos_Brais-GL foi gravado nun ambiente controlado (estudio de gravación) por un locutor profesional masculino seleccionado entre tres locutores mediante unha proba de escoita perceptiva na que 37 participantes avaliaron a claridade, a prosodia, a agradabilidade e o nivel de lingua.

Os arquivos de son están dispoñibles no formato de gravación orixinal (formato WAV de 48 kHz e 24 bits) e teñen unha duración aproximada de 18 horas.

Nome do Corpus	Lingua/s	Detalles	Descargar (Zenodo)	Descargar (Hugging Face)
Nos_Celtia-GL	gl	~25 horas (20.000 frases)	URL	URL
Nos_Brais-GL	gl	~18 horas (16.121 frases)	URL	URL

Tradución automática

Corpus bilingües paralelos que inclúen o galego

Neste apartado describimos corpus de traducións humanas (paralelos) que inclúen o galego. Existen dous tipos de corpus paralelos en galego: auténticos e sintéticos. Os primeiros son aqueles que foron realizados por humanos entre o galego e outra lingua, p.e. castelán ou inglés. E os segundos son aqueles transformados artificialmente desde outra variante ou lingua para o galego mediante o uso de diferentes técnicas (p.e. tradución de portugués a galego con transliteración). A continuación detallamos os diferentes corpus paralelos en galego liberados con licenzas libres no Proxecto Nós:

Nome do Corpus	Lingua/s	Auténtico / Sintético	Detalles	Descargar (Zenodo)
Nos_ES-GL_aut	es-gl	Auténtico	36M de oracións	URL
Nos_EN-GL_aut	en-gl	Auténtico	14M de oracións	URL
Nos_ES-GL_sin	es-gl	Sintético	35M de oracións	URL
Nos_EN-GL_sin	en-gl	Sintético	29M de oracións	URL

Nos_ES-GL-aut inclúe os seguintes subcorpus: ccmatrix, cluvi, gnome, kde, paracrawl, ubuntu, wikimedia, wikimatrix, opensubtitles-es-gl, ted2020, opensubtitles2018.
Nos_EN-GL_aut inclúe os seguintes subcorpus: ccmatrix, wikimatrix, cluvi.
Nos_ES-GL_sin inclúe os seguintes subcorpus: europarl-es-pt_gl, opensubtitles-es-pt_gl, dgt-es-pt_gl.
Nos_EN-GL_sin inclúe os seguintes subcorpus: opensub-en-pt_gl, europarl-en-pt_gl, opus-en-pt_gl, ted2020-en-pt_gl.

Corpus de avaliación

Nome do Corpus	Lingua/s	Detalles	Descargar (Zenodo)
Nos_MT_Gold-ES-GL_1	es-gl	1998 oracións	URL
Nos_MT_Gold-ES-GL_2	en-gl	1998 oracións	URL
Nos_MT_Gold-EN-GL_1	en-gl	1777 oracións	URL
Nos_MT_Gold-EN-GL_2	en-gl	1777 oracións	URL
Nos_MT_Test-suite-ES-GL	en-gl	334 oracións	URL
Nos_MT_Test-suite-EN-GL	en-gl	364 oracións	URL

Outros recursos

Corpus nun dominio específico:

Obtivéronse dous datasets de máis de 3000 pares de datos tabulares aliñados con comentarios descritivos, un para o castelán e outro para o galego. O corpus en galego é o primeiro corpus para sistemas Data-To-Text en galego coñecido. Estes datasets foron obtidos a partir da base de datos de MeteoGalicia que conta con datos meteorolóxicos dos últimos 10 anos e textos descritivos bilingües escritos polos expertos meteorólogos pertencentes á institución. Cada un dos datasets foi revisado e anotado manualmente para incrementar a súa calidade textual e editado para limitar as descricións a aqueles fenómenos relacionados directamente cos datos numéricos. Aqui podes acceder ao dataset.

Corpus de avaliación sintáctica:

Desenvolvéronse recursos públicos para a avaliación das capacidades sintácticas e semánticas de modelos de lingua para galego e portugués. As avaliacións tanto sintácticas como semánticas dos modelos neuronais do galego mostran que teñen desempeños similares a modelos equivalentes para outras linguas. Aqui podes acceder aos datasets (sintáctico e semántico) e aos modelos avaliados.

Corpus de composición semántica:

Dataset de avaliación semántica de expresións multipalabra en galego. A introdución deste dataset galego no evento SemEval 2022 (Task 2) permitiu que equipos internacionais traballasen no modelado semántico en galego. Aqui podes acceder ao dataset.

Corpus de frases con licenza CC0 (nos_gl_CC0):

Frases con licenza libre (CC0) en galego, recollidas co fin de alimentar o corpus textual de Mozilla Common Voice. Podes acceder ao corpus aquí.

Name		Name	Last commit message	Last commit date
Latest commit History 141 Commits
LICENSE		LICENSE
README.md		README.md
README_English.md		README_English.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Corpus

Corpus de texto

Nos_CorpusNOS-GL (Macrocorpus)

Corpus orientados a tarefas

Datasets para instrución de modelos

Conxuntos de avaliación

Recoñecemento da fala (ASR)

Nos_ParlaSpeech-GL

Nos_TranscriSpeech-GL

Nos_RG-Podcast-GL

Nos_Telexornais-GL

Síntese de voz (TTS)

Nos_Celtia-GL

Nos_Brais-GL

Tradución automática

Corpus bilingües paralelos que inclúen o galego

Corpus de avaliación

Outros recursos

Corpus nun dominio específico:

Corpus de avaliación sintáctica:

Corpus de composición semántica:

Corpus de frases con licenza CC0 (nos_gl_CC0):

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

Corpus

Corpus de texto

Nos_CorpusNOS-GL (Macrocorpus)

Corpus orientados a tarefas

Datasets para instrución de modelos

Conxuntos de avaliación

Recoñecemento da fala (ASR)

Nos_ParlaSpeech-GL

Nos_TranscriSpeech-GL

Nos_RG-Podcast-GL

Nos_Telexornais-GL

Síntese de voz (TTS)

Nos_Celtia-GL

Nos_Brais-GL

Tradución automática

Corpus bilingües paralelos que inclúen o galego

Corpus de avaliación

Outros recursos

Corpus nun dominio específico:

Corpus de avaliación sintáctica:

Corpus de composición semántica:

Corpus de frases con licenza CC0 (nos_gl_CC0):

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages