English text here
Nesta sección podes acceder a distintos corpus de texto ou voz en galego (monolingües e multilingües), que poden ser adaptados para diferentes tarefas. Todos estes recursos poden ser descargados con licenzas libres a partir do noso site en Zenodo e Hugging Face. Zenodo é un repositorio aberto de uso xeral administrado polo CERN e desenvolvido no ámbito do programa europeo OpenAIRE: rede de repositorios, arquivos e periódicos de acceso aberto que apoia as políticas de acceso aberto na Europa. Hugging Face é unha plataforma que facilita o acceso, a reproducibilidade e a compartición de recursos para a investigación e a creación de tecnoloxías baseadas en IA.
CorpusNÓS é un corpus masivo para a lingua galega composto por 2.1 mil millóns palabras principalmente deseñado para adestrar modelos de linguaxe grandes. As fontes do corpus son variadas e representan unha ampla gama de xéneros.
O corpus está estruturado da seguinte maneira:
| Subcorpus | Xénero | Nº de tokens | Nº de documentos |
|---|---|---|---|
| Datos obtidos mediante acordo de transferencia | Libros | 7,255,784 | 104 |
| Artigos de investigación | 2,665,351 | 664 | |
| Prensa | 124,253,084 | 224,419 | |
| Gubernamental | 245,897,880 | 654,505 | |
| Contidos web | 15,946,686 | 44,165 | |
| Enciclopédico | 4,799,214 | 47,396 | |
| Subtotal | 400,817,999 | 971,253 |
| Subcorpus | Xénero | Nº de tokens | Nº de documentos |
|---|---|---|---|
| Datos públicos | Prensa e blogs | 153,497,883 | 665,265 |
| Enciclopédico | 57,164,848 | 184,628 | |
| Web crawls | 1,384,015,664 | 3,366,449 | |
| Corpus de tradución | 133,726,004 | 4,745,799 | |
| Subtotal | 1,728,404,399 | 8,777,514 | |
| Total | 2,129,222,398 | 9,748,767 | |
| Descarga (Zenodo) | https://zenodo.org/records/10687642 |
Seguindo esta estrutura, o corpus contén dúas carpetas para cada subcorpus e dentro de cada subcorpus, pódense atopar carpetas cos diferentes xéneros. Os ficheiros están en formato de texto plano (*.txt) e os documentos individuais dentro de cada ficheiro están separados por dous saltos de liña.
Nota: Algúns dos ficheiros referidos poden faltar nesta versión do corpus debido a acordos de transferencia pendentes e serán incluídos nunha versión futura do corpus en canto estean dispoñibles para a súa publicación.
Nota: Os seguintes subcorpus teñen diferentes licenzas que corresponden coas súas licenzas orixinais, tal e como se especifica no paper: TED2020 (CC BY–NC–ND 4.0), mC4 (Apache License 2.0), OSCAR (CC0).
Se usas o CorpusNÓS para o teu traballo, por favor, cita a seguinte publicación:
de-Dios-Flores, Iria, Silvia Paniagua Suárez, Cristina Carbajal Pérez, Daniel Bardanca Outeiriño, Marcos Garcia and Pablo Gamallo. 2024. CorpusNÓS: A massive Galician corpus for training large language models. Proceedings of the 16th International Conference on Computational Processing of Portuguese - ACL Anthology (Volume 1), 593-599.
https://aclanthology.org/2024.propor-1.66.pdf
- Deteción de entidades nomeadas (NER): Galician_NER
- Análise de sentimento: sentimento-gl
- Parallel Universal Dependencies: UD_Galician-PUD
No repositorio Instruction datasets
- Resposta múltiple: OpenbookQA, VeritasQA, ThruthfulQA
- Comprensión textual: Belebele, XStoryCloze
- Creación de resumos: summarization_gl
- Habilidades xerativas: Calame
- Habilidades matemáticas mgsm_gl
- Resolución de tarefas: multi_lmentry
- Razoamento no espazo físico: Global PIQA
- Aceptabilidade lingüística: Galcola
- Identificación de paráfrases: parafrases_gl, PAWS-gl
- Inferencia lingüística: xnli_gl
Neste apartado describimos corpus de texto e voz aliñados que poden empregarse para adestrar ou avaliar sistemas de recoñecemento da fala (ASR). Para este fin, o material sonoro debe segmentarse e aliñarse co texto correspondente, tarefa que pode realizarse de forma manual ou automática (aliñamento forzado). A continuación detallamos os corpus en galego para ASR desenvolvidos dentro do Proxecto Nós.
Corpus de voz para ASR (texto e voz aliñados), con aliñamento automático, cun total de máis de 1600 horas, creado a partir das sesións plenarias celebradas no Parlamento de Galicia entre os anos 2015 e 2022.
O corpus divídese en dous subcorpus, “clean” e “other”, que constan de 1.196,92 horas (667.308 segmentos) e 477,71 horas (130.332 segmentos) respectivamente. Os segmentos incluídos en “clean” foron filtrados de acordo con varios criterios de calidade, mentres que o subcorpus “other” recolle os segmentos descartados neste filtrado.
Ademais, cada segmento asóciase co identificador do falante correspondente. Os metadatos dos distintos locutores, recollidos dentro do proxecto ParlaMint, pódense consultar nesta ligazón.
O corpus está dispoñible nos formatos STM e JSON, e os ficheiros de audio en formato WAV a 16 kHz e 16 bits.
Corpus de voz para ASR (texto e voz aliñados) de dominio variado, con transcrición e aliñamento manuais e cun total de 53 horas.
O corpus divídese en catro subcorpus temáticos: Conferencias, Entrevistas, Debates e Discursos.
Os ficheiros de audio contidos no corpus están dispoñibles en formato WAV a 44.1 kHz e 16 bits, e os ficheiros de texto aliñado en formato STM e TRF. Acompáñase o corpus dos metadatos para cada locutor e da guía empregada na realización das transcricións.
Nos_RG-Podcast-GL é un corpus de 328 horas de voz e texto con transcrición e aliñamento automáticos en galego deseñado para tarefas de recoñecemento da fala (ASR). Este corpus inclúe 33 series de podcasts en galego organizadas en sete xéneros principais: cultura, sociedade, historia, igualdade, ciencia, humor e ficción. Na seguinte táboa recóllense o título, xénero, número de capítulos e duración total de cada programa.
O conxunto de datos está dividido en tres particións "train", "dev" e "test" que constan de 259,07 horas, 14,54 horas e 14,53 horas, respectivamente.
Nos_Telexornais-GL é un corpus de máis de 1100 horas de voz e texto con transcrición e aliñamento automáticos en galego empregando o modelo Chirp2, deseñado para tarefas de recoñecemento da fala (ASR). Este corpus inclúe datos dos informativos da CRTVG dos anos 2019 e 2022, que se dispoñibilizan segundo os termos do acordo de cesión de datos asinado con esta institución.
O corpus divídese en dous subconxuntos, "clean" (662,17 horas) e "other" (509,93). Para garantir unha alta calidade das transcricións, comparouse a saída de Chirp2 coa de Whisper-large-v3-gl de Mozilla e incluíronse no subcorpus "clean" só aqueles segmentos cun WER inferior ao 15% entre modelos; os restantes pasaron ao subcorpus "other". Ademais, realizouse unha revisión manual para corrixir os erros máis graves.
| Nome do Corpus | Lingua/s | Transcrición | Aliñamento | Detalles | Descargar (Zenodo) | Descargar (Hugging Face) |
|---|---|---|---|---|---|---|
| Nos_ParlaSpeech-GL | gl | Manual (Parlamento) | Forzado | ~1.700 horas (~1M segmentos) | URL | URL |
| Nos_TranscriSpeech-GL | gl | Manual (ad-hoc) | Manual | 53 horas (~40.000 segmentos) | URL | URL |
| Nos_RG-Podcast-GL | gl | Forzado (ad hoc) | Forzado | 328 horas | Proximamente | URL |
| Nos_Telexornais-GL | gl | Forzado (ad hoc) | Forzado | ~1.170 horas (~147.000 segmentos) | Proximamente | URL |
Neste apartado describimos corpus de voz deseñados para o adestramento de sistemas de síntese de voz (TTS) en galego. Para este fin, o texto a ser gravado debe ser coidadosamente seleccionado para ser balanceado e representativo, e as gravacións deben ser de alta calidade e sen ruídos. A continuación detallamos os corpus en galego para TTS desenvolvidos dentro do Proxecto Nós.
Corpus de voz monolingüe monolocutor para TTS cun total de 25 horas.
Nos_Celtia-GL é un corpus fonética e morfosintacticamente balanceado de 20.000 frases (aproximadamente 200.000 palabras) integrado por dous subcorpus: un corpus previo creado polo Grupo de Tecnoloxías Multimedia (GTM), en colaboración co Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH) e un corpus elaborado dentro do Proxecto Nós a partir de textos de dominio variado.
O corpus foi gravado nun ambiente controlado (estudio de gravación) por unha voz feminina profesional escollida entre catro locutoras a partir dun test perceptivo realizado por máis de 50 persoas con mostras de catro voces onde se valoraba a claridade, a entoación, a agradabilidade e o nivel de lingua.
Os arquivos de son están dispoñibles no mesmo formato da gravación orixinal: 48 kHz e 16 bits en formato WAV e teñen unha duración de aproximadamente 25 horas.
Corpus de voz monolocutor para TTS en galego de aproximadamente 18 horas de discurso.
Nos_Brais-GL é un corpus fonética e morfosintacticamente balanceado de 16.121 frases (aproximadamente 168.000 palabras) que comprende tres subcorpus: frases seleccionadas dun corpus compilado polo Proxecto Nós a partir de textos multidominio e utilizados no corpus TTS Nos_Celtia-GL; frases seleccionadas dun corpus previamente compilado polo Grupo de Tecnoloxía Multimedia (GTM) e o Centro Ramón Piñeiro para a Investigación en Humanidades (CRPIH); e, finalmente, un subcorpus de 500 palabras foneticamente rico extraído do Dicionario de pronuncia da lingua galega.
Nos_Brais-GL foi gravado nun ambiente controlado (estudio de gravación) por un locutor profesional masculino seleccionado entre tres locutores mediante unha proba de escoita perceptiva na que 37 participantes avaliaron a claridade, a prosodia, a agradabilidade e o nivel de lingua.
Os arquivos de son están dispoñibles no formato de gravación orixinal (formato WAV de 48 kHz e 24 bits) e teñen unha duración aproximada de 18 horas.
| Nome do Corpus | Lingua/s | Detalles | Descargar (Zenodo) | Descargar (Hugging Face) |
|---|---|---|---|---|
| Nos_Celtia-GL | gl | ~25 horas (20.000 frases) | URL | URL |
| Nos_Brais-GL | gl | ~18 horas (16.121 frases) | URL | URL |
Neste apartado describimos corpus de traducións humanas (paralelos) que inclúen o galego. Existen dous tipos de corpus paralelos en galego: auténticos e sintéticos. Os primeiros son aqueles que foron realizados por humanos entre o galego e outra lingua, p.e. castelán ou inglés. E os segundos son aqueles transformados artificialmente desde outra variante ou lingua para o galego mediante o uso de diferentes técnicas (p.e. tradución de portugués a galego con transliteración). A continuación detallamos os diferentes corpus paralelos en galego liberados con licenzas libres no Proxecto Nós:
| Nome do Corpus | Lingua/s | Auténtico / Sintético | Detalles | Descargar (Zenodo) |
|---|---|---|---|---|
| Nos_ES-GL_aut | es-gl | Auténtico | 36M de oracións | URL |
| Nos_EN-GL_aut | en-gl | Auténtico | 14M de oracións | URL |
| Nos_ES-GL_sin | es-gl | Sintético | 35M de oracións | URL |
| Nos_EN-GL_sin | en-gl | Sintético | 29M de oracións | URL |
- Nos_ES-GL-aut inclúe os seguintes subcorpus: ccmatrix, cluvi, gnome, kde, paracrawl, ubuntu, wikimedia, wikimatrix, opensubtitles-es-gl, ted2020, opensubtitles2018.
- Nos_EN-GL_aut inclúe os seguintes subcorpus: ccmatrix, wikimatrix, cluvi.
- Nos_ES-GL_sin inclúe os seguintes subcorpus: europarl-es-pt_gl, opensubtitles-es-pt_gl, dgt-es-pt_gl.
- Nos_EN-GL_sin inclúe os seguintes subcorpus: opensub-en-pt_gl, europarl-en-pt_gl, opus-en-pt_gl, ted2020-en-pt_gl.
| Nome do Corpus | Lingua/s | Detalles | Descargar (Zenodo) |
|---|---|---|---|
| Nos_MT_Gold-ES-GL_1 | es-gl | 1998 oracións | URL |
| Nos_MT_Gold-ES-GL_2 | en-gl | 1998 oracións | URL |
| Nos_MT_Gold-EN-GL_1 | en-gl | 1777 oracións | URL |
| Nos_MT_Gold-EN-GL_2 | en-gl | 1777 oracións | URL |
| Nos_MT_Test-suite-ES-GL | en-gl | 334 oracións | URL |
| Nos_MT_Test-suite-EN-GL | en-gl | 364 oracións | URL |
Obtivéronse dous datasets de máis de 3000 pares de datos tabulares aliñados con comentarios descritivos, un para o castelán e outro para o galego. O corpus en galego é o primeiro corpus para sistemas Data-To-Text en galego coñecido. Estes datasets foron obtidos a partir da base de datos de MeteoGalicia que conta con datos meteorolóxicos dos últimos 10 anos e textos descritivos bilingües escritos polos expertos meteorólogos pertencentes á institución. Cada un dos datasets foi revisado e anotado manualmente para incrementar a súa calidade textual e editado para limitar as descricións a aqueles fenómenos relacionados directamente cos datos numéricos. Aqui podes acceder ao dataset.
Desenvolvéronse recursos públicos para a avaliación das capacidades sintácticas e semánticas de modelos de lingua para galego e portugués. As avaliacións tanto sintácticas como semánticas dos modelos neuronais do galego mostran que teñen desempeños similares a modelos equivalentes para outras linguas. Aqui podes acceder aos datasets (sintáctico e semántico) e aos modelos avaliados.
Dataset de avaliación semántica de expresións multipalabra en galego. A introdución deste dataset galego no evento SemEval 2022 (Task 2) permitiu que equipos internacionais traballasen no modelado semántico en galego. Aqui podes acceder ao dataset.
Frases con licenza libre (CC0) en galego, recollidas co fin de alimentar o corpus textual de Mozilla Common Voice. Podes acceder ao corpus aquí.