La Enciclopedia Galáctica de la Industria Musical (LEGIM) es una iniciativa para poner en contexto toda la información que se recoge en los podcast de Subterfuge Radio "Simpatía por la industria musical", en los que se entrevista a destacados personajes de la Industria Musical en España con el objeto de poner puntos de vista, experiencia y perspectiva de futuro en el negocio discográfico.
Los entrevistados desglosan sus actividades en ese entorno profesional, creándose una verdadera enciclopedia con datos de todo tipo, muchos de ellos inéditos, que pueden ser más útiles más allá de ese formato de entrevista. Personas, eventos, fechas, empresas y números se acumulan en las 81 entrevistas, con una media de una hora de duración, que el programa ha publicado a día de hoy.
El proyecto parte de estas fuentes de audio que, previa transformación a texto y aplicando la teoría de grafos y las ideas del análisis ontológico, reúnan en un modelo semántico todos los datos que los invitados desglosan en el programa. Una vez tratados y relacionados, se podrán explorar todos los elementos de la historia en soporte web mediante visualizaciones interactivas en las dimensiones cronológica, geográfica, documental y de relaciones entre sus elementos.
La inteligencia artificial es parte fundamental del proyecto en sus dos fases principales: conversión de voz a texto, usando técnicas de Procesamiento de Lenguaje Natural (NLP por sus siglas en inglés), y reconocimiento y clasificación de entidades.
El Procesamiento de Lenguaje Natural usa técnicas de Machine Learning (ML) y Deep Learning, entrenando modelos mediante aprendizaje no supervisado con grandes corpus de datos.
La clasificación de entidades se realizará con técnicas de Named Entity Recognition (NER) y desambiguación. Las primeras permiten etiquetar entidades para poder referenciarlas posteriormente. Para esto hay que realizar una labor de etiquetado de entidades que permita posteriormente al modelo de ML reconocer las entidades. Usaremos aprendizaje supervisado en algoritmos de clasificación.