Skip to content

nmizoguchi/mc536socialNET

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

58 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

mc536socialNET

INSTRUÇÕES DE USO:

Acessar http://sql2.lab.ic.unicamp.br/~ra103659/mc536/mc536socialNET/view/, teremos duas opções:

  • Novo usuário. Aqui você adiciona um novo usuário normal

  • Listar usuários Aqui você pode ver quais os usuários estão cadastrados e seus dados, e também pode editar as informações de qualquer usuário caso deseje. Também é possível remover qualquer usuário, bastando clicar na opção "remover" que fica à esquerda da tela.

  • Estatísticas Análise estatística do banco de dados. Informações como média e desvio padrão do ranking, entre outras informações.

INSTRUÇÕES PARA INSERIR DADOS PRÉ PROCESSADOS:

Inserir os arquivos .sql localizados na pasta Scripts em seu banco de dados MySQL na seguinte ordem:

  • create_table.sql
  • insert_persons.sql
  • insert_knows.sql
  • insert_likes.sql
  • updateScrapedData.sql // Contém as queries para complementar o BD, conseguidos atraves dos scripts // loadCitiesAndCountries.py e loadGenre.py
  • artistsNoDuplicates.sql // Contém os dados do banco para usar os artistas sem duplicatas
  • updateDuplicatedReferences.sql // Atualiza as referências dos artistas que estavam duplicados
  • insertGenreFromWiki.sql // Insere os generos nao obtidos atraves da dbpedia.

INFORMAÇÕES SOBRE OS SCRIPTS DE EXTRAÇÃO DE DADOS:

Os dados dos artistas foram majoritariamente baixados da dbpedia.org utilizando como auxílio a biblioteca RDFlib. Utilizou-se o endereço da wikipedia para localizar a "resource" de cada artista na DBpedia, extraindo entao todas as informações possíveis de cada artista.

A estratégia de extração pela DBpedia segue da seguinte forma:

  • Da página resource do artista, é possível tirar informações diretas, como nome (foaf:name) e ano de criação.
  • Carregar RDFs de outras informações, como cidade natal (dbpedia-owl:hometown), e de lá extrair também o país da cidade (caso seja uma cidade).
  • Carregar RDFs do gênero musical (dbpedia-owl:genre), pegando as informações e criando as queries.

Vale lembrar que a busca das informações no grafo foi obtida através de queries SPARQL, facilitando a extração.

  • loadArtistsGraphFromInsertLikes.py Carrega os RDFs de todas as resources da dbpedia que fazem referencia aos Artistas no banco, salvando no arquivo artists.txt em formato turtle.

  • loadCitiesAndCountries.py Carrega o grafo obtido pelo script acima, e faz pesquisas utilizando SPARQL, criando as queries para inserir as cidades e países, assim como atualizando os dados dos artistas.

  • loadGenre.py Carrega o grafo obtido pelo script acima, e faz pesquisas utilizando SPARQL, criando as queries para inserir os generos, assim como marcando os generos de cada artista.

  • loadGenreFromWiki.py e loadNamesFromWiki.py Pega informaçoes utilizando um script escrito em python, que utiliza XPath para extrair informacoes da Wikipedia. Pega informacoes faltantes que nao foram carregadas atraves da DBPedia

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published