Skip to content

lucas-rls/desafio-webcrawler

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 

Repository files navigation

Desafio Webcrawler BIT

Sobre

O desafio consiste na implementação de um crawler que colete citações do site http://quotes.toscrape.com.

Regras

Utilizando o framework Scrapy, desenvolva uma robô que visite o site citado anteriormente e colete todas as citações exibidas nas páginas.

Premissas:

  1. Para cada citação, os seguintes dados devem ser coletados: citação (string), autor (dictionary) com seu nome(string) e url da sua bio (string) e tags (array).
  2. As citações devem ser salvas em um arquivo json.
  3. Deve utilizar o pipeline do Scrapy para salvar cada item no arquivo json.
  4. Enquanto houver paginação, o crawler deve continuar coletando os dados.
  5. Ao final, um arquivo json deve armazenar todos os items coletados.

Recomendações:

  • Utilize a versão mais recente do Python (https://www.python.org/)
  • Leia a documentação do Scrapy e faça o exemplo inicial para se familiarizar com o framework.
  • Atente-se aos tipos de dados exigidos para cada campo.

Exemplo de inserção no json

Cada citação deve ser salva no arquivo json seguindo o seguinte formato:

{
  "text": "\u201cThe world as we have created it is a process of our thinking. It cannot be changed without changing our thinking\u201d",
  "author": {
    "name": "Albert Einstein",
    "url": "http://quotes.toscrape.com/author/Albert-Einstein"
  },
  "tags": [
      "change",
      "deep-thoughts",
      "thinking",
      "world"
    ]
  }

...

Tudo pronto? Basta clonar esse repositório e abrir um pull request quando finalizar ;)

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors