Desafio Webcrawler BIT

Sobre

O desafio consiste na implementação de um crawler que colete citações do site http://quotes.toscrape.com.

Regras

Utilizando o framework Scrapy, desenvolva uma robô que visite o site citado anteriormente e colete todas as citações exibidas nas páginas.

Premissas:

Para cada citação, os seguintes dados devem ser coletados: citação (string), autor (dictionary) com seu nome(string) e url da sua bio (string) e tags (array).
As citações devem ser salvas em um arquivo json.
Deve utilizar o pipeline do Scrapy para salvar cada item no arquivo json.
Enquanto houver paginação, o crawler deve continuar coletando os dados.
Ao final, um arquivo json deve armazenar todos os items coletados.

Recomendações:

Utilize a versão mais recente do Python (https://www.python.org/)
Leia a documentação do Scrapy e faça o exemplo inicial para se familiarizar com o framework.
Atente-se aos tipos de dados exigidos para cada campo.

Exemplo de inserção no json

Cada citação deve ser salva no arquivo json seguindo o seguinte formato:

{
  "text": "\u201cThe world as we have created it is a process of our thinking. It cannot be changed without changing our thinking\u201d",
  "author": {
    "name": "Albert Einstein",
    "url": "http://quotes.toscrape.com/author/Albert-Einstein"
  },
  "tags": [
      "change",
      "deep-thoughts",
      "thinking",
      "world"
    ]
  }

...

Tudo pronto? Basta clonar esse repositório e abrir um pull request quando finalizar ;)

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
README.md		README.md
quote_albert_einstein.png		quote_albert_einstein.png
teste.txt		teste.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Desafio Webcrawler BIT

Sobre

Regras

Premissas:

Recomendações:

Exemplo de inserção no json

...

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

Desafio Webcrawler BIT

Sobre

Regras

Premissas:

Recomendações:

Exemplo de inserção no json

...

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages