O desafio consiste na implementação de um crawler que colete citações do site http://quotes.toscrape.com.
Utilizando o framework Scrapy, desenvolva uma robô que visite o site citado anteriormente e colete todas as citações exibidas nas páginas.
- Para cada citação, os seguintes dados devem ser coletados: citação (string), autor (dictionary) com seu nome(string) e url da sua bio (string) e tags (array).
- As citações devem ser salvas em um arquivo json.
- Deve utilizar o pipeline do Scrapy para salvar cada item no arquivo json.
- Enquanto houver paginação, o crawler deve continuar coletando os dados.
- Ao final, um arquivo json deve armazenar todos os items coletados.
- Utilize a versão mais recente do Python (https://www.python.org/)
- Leia a documentação do Scrapy e faça o exemplo inicial para se familiarizar com o framework.
- Atente-se aos tipos de dados exigidos para cada campo.
Cada citação deve ser salva no arquivo json seguindo o seguinte formato:
{
"text": "\u201cThe world as we have created it is a process of our thinking. It cannot be changed without changing our thinking\u201d",
"author": {
"name": "Albert Einstein",
"url": "http://quotes.toscrape.com/author/Albert-Einstein"
},
"tags": [
"change",
"deep-thoughts",
"thinking",
"world"
]
}Tudo pronto? Basta clonar esse repositório e abrir um pull request quando finalizar ;)
