Este projeto é uma ferramenta de web scraping desenvolvida em Python para extrair metadados de fanfics do site Archive of Our Own (AO3).
O foco é a análise de dados (Data Analytics), coletando informações estatísticas e categorizadas (Ships, Personagens, Ratings, Kudos, etc.) diretamente das páginas de listagem, otimizando o tempo de coleta e respeitando os limites do servidor.
- Coleta Otimizada: Extrai todos os dados diretamente da lista de busca (não precisa entrar em cada história individualmente).
- Dados Estruturados: Separa automaticamente Tags de Aviso, Ships, Personagens e Tags Extras em colunas distintas.
- Resiliência: Sistema automático de retentativa para erros de conexão (525/502) e pausas inteligentes para limites de requisição (Erro 429).
- Saída em CSV: Gera planilhas prontas para análise em Pandas, Excel ou Power BI.
- Python 3.10+
- Ambiente Linux (Recomendado) ou Windows
-
Clone o repositório:
git clone [https://github.com/Moira79/MVAO3Scraper.git](https://github.com/Moira79/MVAO3Scraper.git) cd MVAO3Scraper -
Crie e ative o ambiente virtual (Linux):
python3 -m venv .venv source .venv/bin/activate -
Instale as dependências:
pip install requests beautifulsoup4 lxml pandas unidecode # Ou se tiver o arquivo requirements: pip install -r requirements.txt