WikiArt Dataset Scraping

This repository contains scripts for scraping artist and artwork information from WikiArt using Selenium. The dataset generated from these scripts includes detailed information about artists and their artworks. Wikipedia expanded data is from kaggle as a basic list of artists to extract.

Author: Yangyu Wang

Date: January 18, 2025

Dataset

The dataset generated from these scripts includes:

artist_data_new.csv: Contains detailed information about artists.
artist_artwork.csv: Contains information about artworks associated with artists.
artwork_data_all.csv: Contains detailed information about individual artworks.
Wikiart Images: Contains all of the image data and their links to artwork_data_all.csv.
artist_wikipedia_content: Contains text files of artist Wikipedia pages.

Requirements

Python 3.10.0
uv

You can use uv sync after installation of uv, to syncronize all the requirements of the scraping. For jupyter notebook, please use the .venv generated by uv.

Notes

The scraping process may take a significant amount of time due to the large number of artists and artworks.
Ensure that the Geckodriver version is compatible with the installed Firefox version.

Name		Name	Last commit message	Last commit date
Latest commit History 73 Commits
artist_data		artist_data
artist_wikipedia_content		artist_wikipedia_content
artwork_data		artwork_data
docs		docs
wikiart_expanded		wikiart_expanded
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
art_image_scraping_new.ipynb		art_image_scraping_new.ipynb
artist_artworks_scraping.ipynb		artist_artworks_scraping.ipynb
artist_wikipedia_scraping.ipynb		artist_wikipedia_scraping.ipynb
artwork_with_clip_features.csv		artwork_with_clip_features.csv
artworks_scraping_original.ipynb		artworks_scraping_original.ipynb
artworks_scraping_original_remaining.ipynb		artworks_scraping_original_remaining.ipynb
desc_generater.ipynb		desc_generater.ipynb
pyproject.toml		pyproject.toml
to_search.csv		to_search.csv
to_search_completed.csv		to_search_completed.csv
uv.lock		uv.lock
wikipedia_demographic_extract.ipynb		wikipedia_demographic_extract.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

WikiArt Dataset Scraping

Contents

1. ARTIST_ARTWORKS_SCRAPING.ipynb

2. ARTWORKS_SCRAPING_ORIGINAL{*}.ipynb

3. ART_IMAGE_SCRAPING_NEW.ipynb

4. ARTIST_WIKIPEDIA_SCRAPING.ipynb

Dataset

Requirements

Notes

About

Uh oh!

Releases

Packages

Contributors 2

Uh oh!

Languages

License

yangyuwang/wikiart_metadata

Folders and files

Latest commit

History

Repository files navigation

WikiArt Dataset Scraping

Contents

1. ARTIST_ARTWORKS_SCRAPING.ipynb

2. ARTWORKS_SCRAPING_ORIGINAL{*}.ipynb

3. ART_IMAGE_SCRAPING_NEW.ipynb

4. ARTIST_WIKIPEDIA_SCRAPING.ipynb

Dataset

Requirements

Notes

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages