Skip to content

Yar59/online-library-parser

Repository files navigation

Парсер книг с сайта tululu.org

Данный скрипт позволяет скачивать книги и их обложки из большой бесплатной библиотеки. А также отрисовывать страницы для создания собственной библиотеки.

Пример страниц.

Как установить

Python3 должен быть уже установлен. Затем используйте pip (или pip3, есть конфликт с Python2) для установки зависимостей:

pip install -r requirements.txt

Запуск и использование

Для запуска скачивания книг по их id используйте команду:

python main.py

По стандарту скрипт скачивает книги с 1 по 10, если вы хотите изменить диапазон скачиваемых книг, то используйте аргументы для указания id первой и последней книги соответственно в следующем виде:

python main.py id_первой_книги id_последней_книги

По стандарту скачанные книги помещаются в папку books, которая создастся в той же директории, что и скрипт. Если вы хотите изменить директорию сохранения, то используйте аргумент --books_dir.

По стандарту скачанные обложки помещаются в папку images, которая создастся в той же директории, что и скрипт. Если вы хотите изменить директорию сохранения, то используйте аргумент --images_dir.

Для запуска скачивания книг по категории используйте команду:

python parse_tululu_category.py

По стандарту скрипт скачивает все книги, их обложки и описания из категории "Научная фантастика", чтобы изменить настройки скачивания, используйте следующие опциональные аргументы:

--category_id ID - id категории, например l55
--start_page NUMBER - номер первой страницы категории
--end_page NUMBER - номер последней страницы категории
--books_dir DIR - папка для сохранения текстовых файлов
--images_dir DIR - папка для сохранения обложек  книг
--json_dir DIR - nпапка для сохранения файла с описанием книг
--skip_imgs - не скачивать картинки
--skip_txt - не скачивать тексты книг

Для отрисовки страниц сайта используйте команду:

python render_website.py

Для успешного исполнения скрипта требуется предварительно скачать тексты, картинки и информацию о книгах с помощью скрипта parse_tululu_category.py JSON файл с информацией должен находиться в одной директории со скриптом.

Цель проекта

Код написан в образовательных целях на онлайн-курсе для веб-разработчиков dvmn.org.

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published