Парсер книг с сайта tululu.org

Данный скрипт позволяет скачивать книги и их обложки из большой бесплатной библиотеки. А также отрисовывать страницы для создания собственной библиотеки.

Пример страниц.

Как установить

Python3 должен быть уже установлен. Затем используйте pip (или pip3, есть конфликт с Python2) для установки зависимостей:

pip install -r requirements.txt

Запуск и использование

Для запуска скачивания книг по их id используйте команду:

python main.py

По стандарту скрипт скачивает книги с 1 по 10, если вы хотите изменить диапазон скачиваемых книг, то используйте аргументы для указания id первой и последней книги соответственно в следующем виде:

python main.py id_первой_книги id_последней_книги

По стандарту скачанные книги помещаются в папку books, которая создастся в той же директории, что и скрипт. Если вы хотите изменить директорию сохранения, то используйте аргумент --books_dir.

По стандарту скачанные обложки помещаются в папку images, которая создастся в той же директории, что и скрипт. Если вы хотите изменить директорию сохранения, то используйте аргумент --images_dir.

Для запуска скачивания книг по категории используйте команду:

python parse_tululu_category.py

По стандарту скрипт скачивает все книги, их обложки и описания из категории "Научная фантастика", чтобы изменить настройки скачивания, используйте следующие опциональные аргументы:

--category_id ID - id категории, например l55
--start_page NUMBER - номер первой страницы категории
--end_page NUMBER - номер последней страницы категории
--books_dir DIR - папка для сохранения текстовых файлов
--images_dir DIR - папка для сохранения обложек  книг
--json_dir DIR - nпапка для сохранения файла с описанием книг
--skip_imgs - не скачивать картинки
--skip_txt - не скачивать тексты книг

Для отрисовки страниц сайта используйте команду:

python render_website.py

Для успешного исполнения скрипта требуется предварительно скачать тексты, картинки и информацию о книгах с помощью скрипта parse_tululu_category.py JSON файл с информацией должен находиться в одной директории со скриптом.

Цель проекта

Код написан в образовательных целях на онлайн-курсе для веб-разработчиков dvmn.org.

Name		Name	Last commit message	Last commit date
Latest commit History 60 Commits
books		books
images		images
pages		pages
static		static
templates		templates
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
books_params.json		books_params.json
main.py		main.py
parse_tululu_category.py		parse_tululu_category.py
render_website.py		render_website.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Парсер книг с сайта tululu.org

Как установить

Запуск и использование

Для запуска скачивания книг по их id используйте команду:

Для запуска скачивания книг по категории используйте команду:

Для отрисовки страниц сайта используйте команду:

Цель проекта

About

Uh oh!

Releases

Packages

Languages

License

Yar59/online-library-parser

Folders and files

Latest commit

History

Repository files navigation

Парсер книг с сайта tululu.org

Как установить

Запуск и использование

Для запуска скачивания книг по их id используйте команду:

Для запуска скачивания книг по категории используйте команду:

Для отрисовки страниц сайта используйте команду:

Цель проекта

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages