Skip to content

Cycloone/WebScraper

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

WebScraper

Консольная программа для скрапинга веб-страниц с новостями.

Установка и запуск

Для сборки программы в исполняемый файл выполните команду (или воспользуйтесь собранной версией):

pyinstaller webscraper.py -F -c -n webscraper

Для запуска откройте командную строку Windows и запустите webscraper.exe, передав в качестве аргумента URL для скрапинга. Шаблон с параметрами должен находиться в той же директории, что и исполняемый файл webscraper.exe.

webscraper.exe --url=http://your_site/news/1/

Шаблон

template.json - шаблон с параметрами для парсинга страниц, содержит список тегов и длинну строки.

Описание алгоритма

  1. Получаем на входе аргумент командной строки с URL
  2. Обрабатываем URL в классе url
  3. Формируем имя директории для записи в файл
  4. Подгружаем текущий шаблон и передаем его в парсер
  5. Передаем сырые данные в парсер
  6. Форматируем полученный от парсера контент и записываем его в файл

Направления для дальнейшего улучшения

  • Добавление возможности авторизации на ресурсах
  • Добавление еще одного аргумента для использования с разными шаблонами
  • Обработка ошибок
  • Загрузка списка сайтов из файла
  • Использование специализированных библиотек для скрапинга
  • Сохранение результатов в БД

Ссылки для тестирования

https://quote.rbc.ru/news/article/5f4d0b839a794768c88f6a2e https://lenta.ru/news/2020/09/03/kilogram/ https://www.gazeta.ru/politics/2020/09/06_a_13238384.shtml

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages