Skip to content

Chanmoro/blog_crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

blog_crawler

指定した URL のドメイン内の記事をクロールし、それぞれの記事につけられたはてなブックマーク数を取得するクローラーです クロールされたデータは PostgreSQL に保存されます

Setup

Docker イメージをビルドします

$ docker-compose build

Usage

Run crawler

以下のコマンドで scrapy で実装されたクローラーを起動します クローラーの引数には、クロール対象の企業名とブログトップページの URL を指定します

$ docker-compose run crawler scrapy crawl site_crawl -a company_name='<企業名>' -a url=<ブログトップページのURL>

Execute query in database

PostgreSQL に保存されたデータは psql を利用して確認できます

# postgres のコンテナ内で psql を起動する
$ docker-compose exec postgres psql -U docker -d crawler

# psql のコンソールで SQL を実行できます
# psql (11.2 (Debian 11.2-1.pgdg90+1))
# Type "help" for help.
#
# crawler=# select * from articles limit 10;
# ...

About

Blog crawler using Scrapy and PostgreSQL.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published