blog_crawler

指定した URL のドメイン内の記事をクロールし、それぞれの記事につけられたはてなブックマーク数を取得するクローラーですクロールされたデータは PostgreSQL に保存されます

Setup

Docker イメージをビルドします

$ docker-compose build

Usage

Run crawler

以下のコマンドで scrapy で実装されたクローラーを起動しますクローラーの引数には、クロール対象の企業名とブログトップページの URL を指定します

$ docker-compose run crawler scrapy crawl site_crawl -a company_name='<企業名>' -a url=<ブログトップページのURL>

Execute query in database

PostgreSQL に保存されたデータは psql を利用して確認できます

# postgres のコンテナ内で psql を起動する
$ docker-compose exec postgres psql -U docker -d crawler

# psql のコンソールで SQL を実行できます
# psql (11.2 (Debian 11.2-1.pgdg90+1))
# Type "help" for help.
#
# crawler=# select * from articles limit 10;
# ...

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
app		app
.dockerignore		.dockerignore
.gitignore		.gitignore
Dockerfile		Dockerfile
Pipfile		Pipfile
Pipfile.lock		Pipfile.lock
README.md		README.md
docker-compose.yml		docker-compose.yml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

blog_crawler

Setup

Usage

Run crawler

Execute query in database

About

Uh oh!

Releases

Packages

Uh oh!

Languages

Chanmoro/blog_crawler

Folders and files

Latest commit

History

Repository files navigation

blog_crawler

Setup

Usage

Run crawler

Execute query in database

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages