- 使用scrapy-redis实现分布式爬虫
- 使用MongoDB实现持久化存储
对end,start进行修改,设置爬取报纸的天数
end = datetime.strptime('2017-08-23', '%Y-%m-%d')
start = datetime.strptime('2017-01-01', '%Y-%m-%d')
#MONGODB SETTING
MONGODB_SERVER = ''
MONGODB_USER = ''
MONGODB_PASSWORD = ''
MONGODB_PORT = 27017
MONGODB_DB = ''
MONGODB_COLLECTION = ''
#REDIS SETTING
SCHEDULER = "scrapy_redis.scheduler.Scheduler" #从redis读取队列进行调度
SCHEDULER_PERSIST = True #调度状态持久化(实现暂停/启动爬虫)
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
REDIS_HOST = ''
REDIS_PORT = 6379
scrapyd-deploy --build-egg output.egg
可以使用SpiderKeeper在图形化界面进行管理