note/python/scrapy.md at master · Packedcat/note

Scrapy

name

唯一标识

allowed_domains

允许的域名

start_urls

当没有指定开始 url 时使用这个列表中的元素开始爬取

custom_settings

使用一个dict对象重写settings中的配置

crawler

不明

settings

配置爬虫运行的设置的一个实例

logger

向日志中记录信息

from_crawler(crawler, *args, **kwargs)

使用Scrapy创建爬虫

不明

start_requests()

必须返回一个可迭代的请求列表，安全起见将其定义为生成器

parse(response)

下载完响应后默认调用的函数

log(message[, level, component])

包装日子信息的方法

closed(reason)

当爬虫关闭时被调用