- 开始的 URLs(可以是
start_requests()方法或者start_urls属性)指定回调函数 - 在回调函数中解析相应体返回
Item对象、Requset对象或者可迭代对象 - 使用
Selectors解析响应体获取结构化数据 - 存储数据到数据库(如果有对应的
Item Pipeline)或者写进文件
name
唯一标识
allowed_domains
允许的域名
start_urls
当没有指定开始 url 时使用这个列表中的元素开始爬取
custom_settings
使用一个dict对象重写settings中的配置
crawler
不明
settings
配置爬虫运行的设置的一个实例
logger
向日志中记录信息
from_crawler(crawler, *args, **kwargs)
使用Scrapy创建爬虫
不明
start_requests()
必须返回一个可迭代的请求列表,安全起见将其定义为生成器
parse(response)
下载完响应后默认调用的函数
log(message[, level, component])
包装日子信息的方法
closed(reason)
当爬虫关闭时被调用