Skip to content

Latest commit

 

History

History
62 lines (33 loc) · 1.06 KB

File metadata and controls

62 lines (33 loc) · 1.06 KB

Scrapy

Spiders

爬取周期

  1. 开始的 URLs(可以是start_requests()方法或者start_urls属性)指定回调函数
  2. 在回调函数中解析相应体返回Item对象、Requset对象或者可迭代对象
  3. 使用Selectors解析响应体获取结构化数据
  4. 存储数据到数据库(如果有对应的Item Pipeline)或者写进文件

scrapy.Spider 类

name

唯一标识

allowed_domains

允许的域名

start_urls

当没有指定开始 url 时使用这个列表中的元素开始爬取

custom_settings

使用一个dict对象重写settings中的配置

crawler

不明

settings

配置爬虫运行的设置的一个实例

logger

向日志中记录信息

from_crawler(crawler, *args, **kwargs)

使用Scrapy创建爬虫

不明

start_requests()

必须返回一个可迭代的请求列表,安全起见将其定义为生成器

parse(response)

下载完响应后默认调用的函数

log(message[, level, component])

包装日子信息的方法

closed(reason)

当爬虫关闭时被调用