Skip to content

LiYukeee/JD-Selenium

Repository files navigation

JD-Selenium

基于Selenium的京东爬虫

前置条件

  1. 显示器分辨率在1600*900及以上,显示缩放率为100%
  2. 安装chrome及其对应的driver

数据存放

  1. 在根目录下data文件夹中
  2. 数据文件为.xls或.xlsx后缀的表格文件
  3. 表格文件中第一行为表头,第一列为商品链接

运行

  1. 双击在根目录下的mainJD.exe文件
  2. 在运行过程中可以打开存放数据的表格文件,打开时会影响程序存储数据,会先把数据放在内存,等用户关闭表格之后再存入。但一直打开直到程序运行完毕会导致数据丢失。且在打开表格之后进行操作,关闭时切记不要保存。

数据保存

  1. pdf保存在根目录下data中的pdf中
  2. data下temp存储临时文件,可以删除
  3. 店铺名,公司名会保存在表格文件的最后几列
  4. 是否要对某一行的数据进行抓取pdf或者提取店铺名和公司名是由那一行中“是否获取PDF”列和“是否已经尝试提取公司名”列进行判断的,在此前提下,还要确认爬取得到的店铺名不为自营店铺,当其内容不是“是”的时候会进行抓取操作;要重复抓取某一行数据可以将其“是否获取PDF”列、“是否已经尝试提取公司名”列和"店铺名"列的内容删掉。
  5. 相同链接的数据不会重复运行。

配置

在根目录下data中由config.ini文件,可以修改运行设置:

  1. 隐形等待时间:implicitlyWait, 默认为2,根据网络情况而定,网络情况好可以改小,差可以改大比如到3
  2. 爬取每一条链接之后的等待时间:waitTime
  3. 爬取多少条链接之后重新启动:restart
  4. 重新启动之后等待多久重新开始任务:restartWaitTime

About

Selenium-based JD Web Crawler

Resources

License

Stars

Watchers

Forks

Packages

 
 
 

Contributors

Languages