基于Selenium的京东爬虫
- 显示器分辨率在1600*900及以上,显示缩放率为100%
- 安装chrome及其对应的driver
- 在根目录下data文件夹中
- 数据文件为.xls或.xlsx后缀的表格文件
- 表格文件中第一行为表头,第一列为商品链接
- 双击在根目录下的mainJD.exe文件
- 在运行过程中可以打开存放数据的表格文件,打开时会影响程序存储数据,会先把数据放在内存,等用户关闭表格之后再存入。但一直打开直到程序运行完毕会导致数据丢失。且在打开表格之后进行操作,关闭时切记不要保存。
- pdf保存在根目录下data中的pdf中
- data下temp存储临时文件,可以删除
- 店铺名,公司名会保存在表格文件的最后几列
- 是否要对某一行的数据进行抓取pdf或者提取店铺名和公司名是由那一行中“是否获取PDF”列和“是否已经尝试提取公司名”列进行判断的,在此前提下,还要确认爬取得到的店铺名不为自营店铺,当其内容不是“是”的时候会进行抓取操作;要重复抓取某一行数据可以将其“是否获取PDF”列、“是否已经尝试提取公司名”列和"店铺名"列的内容删掉。
- 相同链接的数据不会重复运行。
在根目录下data中由config.ini文件,可以修改运行设置:
- 隐形等待时间:implicitlyWait, 默认为2,根据网络情况而定,网络情况好可以改小,差可以改大比如到3
- 爬取每一条链接之后的等待时间:waitTime
- 爬取多少条链接之后重新启动:restart
- 重新启动之后等待多久重新开始任务:restartWaitTime