JD-Selenium

基于Selenium的京东爬虫

前置条件

显示器分辨率在1600*900及以上，显示缩放率为100%
安装chrome及其对应的driver

数据存放

在根目录下data文件夹中
数据文件为.xls或.xlsx后缀的表格文件
表格文件中第一行为表头，第一列为商品链接

运行

双击在根目录下的mainJD.exe文件
在运行过程中可以打开存放数据的表格文件，打开时会影响程序存储数据，会先把数据放在内存，等用户关闭表格之后再存入。但一直打开直到程序运行完毕会导致数据丢失。且在打开表格之后进行操作，关闭时切记不要保存。

数据保存

pdf保存在根目录下data中的pdf中
data下temp存储临时文件，可以删除
店铺名，公司名会保存在表格文件的最后几列
是否要对某一行的数据进行抓取pdf或者提取店铺名和公司名是由那一行中“是否获取PDF”列和“是否已经尝试提取公司名”列进行判断的，在此前提下，还要确认爬取得到的店铺名不为自营店铺，当其内容不是“是”的时候会进行抓取操作；要重复抓取某一行数据可以将其“是否获取PDF”列、“是否已经尝试提取公司名”列和"店铺名"列的内容删掉。
相同链接的数据不会重复运行。

配置

在根目录下data中由config.ini文件，可以修改运行设置：

隐形等待时间：implicitlyWait，默认为2，根据网络情况而定，网络情况好可以改小，差可以改大比如到3
爬取每一条链接之后的等待时间：waitTime
爬取多少条链接之后重新启动：restart
重新启动之后等待多久重新开始任务：restartWaitTime

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
data		data
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
driverOperation.py		driverOperation.py
fileOperation.py		fileOperation.py
mainJD.py		mainJD.py
test.py		test.py
url2CompanyName.py		url2CompanyName.py
url2Message.py		url2Message.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

JD-Selenium

前置条件

数据存放

运行

数据保存

配置

About

Uh oh!

Releases 1

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

JD-Selenium

前置条件

数据存放

运行

数据保存

配置

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages