bmpProxy.java

这是使用webcollector来爬取网站数据的两个爬虫

其中TutorialCrawler.java是爬取百度手机助手的软件分类列表，输出到文本文件，如社交通讯\t新浪微博，中间用tab键隔开

zhushou360.java是爬取360手机助手

重新编写了TutorialCrawler.java，增加了使用addRegex()正则自动匹配所有代表分类主题的页面，进行广度遍历，并使输出结果更加自动化

bmpProxy.java

拦截网站cookie的demo，代码中以猎聘网为例工具： browsermob-proxy SwitchyOmega

用法：

在谷歌浏览器中使用SwitchyOmega设置代理，使用browsermob-proxy开启代理端口，拦截请求，将已登录的cookie写入文件

ssl配置：

默认不配置的情况下，对于非SSL的页面是可以随便访问的。但是对于SSL站点，会出现不是私密连接的告警，甚至直接打不开。

解决：

需要安装证书下载这个文件，存到系统中。在Mac下打开“钥匙串访问”，将这个文件拖入docker图标中。然后双击打开证书详情，并选择始终信任。然后就可以直接访问SSL站点了。不过这个证书用作测试可以的，长期信任并不是一个好做法。这是一个公开证书，很容易被他人盗用。所以比较合理的方式是生成自己的证书。

文件夹wandoujia

为豌豆荚相关信息提取的demo，基于webmagic框架其中html元素提取使用xpath和正则表达式

Getting started:：

添加maven依赖to your pom：

<dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>0.7.3</version>
            <exclusions>
                <exclusion>
                    <groupId>org.slf4j</groupId>
                    <artifactId>slf4j-log4j12</artifactId>
                </exclusion>
            </exclusions>
        </dependency>
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>0.7.3</version>
            <exclusions>
                <exclusion>
                    <groupId>org.slf4j</groupId>
                    <artifactId>slf4j-log4j12</artifactId>
                </exclusion>
            </exclusions>
        </dependency>
        <dependency>
                   <groupId>us.codecraft</groupId>
                   <artifactId>webmagic-selenium</artifactId>
                    <version>0.7.2</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/log4j/log4j -->
        <dependency>
            <groupId>log4j</groupId>
            <artifactId>log4j</artifactId>
            <version>1.2.17</version>
        </dependency>

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
wandoujia		wandoujia
BmpCode.java		BmpCode.java
BmpProxy.java		BmpProxy.java
README.md		README.md
TutorialCrawler.java		TutorialCrawler.java
Zhushou360.java		Zhushou360.java

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

bmpProxy.java

用法：

ssl配置：

解决：

文件夹wandoujia

Getting started:：

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

peanut7379/crawler

Folders and files

Latest commit

History

Repository files navigation

bmpProxy.java

用法：

ssl配置：

解决：

文件夹wandoujia

Getting started:：

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages