Skip to content

peanut7379/crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

这是使用webcollector来爬取网站数据的两个爬虫

其中TutorialCrawler.java是爬取百度手机助手的软件分类列表,输出到文本文件,如社交通讯\t新浪微博,中间用tab键隔开

zhushou360.java是爬取360手机助手


重新编写了TutorialCrawler.java,增加了使用addRegex()正则自动匹配所有代表分类主题的页面,进行广度遍历,并使输出结果更加自动化


bmpProxy.java

拦截网站cookie的demo,代码中以猎聘网为例 工具: browsermob-proxy SwitchyOmega

用法:

在谷歌浏览器中使用SwitchyOmega设置代理,使用browsermob-proxy开启代理端口,拦截请求,将已登录的cookie写入文件

ssl配置:

默认不配置的情况下,对于非SSL的页面是可以随便访问的。但是对于SSL站点,会出现不是私密连接的告警,甚至直接打不开。

解决:

需要安装证书 下载这个文件,存到系统中。在Mac下打开“钥匙串访问”,将这个文件拖入docker图标中。 然后双击打开证书详情,并选择始终信任。然后就可以直接访问SSL站点了。不过这个证书用作测试可以的,长期信任并不是一个好做法。这是一个公开证书,很容易被他人盗用。所以比较合理的方式是生成自己的证书。

文件夹wandoujia

为豌豆荚相关信息提取的demo,基于webmagic框架 其中html元素提取使用xpath和正则表达式

Getting started::

添加maven依赖to your pom:

<dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>0.7.3</version>
            <exclusions>
                <exclusion>
                    <groupId>org.slf4j</groupId>
                    <artifactId>slf4j-log4j12</artifactId>
                </exclusion>
            </exclusions>
        </dependency>
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>0.7.3</version>
            <exclusions>
                <exclusion>
                    <groupId>org.slf4j</groupId>
                    <artifactId>slf4j-log4j12</artifactId>
                </exclusion>
            </exclusions>
        </dependency>
        <dependency>
                   <groupId>us.codecraft</groupId>
                   <artifactId>webmagic-selenium</artifactId>
                    <version>0.7.2</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/log4j/log4j -->
        <dependency>
            <groupId>log4j</groupId>
            <artifactId>log4j</artifactId>
            <version>1.2.17</version>
        </dependency>

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages