新手勿喷
- 01-html和css作业
- 02-javas语法作业
- 03-jquery练习
- 04-socket发送请求
- 05-requests发送网络请求
- 06-正则表达式
- 07-xpath和bs4提取数据
- 08-输出存储-mysql和mongodb
- 09-多任务爬虫
- 10-异步请求作业
- 11-寒假作业
- 3g壁纸
- 360图片数据
- B站评论采集
- 凤凰网视频采集
- 千千小说文本数据采集
- 垃圾焚烧站数据采集
- 获取到好看视频的视频数据
- 获取淘宝数据信息
- 采集站长素材的音效数据
- 采集网易新闻数据
- 获取腾讯动漫的动漫数据
- 阴阳师壁纸采集
- 12-自动化作业
- 13-免费ip采集测试
- 14-前程无忧 [ 51job.com ]
- 15-企查查 [ qcc.com ]
- 16-红人点集 [ hh1024.com ]
- 17-有道翻译 [ fanyi.youdao.com ]
- 18-国家医疗保障 [ fuwu.nhsa.gov.cn ]
Javascript基础语法——是否闰年
- 使用jquery修改div元素的背景色(随意颜色)
- 使用jquery修改div的子元素p的内容为"我是子元素"
- 使用jquery修改第二个p元素的背景色为"orange"
- 使用jQuery添加文本的方式将“添加的文本”追加到p标签的后方
- 删除列表元素中最后一个li元素里的内容
- 使用ajax方法对网址:http://www.liulongbin.top:3006/api/getbooks 发送请求;并使用循环的方式将作者展示在id为box1的标签里面
html代码:
<button id="change1">点击改变背景颜色</button> <button id="change2">点击修改子元素内容</button> <button id="change3">点击修改p元素背景</button> <button id="cv">点击克隆p元素</button> <button id="del">点击删除最后的li元素</button> <button id="ajax_req">发送ajax请求获取数据</button> <div> <p>关关雎鸠,在河之洲。</p> <p>窈窕淑女,君子好逑。</p> <p>参差荇菜,左右流之。</p> <p>窈窕淑女,寤寐求之。</p> <p>求之不得,寤寐思服。</p> <p>悠哉悠哉,辗转反侧。</p> <ul> <li>《西游记》</li> <li>《红楼梦》</li> <li>《水浒传》</li> <li>《三国演义》</li> <li>《金瓶梅》</li> </ul> <div id="box1"></div> </div>最后呈现的效果:
目标网址:https://image.baidu.com/
获取到动态接口里面的图片数据进行下载;下载页数3页图图
目标网址:https://www.qqtxt.cc/list/1_1.html
通过正则获取到当前网页上更新列表里的所有小说名字(10页)
- 网址:http://ip.yqie.com/ipproxy.htm
用bs4来做一个简单的爬虫,爬取某个ip网址里的免费ip,
获取每个ip的代理IP地址、端口、服务器地址、是否匿名、类型、存活时间- 网址:https://cs.lianjia.com/ershoufang/rs/
用xpath做一个简单的爬虫,爬取链家网里的租房信息获取标题,位置,
房屋的格局(三室一厅),关注人数,单价,总价
目标:
获取芒果tv视频电视剧一栏里的电视剧信息,提取名称、集数、描述,获取10个页面,将数据分别存储在mysql和MongoDB数据库
目标网址:
网址:https://so.tv.sohu.com/list_p1101_p2_p3_p4-1_p5_p6_p77_p80_p92_p104_p11_p12_p13_p14.html
需求:通过多线程队列的方式,获取30页数据信息存储在mongo
需要的字段:标题,主演,周播放量,集数
要求:通过异步的方式获取到英雄联盟官网的英雄皮肤图片
网址:https://101.qq.com/#/hero
-
3g壁纸
网址:https://www.3gbizhi.com/wallDM/index_2.html
需求:获取当前网址上3页壁纸数据 -
360图片数据
网址:https://image.so.com/i?q=python&src=&inact=0
需求:根据给定的关键字获取图片,获取3页数据 -
B站评论采集
网址:https://www.bilibili.com/video/BV1FM411F7rH/?spm_id_from=333.337.search-card.all.click&vd_source=2e399ef6e2389d3f4bfdddc5315d33da
需求:获取到当前地址的评论数据 -
凤凰网视频采集
网址:https://v.ifeng.com/shanklist/v/27-95283-
需要:在主页获取到详情页面地址,进入详情页面获取到播放地址,下载视频 -
千千小说文本数据采集
网址:https://www.qqxsnew.net/12/12776/
需求:获取到当前小说的所有章节保存在本地文件 -
垃圾焚烧站数据采集
网址:https://ljgk.envsc.cn/
需求:获取到焚烧站的地址、公司名称 -
获取到好看视频的视频数据
网址:https://haokan.baidu.com
需求:获取到娱乐分类里面的100条视频,下载到本地 -
获取淘宝数据信息
网址:https://s.taobao.com/search?initiative_id=staobaoz_20230111&q=Python
需求:获取到20页数据,获取到'标题', '价格', '购买人数', '地点', '网址', '图片地址', '评论数', '店铺' -
采集站长素材的音效数据
网址:https://sc.chinaz.com/yinxiao/index_1.html
需求:获取5页的音频数据 -
采集网易新闻数据
网址:https://c.m.163.com/news/hot/newsList
需求:获取到当前进入详情页面的a标签,提前详情页面的文本数据 -
获取腾讯动漫的动漫数据
网址:https://ac.qq.com/Comic/index/page/
需求:获取5页数据,获取到漫画的标题、人气、简介、漫画类型 -
阴阳师壁纸采集
网址:https://yys.163.com/media/picture.html
需求:获取到阴阳师所有的壁纸图片
地址:https://category.vip.com/suggest.php?keyword=%E5%8F%A3%E7%BA%A2&ff=235|12|1|1
技术:selenium自动化
字段:价格、标题 可以自行拓展
保存:mongo
交付:数据入库截图
采集快代理30页ip数据进行测试,获取到有效的ip地址
网址:https://www.kuaidaili.com/free/
地址:https://we.51job.com/pc/search?jobArea=190200&keyword=%E7%88%AC%E8%99%AB&searchType=2&sortType=0&metro=
要求:破解签名采集对应数据
要求:逆向请求头 headers 中的加密 key 和 value 的值
地址:http://www.hh1024.com/#/login?redirect=%2FrealTimeLiving
需求:协议分析进行模拟登陆获取返回的token信息
地址:https://fanyi.youdao.com/index.html#/
需求:使用webpack技术提取响应数据
地址:https://fuwu.nhsa.gov.cn/nationalHallSt/#/search/medical?code=90000&flag=false&gbFlag=true
需求:破解参数,并解密返回的数据


