Repository files navigation
常用工作开发环境Linux
常用编辑器Vim
常用编程语言Python
人生苦短,我用Python
就职于深圳可链科技有限公司/数据部 2018.01-2018.11
负责搭建和维护公司对于数字货币资讯媒体类文章快讯的爬虫.
负责虚拟货币链上数据相关地址信息爬取.
负责相关媒体微信公众号文章的爬取.
负责公司多个职场的日常办公网络设备和电脑设备(包括电话系统,打印机等)日常的维护。
负责公司日常开发测试环境(windows,linux)搭建和维护。
负责fastdfs分布式存储系统的搭建和维护(包括从搭建到配置接口到日志维护)。
负责搭建ELK日志收集系统。
结合自动化运维工具saltstack搭建CMDB资产管理服务系统(包括从搭建,编写saltstack配置文件到部署CMDB后台系统)。
对公司的服务器和网络平台的运行进行监控和维护,保障网络的正常运行.
负责公司信息系统建设、维护.
负责服务器、路由器、交换机等专业设备维护。
负责桌面技术支持(Windows/Office/Adobe等)。
负责打印机、扫描仪、投影仪等办公设备日常维护及管理。
负责日常线路车辆调度及资料输入方面。
参与员工的管理、车辆的技术管理、安全服务工作的管理。
熟悉线路的客流特征,及时掌握客流的变化,根据行车作业计划,灵活调度,充分利用运力(车辆和人力配置),提高车队的营运服务质量.
虚拟货币链上数据相关地址信息爬取(2018.10-2018.11)
爬取相关虚拟货币链上数据,包括各个币种TOP500的钱包地址,TOP100钱包地址的交易记录和账户余额等相关信息。爬取某些币种的转帐交易记录,并进行监控。
微信公众号文章爬取(2018.09-2018.10)
对相关媒体公众号文章进行爬取,采用Charles对app进行抓包,分析请求,获取公众号文章接口,绕过接口频率验证码限制,对采集的文章进行分类入库。
优化现有scrapy爬虫(2018.08-2018.09)
对现有scrapy-redis分布式爬虫进行优化,优化请求并发数,减少内存消耗等。
编写扩展插件,确保爬虫redis队列为空时自动进行添加,确保爬虫不会因为请求状态异常停止。
编写相关中间件,增加爬虫超时处理,确保爬虫7*24不间断运行。
结合开源可视化框架Gerapy对爬虫进行远程部署和日志监控。
虚拟货币社交媒体相关信息抓取(2018.05-2018.06)
负责虚拟货币的社交媒体信息爬取,分别利用Python相关库例如Tweepy,Pyrogram对币种相关的Twitter粉丝数,Facebook主页获赞数和Telegram电报群每天聊天消息数量和群组人数进行爬取。爬取之后进行汇总,交给前端页面和app进行展示。
我房网海南区域楼盘信息爬取(2018.03-2018.03)
独立制作我房网海南区域楼盘信息分布式爬虫。使用scrapy-redis分布式爬虫框架,对我房网海南区域的网页进行爬取,爬取间隔为5秒一次,持续进行增量爬取,爬取以后存进mongodb数据库。字段分别有楼盘名称,楼盘所在区域,楼盘开发商,楼盘特色还有楼盘坐标等信息。爬虫分为主爬虫和节点爬虫,主爬虫用于爬取每一页的所有楼盘的链接,节点爬虫作用为爬取楼盘具体信息并存入数据库。可用Docker部署,使用scrapyd管理。
深圳国税局网站爬取(2017.12-2017.12)
对深圳国税局网站查询信息进行爬取。模拟登陆国税网站,用Python识别验证码,登陆后对已申报缴款和申报详情,地税申报交款和详情进行了数据和截图爬取。
91160深圳网上挂号(2017.10-2017.11)
针对91160网站挂号平台的挂号流程进行分析,首先从wap页面进行挂号,对医生排班号源接口进行分析爬取,用Python模拟从获取号源到挂号完成。期间遇到网站利用动态js生成cookies进行反爬,利用python模拟执行js生成cookies跳过。最终利用微信入口挂号跳过需要填写图片验证码的步骤加快挂号速度.
12306抢票爬虫(2017.9-2017.10)
针对12306从查询火车票到购买火车票完成订单的流程进行http分析,并用python模拟进行登陆购买火车票,最后结合爬虫框架scrapy进行不间断刷屏,利用dns工具扫描出12306的cdn节点ip,进行轮询,防止ip被封。最后结合第三方打码平台对验证码进行处理。
热爱编程,工作认真负责,积极主动,能较快适应工作环境.
有较强的自学能力,对新技术感兴趣,喜欢钻研问题.
About
我的简历
Resources
Stars
Watchers
Forks
You can’t perform that action at this time.