WeChat Article Crawler

🚀 🚀 🚀 一个用于抓取公众号历史文章的爬虫工具，支持Windows、Linux、Mac平台，可以稳定抓取大量文章数据。

简体中文 | English

1. 项目简介

功能概述

微信公众号历史文章批量抓取
支持文章内容、作者、发布时间等信息获取
提供多种数据存储格式(Excel、CSV、JSON)

技术栈

Python 3.x
requests
BeautifulSoup4
pandas
logging

2. 适用场景

公众号内容存档
文章数据分析
内容备份管理

3. 环境准备

Python 3.7+
pip install -r requirements.txt

4. 配置文件说明（config.txt）

iniCopyCOOKIE=微信Cookie信息
X_WECHAT_KEY=微信密钥
X_WECHAT_UIN=用户识别码
EXPORTKEY=导出密钥
USER_AGENT=浏览器标识
PASS_TICKET=通行证
BIZ=公众号唯一标识

5. 核心功能

配置参数获取与更新
支持配置文件读取
参数自动化验证
配置模板自动生成
文章列表抓取
分页获取列表
自动翻页
错误重试
文章内容解析
标题提取
作者信息
发布时间
位置信息

6. 使用指南

效果图

1. 抓包工具下载

下载 Charles

破解 Charles

安装证书以及出现unknow问题: https://blog.csdn.net/m0_63892927/article/details/136680867

关于用法这里不过多赘述，直接引用这篇教程: https://blog.csdn.net/m0_72210949/article/details/131146091

2. 打开抓包工具进行抓包

流程

打开微信的公众号文章
抓取链接
如图所示：

复制 curl 提取关键信息

说明：
现在的 AI 工具非常强大，这里不再详细说明信息是如何对应的，你可以直接使用以下提示词进行操作：

根据 curl 更换过期的信息，你必须严格按照原来的格式替换。请注意：  
- 第一个 pass_ticket 的值为 PASS_TICKET。  
- 第二个 pass_ticket 在 COOKIE 中。  
替换为 config.txt 以及 curl 的真实内容。

运行问题

有时候会出现问题，多半就是内容被管控了，直接忽略就好，打开以后就是管控的效果

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
img		img
LICENSE		LICENSE
README-en.md		README-en.md
README.md		README.md
config.txt		config.txt
main.py		main.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

WeChat Article Crawler

1. 项目简介

功能概述

技术栈

2. 适用场景

3. 环境准备

4. 配置文件说明（config.txt）

5. 核心功能

6. 使用指南

效果图

1. 抓包工具下载

2. 打开抓包工具进行抓包

流程

About

Uh oh!

Releases 1

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

WeChat Article Crawler

1. 项目简介

功能概述

技术栈

2. 适用场景

3. 环境准备

4. 配置文件说明（config.txt）

5. 核心功能

6. 使用指南

效果图

1. 抓包工具下载

2. 打开抓包工具进行抓包

流程

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages