Crawl4AI Skill

智能搜索与爬取工具 | LLM 优化输出

缘起

在使用 AI 助手处理信息时，我经常需要爬取网页内容。尝试了很多方案后，遇到了 crawl4ai —— 一个专为 LLM 设计的爬虫引擎，它的 Fit Markdown 输出简直是为 AI 量身定做的，去除了所有冗余内容，只保留核心信息。

这个项目就是这些探索的成果。希望能帮助到有同样需求的朋友。

特性

🔍 DuckDuckGo 搜索 - 免 API key，快速搜索
🕷️ 智能爬取 - 自动识别 sitemap、递归爬取
📝 LLM 优化输出 - Fit Markdown，节省 token
⚡ 动态页面支持 - 支持 JavaScript 渲染页面

安装

方式 1：PyPI（推荐）

pip install crawl4ai-skill

方式 2：skills.sh 生态（通用 Agent）

适用于 Claude、Copilot、通用 AI Agent：

npx skills add lancelin111/crawl4ai-skill@crawl4ai-skill

方式 3：ClawHub（OpenClaw 专用）

clawhub install crawl4ai-skill

PyPI 包已通过：

✅ PyPI 官方验证（Verified by PyPI）
✅ 自动化安全扫描（Bandit + pip-audit）
✅ 依赖项审查（所有依赖均为知名开源项目）

从源码安装（开发者/审计）

git clone https://github.com/lancelin111/crawl4ai-skill.git
cd crawl4ai-skill

# 可选：使用 bandit 审计代码
pip install bandit
bandit -r src/

# 安装
pip install -e .

快速开始

搜索

crawl4ai-skill search "python web scraping"

爬取网页

crawl4ai-skill crawl https://example.com -o page.md

爬取整站

crawl4ai-skill crawl-site https://docs.example.com --max-pages 50

搜索并爬取

crawl4ai-skill search-and-crawl "AI tutorials" --crawl-top 3

动态页面爬取

对于 JavaScript 渲染的动态页面（如雪球、知乎等），使用 --wait-until 和 --delay 参数：

# 等待网络空闲 + 额外等待 2 秒
crawl4ai-skill crawl https://xueqiu.com/S/BIDU --wait-until networkidle --delay 2

# 等待特定元素出现
crawl4ai-skill crawl https://example.com --wait-for ".content-loaded"

参数	说明
`--wait-until`	等待策略：`domcontentloaded`(默认), `networkidle`(推荐动态页面), `load`, `commit`
`--delay`	返回前额外等待时间（秒）
`--wait-for`	等待特定 CSS 选择器元素出现

命令参考

命令	说明
`search <query>`	搜索网页
`crawl <url>`	爬取单页
`crawl-site <url>`	爬取全站
`search-and-crawl <query>`	搜索并爬取

输出格式

格式	说明
`fit_markdown`	优化后的 Markdown，去除冗余（推荐）
`markdown_with_citations`	带引用列表，便于溯源
`raw_markdown`	原始 Markdown

致谢

这个项目的诞生，离不开以下优秀的开源项目：

crawl4ai

一个真正为 LLM 设计的爬虫引擎。

当我第一次看到 crawl4ai 的 Fit Markdown 输出时，我被震撼了。它不是简单地把 HTML 转成 Markdown，而是智能地提取核心内容，去除导航、广告、侧边栏等噪音。这正是 AI 需要的输入格式 —— 干净、精炼、直击要点。

crawl4ai 的 PruningContentFilter 和 DefaultMarkdownGenerator 是本项目 Markdown 生成的核心。感谢 @unclecode 创造了这个强大的工具。

duckduckgo-search

免 API key 的搜索能力来自这个项目。简单、可靠、无需注册。

如果这个项目对你有帮助，请给上面这些项目一个 Star

它们才是真正的英雄。

License

MIT License

作者

@lancelin

Built with open source

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
.github/workflows		.github/workflows
docs		docs
examples		examples
skills/crawl4ai-skill		skills/crawl4ai-skill
src		src
tests		tests
.gitignore		.gitignore
CHANGELOG.md		CHANGELOG.md
LICENSE		LICENSE
README.md		README.md
SECURITY.md		SECURITY.md
SKILL.md		SKILL.md
package.json		package.json
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Crawl4AI Skill

缘起

特性

安装

方式 1：PyPI（推荐）

方式 2：skills.sh 生态（通用 Agent）

方式 3：ClawHub（OpenClaw 专用）

从源码安装（开发者/审计）

快速开始

搜索

爬取网页

爬取整站

搜索并爬取

动态页面爬取

命令参考

输出格式

致谢

crawl4ai

duckduckgo-search

License

作者

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Crawl4AI Skill

缘起

特性

安装

方式 1：PyPI（推荐）

方式 2：skills.sh 生态（通用 Agent）

方式 3：ClawHub（OpenClaw 专用）

从源码安装（开发者/审计）

快速开始

搜索

爬取网页

爬取整站

搜索并爬取

动态页面爬取

命令参考

输出格式

致谢

crawl4ai

duckduckgo-search

License

作者

About

Resources

License

Security policy

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages