智能搜索与爬取工具 | LLM 优化输出
在使用 AI 助手处理信息时,我经常需要爬取网页内容。尝试了很多方案后,遇到了 crawl4ai —— 一个专为 LLM 设计的爬虫引擎,它的 Fit Markdown 输出简直是为 AI 量身定做的,去除了所有冗余内容,只保留核心信息。
这个项目就是这些探索的成果。希望能帮助到有同样需求的朋友。
- 🔍 DuckDuckGo 搜索 - 免 API key,快速搜索
- 🕷️ 智能爬取 - 自动识别 sitemap、递归爬取
- 📝 LLM 优化输出 - Fit Markdown,节省 token
- ⚡ 动态页面支持 - 支持 JavaScript 渲染页面
pip install crawl4ai-skill适用于 Claude、Copilot、通用 AI Agent:
npx skills add lancelin111/crawl4ai-skill@crawl4ai-skillclawhub install crawl4ai-skillPyPI 包已通过:
- ✅ PyPI 官方验证(Verified by PyPI)
- ✅ 自动化安全扫描(Bandit + pip-audit)
- ✅ 依赖项审查(所有依赖均为知名开源项目)
git clone https://github.com/lancelin111/crawl4ai-skill.git
cd crawl4ai-skill
# 可选:使用 bandit 审计代码
pip install bandit
bandit -r src/
# 安装
pip install -e .crawl4ai-skill search "python web scraping"crawl4ai-skill crawl https://example.com -o page.mdcrawl4ai-skill crawl-site https://docs.example.com --max-pages 50crawl4ai-skill search-and-crawl "AI tutorials" --crawl-top 3对于 JavaScript 渲染的动态页面(如雪球、知乎等),使用 --wait-until 和 --delay 参数:
# 等待网络空闲 + 额外等待 2 秒
crawl4ai-skill crawl https://xueqiu.com/S/BIDU --wait-until networkidle --delay 2
# 等待特定元素出现
crawl4ai-skill crawl https://example.com --wait-for ".content-loaded"| 参数 | 说明 |
|---|---|
--wait-until |
等待策略:domcontentloaded(默认), networkidle(推荐动态页面), load, commit |
--delay |
返回前额外等待时间(秒) |
--wait-for |
等待特定 CSS 选择器元素出现 |
| 命令 | 说明 |
|---|---|
search <query> |
搜索网页 |
crawl <url> |
爬取单页 |
crawl-site <url> |
爬取全站 |
search-and-crawl <query> |
搜索并爬取 |
| 格式 | 说明 |
|---|---|
fit_markdown |
优化后的 Markdown,去除冗余(推荐) |
markdown_with_citations |
带引用列表,便于溯源 |
raw_markdown |
原始 Markdown |
这个项目的诞生,离不开以下优秀的开源项目:
一个真正为 LLM 设计的爬虫引擎。
当我第一次看到 crawl4ai 的 Fit Markdown 输出时,我被震撼了。它不是简单地把 HTML 转成 Markdown,而是智能地提取核心内容,去除导航、广告、侧边栏等噪音。这正是 AI 需要的输入格式 —— 干净、精炼、直击要点。
crawl4ai 的 PruningContentFilter 和 DefaultMarkdownGenerator 是本项目 Markdown 生成的核心。感谢 @unclecode 创造了这个强大的工具。
免 API key 的搜索能力来自这个项目。简单、可靠、无需注册。
如果这个项目对你有帮助,请给上面这些项目一个 Star
它们才是真正的英雄。
MIT License
Built with open source