Crawl4AI是什么
Crawl4AI 是一款开源的 LLM 友好型 Web 爬虫 工具,旨在简化异步 Web 爬取和数据提取,专为大型 语言 模型 (LLM) 和 AI 应用程序 设计 。它可以作为 Python 包或通过 Docker 安装,提供灵活的使用方式。Crawl4AI 的主要特点包括支持多 URL 并行爬取、提取所有媒体标签、外部和内部链接、元数据等。它支持自定义钩子、用户代理、页面截图、JavaScript 执行,并能生成结构化的输出,适合各种复杂的爬取场景,工具还具备异步架构和隐私保护功能。
Crawl4AI特点
- ? 完全免费且开源
- ? 性能超快,超越许多付费服务
- ? LLM 友好的输出格式(JSON、清理的 HTML、 markdown )
- ? 支持同时抓取多个 URL
- ? 提取并返回所有媒体标签(图像、音频和视频)
- ? 提取所有外部和内部链接
- ? 从页面中提取元数据
- ? 爬取之前用于身份验证、标头和页面修改的自定义钩子
- ?️ 用户代理自定义
- ?️ 截取页面截图
- ? 抓取前执行多个自定义 JavaScript
- ? 使用 JsonCssE x tr action Strategy 生成无需 LLM 的结构化输出
- ? 各种分块策略:基于主题、正则表达式、句子等
- ? 高级提取策略:余弦聚类、LLM 等
- ? CSS 选择器支持精确的数据提取
- ? 传递指令/关键字以优化提取
- ? 代理支持,增强隐私和访问
- ? 针对复杂的多页面爬取场景的会话 管理
- ? 异步架构,提高性能和可扩展性
Crawl4AI如何安装
Crawl4AI 提供灵活的安装选项,以适应各种用例。您可以将其安装为 Python 包或使用 Docker。
使用 pip ?
选择最适合您需求的安装选项:
基本安装
对于基本的网页爬取和抓取任务:
pip install crawl4ai默认情况下,这将安装 Crawl4AI 的异步版本,使用 Playwright 进行网络爬取。
? 注意:安装 Crawl4AI 时,安装脚本应自动安装并设置 Playwright。但是,如果遇到任何与 Playwright 相关的错误,则可以使用以下方法之一手动安装它:
通过命令行:
play wright install
如果上述方法不起作用,请尝试这个更具体的命令:
在某些情况下,第二种方法已被证明更为可靠。
同步版本安装
如果您需要使用 Selenium 的同步版本:
pip install crawl4ai[sync]
开发 安装
对于计划修改源代码的贡献者:
git clone https:// github .com/uncle code /crawl4ai.git cd crawl4ai pip install -e .
使用 Docker
我们正在创建 Docker 镜像并将其推送到 Docker Hub。这将提供一种在容器化 环境 中运行 Crawl4AI 的简便方法。敬请期待更新!
Crawl4AI如何使用
在线体验:在 Colab 中打开
评论列表
发表评论