Crawl4AI：开源 LLM 友好型 Web 爬虫和抓取工具-盘天下 | 精选资源分享

Crawl4AI：开源 LLM 友好型 Web 爬虫和抓取工具

编程开发 2024-11-13 296 0

Crawl4AI是什么

Crawl4AI 是一款开源的 LLM 友好型 Web 爬虫工具，旨在简化异步 Web 爬取和数据提取，专为大型语言模型 (LLM) 和 AI 应用程序设计。它可以作为 Python 包或通过 Docker 安装，提供灵活的使用方式。Crawl4AI 的主要特点包括支持多 URL 并行爬取、提取所有媒体标签、外部和内部链接、元数据等。它支持自定义钩子、用户代理、页面截图、JavaScript 执行，并能生成结构化的输出，适合各种复杂的爬取场景，工具还具备异步架构和隐私保护功能。

Crawl4AI特点

? 完全免费且开源
? 性能超快，超越许多付费服务
? LLM 友好的输出格式（JSON、清理的 HTML、 markdown ）
? 支持同时抓取多个 URL
? 提取并返回所有媒体标签（图像、音频和视频）
? 提取所有外部和内部链接
? 从页面中提取元数据
? 爬取之前用于身份验证、标头和页面修改的自定义钩子
?️ 用户代理自定义
?️ 截取页面截图
? 抓取前执行多个自定义 JavaScript
? 使用 JsonCssE x tr action Strategy 生成无需 LLM 的结构化输出
? 各种分块策略：基于主题、正则表达式、句子等
? 高级提取策略：余弦聚类、LLM 等
? CSS 选择器支持精确的数据提取
? 传递指令/关键字以优化提取
? 代理支持，增强隐私和访问
? 针对复杂的多页面爬取场景的会话管理
? 异步架构，提高性能和可扩展性

Crawl4AI如何安装

Crawl4AI 提供灵活的安装选项，以适应各种用例。您可以将其安装为 Python 包或使用 Docker。

使用 pip ?

选择最适合您需求的安装选项：

基本安装

对于基本的网页爬取和抓取任务：

pip install crawl4ai

默认情况下，这将安装 Crawl4AI 的异步版本，使用 Playwright 进行网络爬取。

? 注意：安装 Crawl4AI 时，安装脚本应自动安装并设置 Playwright。但是，如果遇到任何与 Playwright 相关的错误，则可以使用以下方法之一手动安装它：

通过命令行：

play wright install

如果上述方法不起作用，请尝试这个更具体的命令：

python -m playwright install chro mi um

在某些情况下，第二种方法已被证明更为可靠。

同步版本安装

如果您需要使用 Selenium 的同步版本：

pip install crawl4ai[sync]

开发安装

对于计划修改源代码的贡献者：

git clone https:// github .com/uncle code /crawl4ai.git cd crawl4ai pip install -e .

使用 Docker

我们正在创建 Docker 镜像并将其推送到 Docker Hub。这将提供一种在容器化环境中运行 Crawl4AI 的简便方法。敬请期待更新！

Crawl4AI如何使用

在线体验：在 Colab 中打开

官方文档：https://crawl4ai.com/mkdocs/

GitHub：https://github.com/unclecode/crawl4ai

闲趣赚

转载请注明出处，本文链接：https://pantx.cn/6110.html

(0)

收藏 (0)

1. 本站所有资源来源于网络，如有侵权请邮件联系站长！hygd0813@qq.com
2. 分享目的仅供大家学习和交流，您必须在下载后24小时内删除！
3. 不得使用于非法商业用途，不得违反国家法律。否则后果自负！
4. 本站提供的资源，都不包含版权，请大家谅解！
5. 如有链接无法下载、失效或广告，请联系管理员处理！
6. 本站资源售价只是赞助，收取费用仅维持本站的日常运营所需！

上一篇Awesome English-很棒的英语学习资源合集

下一篇douyin_upload：抖音自动发布助手

评论列表

篱落主机 - 香港免备案老薛主机 - 优惠码：0813 推荐VPN-Clash 29元/月,80G大流量卡篱落主机 - 香港免备案老薛主机 - 优惠码：0813 推荐VPN-Clash 29元/月,80G大流量卡

关于我们

盘天下（pantx.cn），一站式网盘资源分享下载平台，为您提供高速、稳定的下载体验。这里汇聚了海量影视音乐、学习资料、软件安装包、电子书等免费资源，让您轻松获取所需。盘天下，让资源分享变得更简单！

激情影视

动感音乐

电子书籍

学习充能

资源精选

管理服务