简介

AnyCrawl 是一个高性能爬取和抓取工具包,将网站转化为 LLM 可用的数据,并支持从 Google/Bing/百度等搜索引擎提取结构化 SERP 结果。基于 Node.js/TypeScript,支持原生多线程批量处理。

核心特性

  • SERP 爬取:支持 Google、Bing、百度等多搜索引擎,批量友好
  • 网页抓取:单页内容提取,支持 cheerio(最快)、Playwright、Puppeteer 三种引擎
  • 全站爬取:整站遍历与采集,可控制深度和数量
  • LLM 结构化提取:通过 JSON Schema 定义,LLM 驱动从页面提取结构化数据
  • 高性能:多线程/多进程原生支持
  • Docker 自部署:支持 Docker Compose 一键部署
  • 缓存控制:支持 S3/本地缓存,可配置过期策略

链接

  • GitHub:https://github.com/any4ai/anycrawl
  • 文档:https://docs.anycrawl.dev