Firecrawl发布/extract v2，AI代理自主提取网页数据

2025-12-19 13:48

182

2025年12月19日，新加坡——爬虫与数据转换平台Firecrawl推出/extract v2端点，集成自研FIRE-1代理，可在无人值守下完成分页、表单填写、滚动加载及多步导航，并把任意网站实时转为JSON、CSV或Markdown结构化数据。

过去两年，生成式AI对高质量网页数据的需求激增。Gartner 12月报告显示，78%的RAG项目因“目标站点反爬升级”导致训练集缺失，平均延迟交付4.6周。

/extract v2让代理自主规划路径，单页提取成功率由72%升至94%，并支持“无URL输入”，用自然语言描述需求即可返回数据。升级集中在三点：一、FIRE-1代理对动态加载、无限滚动、登录态保持进行端到端操作，自动识别并点击“下一页”，整站数据合并输出；二、内置搜索层先调用自研索引在5亿级页面中定位候选URL，再对结果页二次提取，用户无需提供起始链接；三、输出新增“diff”字段，可对比同一URL的历史快照，仅返回新增或变更字段，后续清洗算力降低38%。

“从今日起，开发者只需一次API调用即可把复杂网站变成可直接喂给大模型的上下文。”Firecrawl首席执行官Eric C.表示，“FIRE-1代理会重试并回滚失败步骤，无需编写Puppeteer脚本，平均节省6.5小时工程时间。”

新接口直接缓解RAG项目因反爬升级导致的数据缺失，适用于需要大规模、实时、结构化网页数据的AI训练与知识库构建。

Firecrawl已面向全球开放公测。企业版按成功提取页数计费，单价0.012美元，并承诺99.9%数据合规过滤，剔除欧盟GDPR及美国COPPA限制页面。官方路线图显示，2026年Q1将支持PDF、图像OCR与表格混合输出，并上线本地私有部署选项。

好文章，需要你的鼓励