Firecrawl发布/extract v2,AI代理自主提取网页数据

2025-12-19 13:48
182
2025年12月19日,新加坡——爬虫与数据转换平台Firecrawl推出/extract v2端点,集成自研FIRE-1代理,可在无人值守下完成分页、表单填写、滚动加载及多步导航,并把任意网站实时转为JSON、CSV或Markdown结构化数据。

过去两年,生成式AI对高质量网页数据的需求激增。Gartner 12月报告显示,78%的RAG项目因“目标站点反爬升级”导致训练集缺失,平均延迟交付4.6周。
/extract v2让代理自主规划路径,单页提取成功率由72%升至94%,并支持“无URL输入”,用自然语言描述需求即可返回数据。升级集中在三点:一、FIRE-1代理对动态加载、无限滚动、登录态保持进行端到端操作,自动识别并点击“下一页”,整站数据合并输出;二、内置搜索层先调用自研索引在5亿级页面中定位候选URL,再对结果页二次提取,用户无需提供起始链接;三、输出新增“diff”字段,可对比同一URL的历史快照,仅返回新增或变更字段,后续清洗算力降低38%。
“从今日起,开发者只需一次API调用即可把复杂网站变成可直接喂给大模型的上下文。”Firecrawl首席执行官Eric C.表示,“FIRE-1代理会重试并回滚失败步骤,无需编写Puppeteer脚本,平均节省6.5小时工程时间。”
新接口直接缓解RAG项目因反爬升级导致的数据缺失,适用于需要大规模、实时、结构化网页数据的AI训练与知识库构建。
Firecrawl已面向全球开放公测。企业版按成功提取页数计费,单价0.012美元,并承诺99.9%数据合规过滤,剔除欧盟GDPR及美国COPPA限制页面。官方路线图显示,2026年Q1将支持PDF、图像OCR与表格混合输出,并上线本地私有部署选项。
28
好文章,需要你的鼓励