这几天在做一个网站的内容迁移,过程中需要写一些内容抓取爬虫来做信息下载。
在做的过程中比较让我痛苦的,就是虽然都是产品详情页面,但是很多页面的模板不一样,并不规整。
这个页面不是多个区块,就是那个页面少一个区块,且不同区块直接的 ID 又不一样。
所以这种情况下,用一套简单的爬虫去处理这类信息采集就不怎么现实了。
最后任务做完,也是针对不同的页面结构,写了好几个版本的爬虫才将所有数据采集完。
正是这样的经历,让我这两天开始正式实操 AI 爬虫,因为 AI 做这类数据整理与数据清洗工具简直是小菜一碟。
我先是了解了 Firecrawl,觉得这种方案最大的好处就在于,能自动处理 JS 渲染,也能自动绕过反爬措施,最终返回干净的 Markdown 格式文本。
用这款工具做了几个 Demo 之后,继续了解了下 Jina。
Jina 的操作就更简单了,且 Jina Reader 是完全免费的,可以作为自己的替补方案。
所以综合一番搜索下来,我觉得我更想做的是一款综合的数据抓取工具,以 AI 为基础去清洗出干净的核心数据。
不然每次有数据采集需求,都需要单独去开发相应的脚本会非常耗时。
等过几天放假,再去仔细研究下市面上的开源方案,看看能不能将这部分需求做出来。
晚上有事,随意分享下。






