要爬网页,选哪个爬虫好?Nutch? Heritrix?


爬网,该选哪个爬虫?疯子。Heritrix?爬网,该选哪个爬虫?疯子。Heritrix?简介:爬取网页的指定信息时,不需要保存整个页面。 比如阿里巴巴的需求信息被抓取并转换成本地的数据结构数据库进行存储。 当然,如果它的需求信息更新了,我也要更新我的本地数据,所以还是要判断网页是否更新。 索引和查询的Luc
转载请注明原文地址:https://juke.outofmemory.cn/read/1917587.html

最新回复(0)