爬虫违法吗

量化分析2022-07-07  35

先下结论,技术无罪,人有罪。爬虫技术本身并不违法,但是利用爬虫技术做损害他人利益的事情是违法的。

具体的法律条文我记不清了。目前,对于爬虫技术的使用范围还没有一个特别明确的规定。根据我之前咨询律师得到的答案,大概涉及到这三个方面:采集方式、采集行为、使用目的。

如何抓取数据是最重要的一点。一般来说,未公开、未经许可的带有敏感信息的数据,无论通过什么渠道,都是违法行为。

采集行为中技术手段的使用要有所克制,一些容易对服务器和商家造成干扰甚至损害的行为容易触犯法律。

还有就是使用目的。即使你通过合法途径收集数据,如果你没有正确使用数据,也会有违法行为。在一种情况下,收集的数据是公开的,但事先告知的使用目的没有得到遵守。比如有的网站注明内容不得用于商业活动,有的未经授权不得转载。有些是受法律保护的,要注意使用。

最后,结合实际情况,给出一些建议。

1、爬虫访问频率二级控制,不使对方服务器崩溃。

虽然你爬取的信息是公开的,不涉及公民隐私,但你爬取的数据并不是用于非法牟利,只是为了好玩。但是,如果你的爬虫疯狂到一分钟10000个请求,对方服务器就会不堪重负,无法处理正常业务。对不起,这种爬虫是违法的。这种爬虫相当于黑客,你让人家无法正常工作,从而损害对方利益。

2.不能爬涉及个人隐私的信息。

其实很好理解。你希望自己的电话号码、身份证号、家庭住址、工作单位、行踪轨迹等隐私信息被别人抓取吗?当然,我不希望别人抓到你的信息。你肯定想去警察局,对吗?让警察抓住坏人。好吧,别做坏人。

3.突破网站的反抓取措施,后果很严重。

正规的网站都会把robots.txt放在根目录下,里面规定了哪些可以爬,哪些不可以,哪些可以爬。比如知乎里的robots.txt,人家想让搜索引擎爬上去,别人就不接受。

但是,知乎并没有采取特别严厉的防爬措施。也就是说,如果你偷偷爬什么东西,不影响它的正常服务,它就不会打扰你。但是对于那种反爬特别严重的,比如淘宝,你最好不要爬。如果你真的用你的高智商突破了淘宝的反抓取措施,那么恭喜你,你已经违法了。

4.不要用抓取的数据进行不正当竞争。

比如你把大众点评的所有评论数据都爬下来,然后自己做一个xx评论,这个肯定不行。你可以轻而易举的得到别人积累的数据,直接用来和别人竞争,你不这样谁会犯法?

5、付费内容,你不抓

既然是付费内容,就说明价值高,只有付费才能看。如果你把它弄下来,你想做什么?如果私自传播,会对网站造成潜在的损失。

6.最后一个,突破网站反抓取措施的代码,最好不要上传到网上。

你的技术很牛逼,可以突破网站的反抓取措施。你把这些代码发布在互联网上,比如github。你自己没有做坏事,但是想做坏事的人用了你的代码,入侵了网站。所以,这种情况下,你也有责任。这听起来有点不公正,但确实存在这样的风险。所以,最好不要做。

转载请注明原文地址:https://juke.outofmemory.cn/read/628073.html

最新回复(0)