爬虫违法吗

量化分析2022-07-07 38

先下结论，技术无罪，人有罪。爬虫技术本身并不违法，但是利用爬虫技术做损害他人利益的事情是违法的。

具体的法律条文我记不清了。目前，对于爬虫技术的使用范围还没有一个特别明确的规定。根据我之前咨询律师得到的答案，大概涉及到这三个方面:采集方式、采集行为、使用目的。

如何抓取数据是最重要的一点。一般来说，未公开、未经许可的带有敏感信息的数据，无论通过什么渠道，都是违法行为。

采集行为中技术手段的使用要有所克制，一些容易对服务器和商家造成干扰甚至损害的行为容易触犯法律。

还有就是使用目的。即使你通过合法途径收集数据，如果你没有正确使用数据，也会有违法行为。在一种情况下，收集的数据是公开的，但事先告知的使用目的没有得到遵守。比如有的网站注明内容不得用于商业活动，有的未经授权不得转载。有些是受法律保护的，要注意使用。

最后，结合实际情况，给出一些建议。

1、爬虫访问频率二级控制，不使对方服务器崩溃。

虽然你爬取的信息是公开的，不涉及公民隐私，但你爬取的数据并不是用于非法牟利，只是为了好玩。但是，如果你的爬虫疯狂到一分钟10000个请求，对方服务器就会不堪重负，无法处理正常业务。对不起，这种爬虫是违法的。这种爬虫相当于黑客，你让人家无法正常工作，从而损害对方利益。

2.不能爬涉及个人隐私的信息。

其实很好理解。你希望自己的电话号码、身份证号、家庭住址、工作单位、行踪轨迹等隐私信息被别人抓取吗？当然，我不希望别人抓到你的信息。你肯定想去警察局，对吗？让警察抓住坏人。好吧，别做坏人。

3.突破网站的反抓取措施，后果很严重。

正规的网站都会把robots.txt放在根目录下，里面规定了哪些可以爬，哪些不可以，哪些可以爬。比如知乎里的robots.txt，人家想让搜索引擎爬上去，别人就不接受。

但是，知乎并没有采取特别严厉的防爬措施。也就是说，如果你偷偷爬什么东西，不影响它的正常服务，它就不会打扰你。但是对于那种反爬特别严重的，比如淘宝，你最好不要爬。如果你真的用你的高智商突破了淘宝的反抓取措施，那么恭喜你，你已经违法了。

4.不要用抓取的数据进行不正当竞争。

比如你把大众点评的所有评论数据都爬下来，然后自己做一个xx评论，这个肯定不行。你可以轻而易举的得到别人积累的数据，直接用来和别人竞争，你不这样谁会犯法？

5、付费内容，你不抓

既然是付费内容，就说明价值高，只有付费才能看。如果你把它弄下来，你想做什么？如果私自传播，会对网站造成潜在的损失。

6.最后一个，突破网站反抓取措施的代码，最好不要上传到网上。

你的技术很牛逼，可以突破网站的反抓取措施。你把这些代码发布在互联网上，比如github。你自己没有做坏事，但是想做坏事的人用了你的代码，入侵了网站。所以，这种情况下，你也有责任。这听起来有点不公正，但确实存在这样的风险。所以，最好不要做。

转载请注明原文地址:https://juke.outofmemory.cn/read/628073.html

爬虫