听说了没,有个倒霉的哥们儿在天津因为搞了个“爬虫”技术,结果把自己爬进局子里去了,蹲了一年半的豪华单间,最后还被请去享受三年高级套房,虽然能缓刑三年。这倒霉催的,就因为在一个网站上下了几篇东西,那网站也是够呛,上的东西都是偷来的,自己都赔钱认栽了。咱们这位老兄就是手痒,想弄点素材玩玩,结果被告知:非法获取计算机信息系统罪!
你说咋整的?那网站啥防护都没有,跟个大通铺似的,谁爱进就进。这位兄弟也就是用了些基础得不能再基础的爬虫技巧,连编程新手都能笑掉大牙的那种。结果呢,检察院和法院一本正经地告诉他:孩子,你违反了网站的“robot协议”。
等这事儿落到我这儿,时间紧迫得像是网购秒杀的最后一秒,直觉告诉我,这里面水太深。要是真没啥问题,这点小事儿至于关人家一年半吗?而且还是认罪认罚的节奏。我猜检方心里也门儿清,证据啊事实啊都跟豆腐渣工程似的,法律条文也支支吾吾的,估计他们自己都说不利索,只好让嫌疑人赶紧签字画押,好把这烫手山芋扔出去。
说起“爬虫技术”,前两年还挺火,网贷平台拿它来搞用户信息,闹得人心惶惶。但您说公检法如果现在还对这玩意儿一惊一乍的,是不是该补补课了?或者找个懂行的问问?
作为一枚会码又会法的全栈网络工程师兼执业律师,我觉得我有责任来科普一下(注意啦,案子判了,咱不评论对错)。
首先,“爬虫技术”是啥?跟搜索引擎的“爬虫蜘蛛”有啥关系?
告诉你哈,现在说的“爬虫技术”跟搜索引擎的爬虫可不是一回事儿。
我们这爬虫技术啊,就是自动化下载网站内容的小工具,模仿的是浏览器实现HTTP协议的过程。你看,网站能在我们电脑上显示,是因为浏览器把代码解析了嘛。而“爬虫技术”就是用代码代替浏览器干活儿,把信息抓回来。打个比方,就像用windows操作系统和DOS操作系统的区别,一个点鼠标,一个敲命令。
用“爬虫技术”的好处就是比浏览器快准狠,还能挑着自己要的信息拿,别的一概不要。
至于跟搜索引擎的爬虫的区别嘛,那就是天和地,只是看起来有点像罢了,大家别搞错了,虽然“爬虫”这词儿挺火,但此爬非彼爬。咱们说的搜索引擎那个小爬,它可是大明星,到处串门儿,把网上的东西都搜罗一遍,然后搭个目录棚,让大伙儿找东西方便。至于现在流行的那个爬虫技术,它可就专一了,只对那一两个网站情有独钟,别的一概不理。
再说说robots协议和爬虫技术,这两者其实没那啥关系。有些律师公众号啊,为了拉生意,真是啥都敢写,把两者硬扯一块儿,纯属瞎忽悠。robots协议其实就是给那些搜索引擎的小蜘蛛们看的,告诉它们哪些家底儿是不能乱翻的。就好比告诉黄页公司,别把我家的地址电话乱发一样。而且这协议藏在网站的根目录下,普通用户是看不见的,说明它根本不是给咱普通人看的嘛。
所以啊,robots协议就是个悄悄话,不是公开的规矩,不仅管不着普通网友,对用爬虫技术的小伙伴也是没啥约束力的。
最后聊聊,什么时候用爬虫技术会惹麻烦呢?要是你爬的内容是有版权的,还拿来做生意,那就可能摊上侵犯著作权的事儿了。如果你手贱,爬了些敏感的东西,比如跟恐怖活动、国家安全有关的,那就更麻烦。还有啊,要是你不小心爬到了别人的个人信息或者隐私,那也是自找苦吃。
还有啊,你要是太过分了,比如注册一大堆假账号,用一堆代理服务器,把人家网站挤爆了,那你也等着挨板子吧。就算你爬的东西不违法,但你明知道别人会用来干坏事,比如散布谣言、搞诈骗,那你也得小心,可能会被当成帮凶处理哦。
新出的《数据安全法》也说了,收集数据得合法合规,不能偷不能抢。
最后的最后,笔者在这儿呼吁一下,各位法律大佬们,在自己不太懂的领域里,可得谦虚点儿,别动不动就给人定罪。刑法得慎重,无罪推定这可是司法的大原则啊!