vlambda博客
学习文章列表

周涛:爬虫技术的法律边界


最近,很多大数据的企业都因为非法使用“爬虫技术”受到法律制裁或导致负面结果的调查,包括同盾科技、51信用卡、摩羯科技、新颜科技、公信宝、聚信立、公信宝、存信、信用管家等等(完整的名单长得可以盘在腰间)!爬虫技术似乎一下子披上了魔鬼的外衣,甚至感觉这个技术本身就已经和违法不可分了。


最近,我读了一些相关的分析,特别拜读了李慧敏和冉德勇写的《论爬虫抓取数据行为的法律边界》一文。下面我结合这些学习材料和我自己工作的经验,谈一下自己的观点。


第一,爬虫技术是一项价值巨大的好技术!


我认为爬虫技术是在信息过载的时代,我们能够高效获取有价值的关键技术(价值超过PageRank及其变体),如果没有爬虫技术,就不会有搜索引擎,很多重要的互联网应用也不可能。作为一个研究人员,我非常感谢爬虫技术,举个例子,如果没有这个技术,我觉得NLP这些研究都将变得非常昂贵和困难!


每一个用互联网的人都要感谢这个技术,这个技术即便能被坏人用来做坏事,但是其产生的破坏远远不如贡献,就好像我很难想象中国“禁刀”或“禁机动车”,尽管这无疑会降低一些恶性案件和交通事故。所以,普罗大众不要一边享受爬虫技术带来的福利,一边给这个技术泼污水。


第二,很多网络上提到的因“爬虫”获罪的企业和个人,实际上使用了其他不正当的黑客技术。



所以,用户和媒体不应该把这些违法行为归罪于爬虫技术本身,而技术人员要非常小心,如果你所在的企业要求你做一些明显超出合理合法范围的数据获取工作,一定要坚定拒绝甚至向公安部门举报,因为最后如果出事儿了,就算你本人不知道这些数据是干什么用的,也没有从中获得任何超额收益(钱都被老板赚走了),你依然会接受法律的制裁,情节严重的甚至要负刑事责任。


第三,爬虫技术不能用来进行不正当竞争、损害版权或事实上的Dos攻击。


在2017年11月新修订的《反不正当竞争法》中增加了运用网络从事生产经营活动的规制。在超越双方协议规定(或没有协议但是超出一般爬虫获取数据范围)情况下结合爬虫和其他技术,劫持用户流量,通过获取涉及商业机密的数据,而导致对方产生损失或己方得利(不一定是直接竞争得利,也包括在其他地方得利),篡改相关数据(例如用爬虫模拟投票或者广告点击,导致损失)等等,都属于不正当竞争。


另外,科研工作者特别要注意,我们可能会批量下载一些论文和数据(这些都涉及版权问题),并且可能会在自己的学术网站上进行公开,那么最安全的方式是给出链接,直接链到原始网站上,而不是在自己的服务器上直接提供下载服务——后者是典型的侵害版权行为。


如果为了方便,在某些特定方向上整理了一些论文和数据,希望按照主题公开并且让读者方便在本地下载(很多国外网站在中国被屏蔽了,有时候给出链接没毛用),那么请一定注意几件事:


(1)同时给出原出处的链接;


(2)给出对原出处的描述和必要参考文献的引用说明;


(3)告知原出处相关的网站所有人、作者或版权拥有方,得到他们的同意;


(4)不要放太多;


譬如共享付费文章明显是个违反版权的行为,但是如果你只是给出几个pdf,那么版权方也拿你没办法,因为量太小了,但你一下子搞几百上千篇,就有问题了。为了省钱,我有时会盗版打印复印国外教材/专著给实验室学生和同事,但每次也就是三五本,如果印几百上千本,就属于违法了。我是直白说,有些喜欢举道德大棒的喷子如果要讲道德,我就不一一回复了。


(5)最后就是爬取网站不能请求太密集,否则就构成了事实上的Dos攻击,经营者可以按此起诉。


第四,用正常手段爬取公开数据是正当权利,不当使用反爬技术可能违反“反垄断法”。


中国目前的法律过度包括运营者,而没有保护爬取者的利益,实际上运营者如果没有合法理由,是不能进行过度反爬取或进行歧视性反爬取。最近国外一个典型的案子判定LinkedIn不得采取反爬或其他黑名单手段(以及其他法律和技术手段)阻止Hi Q公司(潜在竞争对手)爬取、复制LinkedIn公司网站的公开信息。中国也有百度和360的官司,很类似。



周涛:爬虫技术的法律边界


很希望用户、媒体、技术界和法学界能够理性、全面地评价爬虫技术,充分、深入展现爬虫技术的边界和利弊。也希望看到一些正常合理的爬虫技术应用方在受到不合理对待后,也能够举起法律的武器,避免垄断方成为数据独裁者!


以上这些观点完全出自我这个没有任何法律专业知识的人,仅供大家参考。



周涛:爬虫技术的法律边界



推荐阅读:










- DataCastle -