对于互联网爬虫技术的企业合规建议

vlambda
2020-07-04

对于互联网爬虫技术的企业合规建议

点击蓝字

网络爬虫是一种按照指定规则运行的程序，其能够在繁杂的网络信息中收集、提取目标规则所需要的指定数据。网络爬虫技术能够高效快捷帮助企业获得需求信息数据，因此已广泛地应用于众多场景。这种随着当前互联网经济的迅猛发展以及信息量的爆炸增长，网络爬虫技术逐渐渗透在工作生活的方方面面。

在新浪微博诉脉脉软件案中，原告新浪微博是一个拥有过亿用户的社交媒体平台，在多年的经营活动中积累了大量的用户数据信息。被告脉脉是一款基于移动端的人脉社交应用，致力于帮助职场用户管理和拓展人脉。2013 年 9 月，双方通过签订《开发者协议》，原告向被告提供 API 接口，允许其获取原告平台上包括用户名称、性别、头像、标签等相关用户普通信息。在《开发者协议》中，新浪微博强调“用户数据”是微博的商业秘密，双方停止合作后，脉脉应当立即停止使用并立即删除从新浪微博处获得的用户数据。2014 年 8 月 15 日，因新浪微博认为脉脉违反《开发者协议》，非法抓取其用户的教育、职业、手机号等高级信息，双方终止了合作。后新浪微博以脉脉非法抓取和使用其数据、商业模式模仿、商业诋毁为由，向法院提起不正当竞争之诉。该案中，诉争的数据信息涉及新浪微博的用户数据和新浪微博用户与手机通讯录的对应关系。

一审法院认为，原告新浪微博与被告脉脉之间存在竞争关系，由于原告新浪微博的“用户数据”等高级信息为商业秘密，被告的抓取行为未得到许可或授权，属于不劳而获的“搭便车”行为，主观上存在过错。从本质上来说，脉脉超越约定权限，非法抓取、使用新浪微博用户数据的行为违反了诚实信用原则和商业道德，构成不正当竞争。后被告脉脉不服提起上诉，二审法院明确互联网新型不正当竞争案件适用一般条款的“六个条件”，并提出第三方应用使用数据应当遵守“用户授权+平台授权+用户授权”的三重许可原则，在此基础上，二审法院认定脉脉的行为违反了反不正当竞争法的一般条款，构成不正当竞争。

启示与建议

对于企业来说，面对日新月异的互联网技术发展，完善合规体系的搭建是实现企业长远发展的重要基石。爬虫技术本身虽是“技术中立”，但是不当的使用行为却可能为企业带来法律风险。

一方面，如企业作为爬虫技术的使用方，在进行抓取时要慎重克制，遵守数据来源网站的robots协议或者其他相关公示的规则或协议。同时，不能损害源网站的正常运行和生产经营，不能破坏其本身的技术保护措施。在抓取涉及个人的信息时，应遵守《个人信息安全规范》的相关要求，判断是否满足“用户授权+平台授权+用户授权”的三重许可原则。通过抓取行为收集到的数据在使用处理中，如涉及到个人信息或敏感信息，亦须遵守授权许可的相关要求。

另一方面，作为源网站运营者，对于系统的基础网络、外部业务系统、内部管理办公系统及安装在系统之上的各类应用都需进行不同等级的保护，搭建安全稳定运行的系统。对属于企业商业秘密的核心数据信息应提高保护意识，不论是基础安全系统的构建还是在数据对外传输提供中所涉及的合作协议内容，都需明确核心数据的使用范围和获取途径。

作者简介

孙鸣翼

华南理工大学法律硕士，苏州大学苏州知识产权研究院法律部主任助理，具有法律职业资格。目前为政企提供知识产权相关课题研究、管理保护、咨询维权、纠纷解决等专业知识产权法律服务。

往期回顾

苏州大学苏州知识产权研究院

vlambda博客
学习文章列表