「网页爬虫」的强大和危险
「网页爬虫」是一个脚本或程序
可以快速的抓取并保存网页上的信息和内容
也可以称之为「网页蜘蛛」
Web Crawler
第
1
点
—The first—
简单介绍
我们可以把网页爬虫想像成一个机器人,可以在页面上抓取指定内容
步骤1:将想要抓取数据的URL链接告诉网页爬虫(这些URL也可以称为种子)
步骤2:爬虫辨认出URL链接中的所有超链接,然后添加到一个URL列表中(这个列表可以称为检索前沿)
步骤3: 在列表中的URL链接会被爬虫反复访问,并且在访问过程中,通过指定的逻辑,抓取想要得到的信息(这个处理可以称为网络抓取)
第
2
点
—The second—
常用爬虫分类
01
通用网络爬虫
General Purpose
又可以称作「全网爬虫」。
使用最为频繁的爬虫,主要用于搜索引擎和WEB服务提供商采集数据。
因为商业原因,技术细节不会被公布出来。
这类爬虫范围巨大(整个网络)和数量巨大,所以对于处理速度和存储空间要求高(用来储存抓取到的数据)。
使用此爬虫的搜索引擎:Yahoo!,Google等。
深度优先策略:依次访问向下一级的网页链接,直到不能再深入。这种优先策略适合站内搜索,但如果访问的层级太深的话,会造成资源的巨大浪费。
广度优先策略:优先访问较浅层级的网页,遍历玩了之后再进入下一层。这种优先策略避免陷入无限循环的问题,但是需要较长时间进入深层页面
三个缺点:
搜索引擎会返回大量用户不关心的网页
有限的搜索引擎服务器资源与无限的网络数据之间的矛盾
不能很好的发现和获取图片、数据库、音频和视频数据
02
聚焦网络爬虫
Focused
又可以称作「主题网络爬虫」
可以选择性地爬行那些与特定主题相关的网页
只爬行与主题相关的页面,极大的节省了硬件资源和网络资源
此爬虫的关键是给页面内容进行重要性排比
基于内容的策略:将用户输入的查询词作为主题,包含查询词的页面被视为与主题相关
基于链接结构的策略:通过逐个计算每个页面的Authority权重和Hub权重来决定页面的重要性
基于增强学习的策略:利用贝叶斯分类器算出每个网页的重要性
基于语境的策略:太过复杂,如果想要了解,复制下面链接查看其论文 https://xueshu.baidu.com/usercenter/paper/show?paperid=4b14360332ed45e0e9d65062ee63c526&site=xueshu_se
第
3
点
—The third—
爬虫容易涉及的三重罪
01
罪名
Accusations
侵犯公民个人信息罪
爬取的数据信息属于公民个人信息范畴
利用爬虫技术获取的公民个人信息为非法获取的
非法获取公民个人信息达到“情节严重”
相关法律依据:《刑法》第253条:向他人出售或者提供公民个人信息
2. 构成非法获取计算机信息系统数据罪
利用爬虫技术侵入计算机信息系统获取数据,或采用其他技术手段获取计算机信息系统数据
非法获取计算机信息系统数据达到“情节严重”以上的标准
违反国家规定,侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的
3. 非法侵入计算机信息系统罪
提供数据信息的网站为国家事务、国防建设、尖端科学技术领域的计算机信息系统
对计算机信息系统具有侵入行为
02
风控行业陷入噩梦
作为风控公司,需要大量的数据以进行比对和制作出风控程序,所以需要大量在网页上进行抓取数据。
每次用爬虫都有触犯法律的危险。
2019年09月06日,大数据风控平台杭州魔蝎科技有限公司的CEO被警方带走进行调查,就是因为大量使用爬虫,并进行了非法的隐私侵犯。
有一家技术公司做了一个爬虫程序来进行学习,后来全公司200多人被抓。
有一家外卖平台,一位员工用了公司的权限做了一个爬虫软件(老板不知情),后来被发现了,此员工入狱4~5年,老板入狱1~2年。
03
计算机行业的道德
作为计算机行业公司,需要非常谨慎触犯法律的代码
一定要遵守严格的制作程序规则,不然你就会获得精美手铐一副,简约囚服一套,和监狱1~5年游的“奖励”
E
N
D
往期文章传送门:
推
荐
图片:网络
文章:小黑
排版:小黑
来都来了,点个在看再走吧!
点击“阅读原文” 关注「先驱者PRO」