「网页爬虫」的强大和危险

vlambda
2021-06-04

「网页爬虫」的强大和危险

网页爬虫

「网页爬虫」是一个脚本或程序

可以快速的抓取并保存网页上的信息和内容

也可以称之为「网页蜘蛛」

Web Crawler

第

点

—The first—

简单介绍

我们可以把网页爬虫想像成一个机器人，可以在页面上抓取指定内容

「网页爬虫」的强大和危险

步骤1：将想要抓取数据的URL链接告诉网页爬虫（这些URL也可以称为种子）

步骤2:爬虫辨认出URL链接中的所有超链接，然后添加到一个URL列表中（这个列表可以称为检索前沿）

「网页爬虫」的强大和危险

步骤3: 在列表中的URL链接会被爬虫反复访问，并且在访问过程中，通过指定的逻辑，抓取想要得到的信息（这个处理可以称为网络抓取）

第

点

—The second—

常用爬虫分类

通用网络爬虫

General Purpose

又可以称作「全网爬虫」。
使用最为频繁的爬虫，主要用于搜索引擎和WEB服务提供商采集数据。
因为商业原因，技术细节不会被公布出来。
这类爬虫范围巨大（整个网络）和数量巨大，所以对于处理速度和存储空间要求高（用来储存抓取到的数据）。
使用此爬虫的搜索引擎：Yahoo！，Google等。
深度优先策略：依次访问向下一级的网页链接，直到不能再深入。这种优先策略适合站内搜索，但如果访问的层级太深的话，会造成资源的巨大浪费。
广度优先策略：优先访问较浅层级的网页，遍历玩了之后再进入下一层。这种优先策略避免陷入无限循环的问题，但是需要较长时间进入深层页面

三个缺点：

搜索引擎会返回大量用户不关心的网页
有限的搜索引擎服务器资源与无限的网络数据之间的矛盾
不能很好的发现和获取图片、数据库、音频和视频数据

聚焦网络爬虫

Focused

又可以称作「主题网络爬虫」
可以选择性地爬行那些与特定主题相关的网页
只爬行与主题相关的页面，极大的节省了硬件资源和网络资源
此爬虫的关键是给页面内容进行重要性排比
基于内容的策略：将用户输入的查询词作为主题，包含查询词的页面被视为与主题相关
基于链接结构的策略：通过逐个计算每个页面的Authority权重和Hub权重来决定页面的重要性
基于增强学习的策略：利用贝叶斯分类器算出每个网页的重要性
基于语境的策略：太过复杂，如果想要了解，复制下面链接查看其论文 https://xueshu.baidu.com/usercenter/paper/show？paperid=4b14360332ed45e0e9d65062ee63c526&site=xueshu_se

第

点

—The third—

爬虫容易涉及的三重罪

「网页爬虫」的强大和危险

罪名

Accusations

侵犯公民个人信息罪

爬取的数据信息属于公民个人信息范畴
利用爬虫技术获取的公民个人信息为非法获取的
非法获取公民个人信息达到“情节严重”
相关法律依据：《刑法》第253条:向他人出售或者提供公民个人信息

2. 构成非法获取计算机信息系统数据罪

利用爬虫技术侵入计算机信息系统获取数据，或采用其他技术手段获取计算机信息系统数据
非法获取计算机信息系统数据达到“情节严重”以上的标准
违反国家规定，侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的

3. 非法侵入计算机信息系统罪

提供数据信息的网站为国家事务、国防建设、尖端科学技术领域的计算机信息系统
对计算机信息系统具有侵入行为

风控行业陷入噩梦

作为风控公司，需要大量的数据以进行比对和制作出风控程序，所以需要大量在网页上进行抓取数据。
每次用爬虫都有触犯法律的危险。
2019年09月06日，大数据风控平台杭州魔蝎科技有限公司的CEO被警方带走进行调查，就是因为大量使用爬虫，并进行了非法的隐私侵犯。
有一家技术公司做了一个爬虫程序来进行学习，后来全公司200多人被抓。
有一家外卖平台，一位员工用了公司的权限做了一个爬虫软件（老板不知情），后来被发现了，此员工入狱4～5年，老板入狱1～2年。

计算机行业的道德

作为计算机行业公司，需要非常谨慎触犯法律的代码
一定要遵守严格的制作程序规则，不然你就会获得精美手铐一副，简约囚服一套，和监狱1～5年游的“奖励”

往期文章传送门：

推

荐

「网页爬虫」的强大和危险

图片：网络

文章：小黑

排版：小黑

来都来了，点个在看再走吧！

点击“阅读原文” 关注「先驱者PRO」

vlambda博客
学习文章列表