不论是固定的电脑网络还是以手机为终端的移动网络。使用者会经常遇到一种最常见的现象,这就是只要搜索或者关注某方面的信息,那么马上就会有网络上大量的、与之相类似的信息被“推荐”。绝大部分都是网络小广G,甚至有大量的垃圾信息。那么在信息流量堪称浩如烟海的网络上,怎么会被精确到每个用户到底关注什么呢?其实这就是运用了网络爬虫技术。估计有人对爬虫二字看起来就发毛。与自然接触少的城里长大的人,很多都天生怕虫子,不过对从小烧烤蒸煮过无数虫子蚂蚱的老一代人来说,虫子又有什么可怕的?网络爬虫说到底就是一种小程序,属于按照一定的规则,自动抓取全球网络上的程序和脚本。对网络用户关注的信息进行分析和统计,最终作为一种网络分析资源来获得特定的利益。
网络爬虫技术和搜索引擎有天然的近亲关系。全球各大搜索引擎,都是网络爬虫技术应用的超级大户。可以海量的抓取一定范围内的特定主体和内容的网络信息,作为向搜索和查询相关内容的储备数据资源。简单来说,网络爬虫就像一群不止疲倦的搜索机器虫,可以海量的代替人工对全球网络进行搜索,对已经传到网上的任何有价值无价值的信息资源都像蚂蚁一样背回来堆在哪里等用户,因此被叫做网络爬虫。有统计显示,目前全球固定和移动互联网上,被下载的信息中,只有不到55%是真正的活人在占据流量资源;而另外的45%,也就是接近一半,是网络爬虫和各种“机器人”在占据流量。可见网络爬虫的厉害。那么网络爬虫是如何从技术上实现对特定信息下载的呢?在于网络爬虫首先是一个下载小程序。
其从一个或若干初始网页的URL开始,获得正常网络用户初始网页上的URL。在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列。再分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索。爬虫程序本身具备有用的一面,如果没有网络爬虫技术,那么就不可能有各种用途极大的搜索引擎,所有的网络用户就在海量的信息中迷路了。但是瀚海狼山(匈奴狼山)还是那句话:过犹不及。凡事就怕被滥用。很多没有搜索引擎的公司和操作者,也能开发出简单的爬虫技术,来进行自己的网络推广。在网上的爬虫越来越多,不受控制之后,普通的网络用户就都成了最终的受害者。这等于有无数个看不见的刺探者,躲在暗处盯着每一个毫无防备的用户。
你每天看什么页面,点击的什么内容,订购什么商品,消费了多少钱,都在不知不觉的被记录被分析。让普通用户没有任何网络隐私可言。谁也不喜欢自己的一言一行都被他人记录而且还被随时分析利用。因此无处不在的爬虫程序是对用户利益的直接侵犯。而且网络爬虫也有军事上的用途和风险。当代社会经济、ZZ和军事活动其实很难分家。虽然有保密途径,也可释放一些真真假假的信息。但是用爬虫技术,通过概率分析,仍然可影响国际舆论甚至是判断出对手真正的目的。因此对网络爬虫技术的正反两方面的作用都要有清醒的认识。