数据者,量化研究员之制胜法门者也!!!
作为一名量化狗,每天都在和数据打交道,循环往复的获取数据,清洗数据,数据建模。目前数据的主要来源是数据提供商,如:万德,聚源,天软等等。但是提供商的提供的数据都是收费的,且费用很高,并且有的数据他们是不提供的。所以作为一个合格的研究员必须有一个获取(免费)数据的能力,网页爬虫就是一个很好的方法。因为几乎所有的都会存在相应的网页上,而只要是在网页上就可以被下载下来。
本篇为网页爬虫的第一篇,为介绍一些基本的概念和所需要的技术。
(1)HTML协议
(2)网页“数据结构”,XML等
不同的服务器返回数据的方式是不一样的。有的是以HTML标签的形式返回,有的是返回XML文件,有的返回的Json数据(业界良心网站)。所以我们需要理解HTML标签之间的关系,不数据从中解析出来。
(3)数据库
解析出来的数据,想要长久保存。需要将数据保存到本地的数据库。(基本上研究员都具有该能力)
网页爬虫的大致的逻辑就是以上的三个步骤,发起数据请求,解析返回的数据,数据落库。
在接下来的文章中,小编将对各个步骤进行详细的代码解释,敬请期待。
版权声明:本站内容全部来自于腾讯微信公众号,属第三方自助推荐收录。《量化服务:通过网页爬虫获取数据》的版权归原作者「量化服务」所有,文章言论观点不代表Lambda在线的观点, Lambda在线不承担任何法律责任。如需删除可联系QQ:516101458
文章来源: 阅读原文
量化服务微信公众号:linxionwang_3478
手机扫描上方二维码即可关注量化服务微信公众号