Ajax-hook获取秒级股票详细数据
Ajax-hook获取秒级股票详细数据
分析数据
首先看看有哪些数据可以获取:
-
网站:雪球网,随便打开一只股票。
可以发现,在工作日期间,每隔几秒都会有这么多xhr
请求。看看里面有一些什么数据:
仔细研究可以发现,基本上页面上的数据都可以找到,除了实时的ticks
数据,还有什么五档盘口,成交明细等等。大概这个页面的数据都可以,有兴趣就去慢慢对应吧(代码里应该有相关映射)。
实现思路与代码
按照正常逻辑,我们只要去不断的请求这些接口就可以获取到数据了,而且这些数据基本上没有什么加密(就是没有。。)。但是,我们还要考虑网络请求延迟的问题,要是你的网络不好,有可能出现卡顿的情况,导致数据缺失。而且,我们通常是要同时请求几千只股票,每只股票都有好几个接口。
那现在我们可以尝试用另外一种方式来获取数据,既然都是xhr请求,那么就能不能hook到数据,然后自动发给我们的接口,被动式的接收数据呢?
这里有一个神奇的项目:https://github.com/wendux/Ajax-hook
话不多说,上关键Python代码。
1. 开启数据接收接口
用flask
开启一个专门接收数据的接口,后续可以对数据进行处理,清洗保存数据。
@app.route('/receiver/', methods=['POST'])
def receive():
"""接收前端hook后的数据"""
content = json.loads(request.data)
print(content)
# 数据处理,清洗保存
return jsonify({'status': True})
2. 监听xhr请求
利用Ajax-hook
监听相关xhr
请求,然后利用axios
发送数据到我们的接口。
ah.proxy({
//请求成功后进入
onResponse: (response, handler) => {
if (response.config.url.search("history") !== -1) {
axios.post('http://127.0.0.1:5000/receiver/', {
url: window.location.href,
data: response.response
});
console.log(response.response);
handler.next(response)
}
}
});
3. 打开监听页面
利用webdriver
打开要监听的页面,注入相关JS
。
browser = webdriver.Chrome()
browser.get('https://xueqiu.com/S/SH代码')
# 打开页面,注入相关js
browser.execute_script(open('hook.js', encoding='utf8').read())
4. 结果与思考
最终我们接口会接收到和正常页面相同的xhr请求数据,后续我们可以对这些数据做进一步处理。
实现过程很简单,但是这种方法有一个很致命的问题,就是要利用webdriver
,要知道,启动浏览器是很耗资源的。当然,我们也可以优化,可以同时开启很多窗口和标签页,可以放在docker
容器内等等。
但是如果我不缺资源的话,我为什么不能采取分布式爬虫呢?
各有利弊,只能说提供了一种思路吧,不管有用没用,了解一下,原来还可以这样的,挺有意思的。
5. 代码
有需要的可以去这个仓库里面找一下:https://github.com/downdawn/JSreverse