vlambda博客
学习文章列表

Ajax-hook获取秒级股票详细数据

Ajax-hook获取秒级股票详细数据

分析数据

首先看看有哪些数据可以获取:

  • 网站:雪球网,随便打开一只股票。

可以发现,在工作日期间,每隔几秒都会有这么多xhr请求。看看里面有一些什么数据:Ajax-hook获取秒级股票详细数据

Ajax-hook获取秒级股票详细数据
Ajax-hook获取秒级股票详细数据

仔细研究可以发现,基本上页面上的数据都可以找到,除了实时的ticks数据,还有什么五档盘口,成交明细等等。大概这个页面的数据都可以,有兴趣就去慢慢对应吧(代码里应该有相关映射)。

实现思路与代码

按照正常逻辑,我们只要去不断的请求这些接口就可以获取到数据了,而且这些数据基本上没有什么加密(就是没有。。)。但是,我们还要考虑网络请求延迟的问题,要是你的网络不好,有可能出现卡顿的情况,导致数据缺失。而且,我们通常是要同时请求几千只股票,每只股票都有好几个接口。

那现在我们可以尝试用另外一种方式来获取数据,既然都是xhr请求,那么就能不能hook到数据,然后自动发给我们的接口,被动式的接收数据呢?

这里有一个神奇的项目:https://github.com/wendux/Ajax-hook

话不多说,上关键Python代码。

1. 开启数据接收接口

flask开启一个专门接收数据的接口,后续可以对数据进行处理,清洗保存数据。

@app.route('/receiver/', methods=['POST'])
def receive():
    """接收前端hook后的数据"""
    content = json.loads(request.data)
    print(content)
    # 数据处理,清洗保存
    return jsonify({'status': True})

2. 监听xhr请求

利用Ajax-hook监听相关xhr请求,然后利用axios发送数据到我们的接口。

ah.proxy({
    //请求成功后进入
    onResponse: (response, handler) => {
        if (response.config.url.search("history") !== -1) {
            axios.post('http://127.0.0.1:5000/receiver/', {
                url: window.location.href,
                data: response.response
            });
            console.log(response.response);
            handler.next(response)
        }
    }
});

3. 打开监听页面

利用webdriver打开要监听的页面,注入相关JS

browser = webdriver.Chrome()
browser.get('https://xueqiu.com/S/SH代码')
# 打开页面,注入相关js
browser.execute_script(open('hook.js', encoding='utf8').read())

4. 结果与思考

最终我们接口会接收到和正常页面相同的xhr请求数据,后续我们可以对这些数据做进一步处理。

实现过程很简单,但是这种方法有一个很致命的问题,就是要利用webdriver,要知道,启动浏览器是很耗资源的。当然,我们也可以优化,可以同时开启很多窗口和标签页,可以放在docker容器内等等。

但是如果我不缺资源的话,我为什么不能采取分布式爬虫呢?

各有利弊,只能说提供了一种思路吧,不管有用没用,了解一下,原来还可以这样的,挺有意思的。

5. 代码

有需要的可以去这个仓库里面找一下:https://github.com/downdawn/JSreverse

- END -