分布式数据分析利器 PySpark 背后的原理
Spark运行时架构
Driver端运行原理
开启Py4j GatewayServer
通过Java Process方式运行用户上传的Python脚本
实例化Py4j GatewayClient,连接JVM中的Py4j GatewayServer,后续在Python中调用Java的方法都是借助这个Py4j Gateway
通过Py4j Gateway在JVM中实例化SparkContext对象
开启Py4j GatewayServer
通过Java Process方式运行用户上传的Python脚本
实例化Py4j GatewayClient,连接JVM中的Py4j GatewayServer,后续在Python中调用Java的方法都是借助这个Py4j Gateway
通过Py4j Gateway在JVM中实例化SparkContext对象