vlambda博客
学习文章列表

深入浅出 JVM 系列(一)初识 JVM

阅读本文大概需要 5.6 分钟

前言

在 Java 开发中,我们经常会提到 JVM。我们知道 JVM 是 Java 虚拟机,但是它的运行原理是什么?它的内存结构是什么?如何进行优化?如何去定位问题?面试中遇到 JVM 问题如何回答?

接下来我会开启 JVM 的章节,为大家一一解答上面的问题。现在就开启我们的 JVM 学习之路吧!

什么是 JVM?

面试官:什么是 JVM?

小李:JVM(Java Virtual Machine)是 Java 虚拟机,用于运行 Java 编译后的二进制字节码,最后生成机器指令。(心里一想,简简单单)

面试官:那为什么 Java 研发体系需要 JVM?你对 JVM 的运行原理了解多少?我们写的 Java 代码到底是如何运行起来的?

小李:嗯。。。就是。。。嗯。。。是那个。。。嗯。。。

面试官:面试就到这里了,先回去等通知吧。

小李:好的!(哭着回答)


这里面试官对小李进行三连问:

  1. 为什么 Java 研发体系需要 JVM?

  2. 你对 JVM 的运行原理了解多少?

  3. 我们写的 Java 代码到底是如何运行起来的?

这套组合拳看似很厉害,其实就是军体拳。

深入浅出 JVM 系列(一)初识 JVM

如果想完美的练这套军体拳,不,是完美的回答这三个问题,就需要首先要了解 JVM 是什么?它和 Java 是什么关系?又和 JDK 什么渊源?那要弄清楚这些问题,就需要从三个维度去思考:

  • JVM 和操作系统的关系;

  • JVM 、JRE、JDK 的关系;

  • Java 虚拟机规范和 Java 语言规范的关系。

弄清楚这这几者的关系,我们再通过一个简单代码示例来看一个 Java 程序到底是如何执行的。

JVM 和 操作系统的关系

我们知道炼制一把牛逼的大宝剑,不仅需要上等的技术,还需要一鼎经百炼的剑炉。而工程师就相当于铸剑的剑师,JVM 便是剑炉。

深入浅出 JVM 系列(一)初识 JVM

JVM 就是我们耳熟能详的 Java 虚拟机。它能识别 .class 后缀文件,并且能够解析它的指令,最终调用操作系统上的函数,完成我们想要的操作。

Java 程序和 C++ 程序有什么不同呢?这里用两张图进行说明。

深入浅出 JVM 系列(一)初识 JVM
深入浅出 JVM 系列(一)初识 JVM

对比两张图可以看到 C++ 开发的程序可以翻译成操作系统能识别的 .exe 文件。而 Java 程序需要通过 javac 编译成 .class 文件之后,然后由 JVM 负责调用系统函数执行程序,操作系统并不认识 .class 文件。

那读者就劝小李了,转 C++ 开发吧,这 Java 还搞了一个处于程序和操作系统的虚拟机,不像 C++ 编译后直接在操作系统上运行,肯定不是啥好玩意。

深入浅出 JVM 系列(一)初识 JVM

我就知道你们坏的很,知道 JVM 的过人之处,还不告诉小李。那我给小李讲讲 JVM 的过人之处:

Java 是一门抽象度特别高的语言,提供了自动内存管理等一系列的特性。这些特性在操作系统上基本上是无望了,所以就需要 JVM 进行一番转换。

经过上面的介绍,我们可以做如下的类比:

  • JVM:等同于操作系统;

  • Java 字节码:等同于汇编语言。

Java 字节码还是比较容易读懂,从侧面上也证明了 Java 语言的抽象程度高。我们可以认为 JVM 是一个翻译器,会持续不断的翻译执行 Java 字节码,然后调用真正的操作系统函数,这些操作系统函数是与平台息息相关的。

可以把 JVM 想象一个有道词典,.class 文件是英文,而输出的结果是中文。有道词典有 windows版本,也有 Linux 版本,内部具体的实现肯定不同,但最终都会得到相同的结果,这样就好理解一些了)

深入浅出 JVM 系列(一)初识 JVM

当有个 JVM 这个抽象层,就可以实现跨平台了。JVM 只需要正确执行 .class 文件,就可以运行在 Linux、Windos、MacOS 等平台了。

Java 跨平台的意义在于一次编译,处处运行,这里 JVM 功不可没。比如在 Maven 仓库下载的 jar 包就可以到处运行,不需要在每个平台上再编译一次。

深入浅出 JVM 系列(一)初识 JVM

我们来概括 JVM 与操作系统之间的关系:

JVM 上承开发语言,下接操作系统,它的中间接口就是字节码。

JVM、JRE、JDK 的关系

通过上面的学习,我们了解到 JVM 是 Java 程序能够运行的核心。但是我们要知道,JVM 自己什么也干不了,你需要给它提供原料(.class 文件)。俗话说:巧妇难为无米之炊。JVM 功能虽然强大,但还是需要为它提供 .class 文件。

但是仅靠 JVM 是无法完成一次编译,到处运行的。它需要一个基本的类库,比如怎么操作文件、怎么连接网络、怎么教你出拳(小李已疯)等。而 Java 体系会一次性将 JVM 运行所需的类库都传递给它。JVM 标准加上基本类库就组成了 Java 的运行环境,就是 JRE (Java Runtime Enviroment)

JVM + 基本类库 = JRE

那 JDK 又是什么呢?

JDK 全称 Java Development Kit,Kit 是装备的意思。所以 JDK 不仅包含 JRE,还有一些小工具,比如 javac、java、jar等。

JRE + javac/java/jar 等指令工具 = JDK

JVM、JRE、JDK 它们三者之间的关系,可以用一个包含关系表示。

  • JDK > JRE > JVM

深入浅出 JVM 系列(一)初识 JVM

Java 虚拟机规范和 Java 语言规范的关系

从广义上来讲,JVM 是一种规范,它是最为官方、准确的文档;义上来讲,由于我们使用 Hotspot 更多一些,所以我们在谈到这个概念时,会将他们等同起来。

如果再加我们平常使用的 Java 语言,可以得到下面一张图。

深入浅出 JVM 系列(一)初识 JVM

左边是 Java 虚拟机规范,为字节码的解析提供一个环境。右边是 Java 语法规范,比如 switch、for、泛型、lambda 等相关的程序,最终都会编译成字节码。而字节码是链接左右两部分的桥梁。

如果 .class 文件的规格是不变的,这两部分是可以独立进行优化的。But 没有如果,现在都已经到 Java 13 了,为了支持更多的特性,肯定会增加一些字节码指令。

深入浅出 JVM 系列(一)初识 JVM

此刻优秀的小李提出了一个让人深思的问题:

如果我不学习 JVM,会影响我写 Java 代码么?

理论上,这两者没有必然的联系。他们之间通过 .class 文件进行交互,即使你不了解 JVM,也能够写大多数的 Java 代码。就像你是写 C++ 代码一样,并不需要特别深入的了解操作系统的底层是如何实现的。

那我还学个锤子!瞬间关了该页面。

深入浅出 JVM 系列(一)初识 JVM

客官别走,还有但是没说呢。

但是,如果你想要写一些比较精巧、效率比较高的代码,就需要了解一些执行层面的知识了。了解 JVM,主要用在调优以及故障排查上面,你会对运行中的各种资源分配,有一个比较全面的掌控。(是不是内心还有点小期待呢!)

深入浅出 JVM 系列(一)初识 JVM

Java 代码到底是如何运行起来的

最后,我们简单看一下 Java 程序的执行过程,了解下它到底是如何运行起来的。

这里的 Java 程序是文本格式的。比如下面这段 HelloXiaoli.java,它遵循的就是 Java 语言规范。其中,我们调用的 System.out 等模块,就是 JRE 提供的类库。

深入浅出 JVM 系列(一)初识 JVM

通过 JDK 的工具 javac 进行编译后,就会产生 HelloWorld 的字节码。

javac HelloXiaoli.java
深入浅出 JVM 系列(一)初识 JVM

Java 字节码是沟通 JVM 和 Java 程序的桥梁,下面使用 javap 来看一下字节码到底长什么样子。javap基本使用

javap -verbose HelloXiaoli.class
0 getstatic #2 <java/lang/System.out>
3 ldc #3 <Hello Xiaoli>
5 invokevirtual #4 <java/io/PrintStream.println>
8 return

Java 虚拟机采用基于栈的架构(为什么基于栈的架构详见:),其指令由操作码和操作数组成。这些字节码指令,就叫做 opcode。其中,getstatic、ldc、invokeevirtual、return 等,就是 opcode。

我们继续使用 hexdump 看一下字节码的二进制内容hexdump 命令

b2 00 02 12 03 b6 00 04 b1

我们可以看一下它们的对应关系。JVM 字节码对照表

0xb2   getstatic       获取静态字段的值
0x12   ldc             常量池中的常量值入栈
0xb6   invokevirtual   运行时方法绑定调用方法
0xb1   return          void 函数返回

opcode 是一个字节的长度(0~255),意味着指令集的操作码个数不能超过 256 条。紧跟在 opcode 后面的是被操作数。比如 b2 00 02,就代表了 getstatic #2

JVM 就是靠解析这些 opcode 和 操作数来完成程序的执行的,当我们使用 Java 命令运行 .class 文件的时候,实际上就相当于启动了一个 JVM 进程。

JVM 会翻译这些字节码,它有两种执行方式:

  • 解释执行,将 opcode + 操作数翻译成机器代码;

  • JIT,即时编译,它会在一定条件下将字节码翻译成机器码之后再执行。

即时编译器与解释器的区别?

.class 文件会被加载、存放到 metaspace 中,等待被调用,这里会有一个类加载器的概念。

JVM 的程序运行,都是在栈上完成的,这和其他普通程序的执行是类似的,分为堆和栈。比如我们程序运行到了 main 方法,就会给它分配一个栈帧。当推出方法体时,会弹出相应的栈帧。其实,大多数字节码指令,就是不断的对栈帧进行操作。

而其它大块数据,是存放在堆上的。Java 在内存划分上会更为细致,关于这些概念,会在后面的章节中详细介绍。

我们看下面的图,JVM 部分是我们系列需要讲解的部分。

小结

上面讲了这么多,让我们再回头看看面试官提问的三个问题。

  • 为什么 Java 研发系统需要 JVM?

因为 Java 是一门抽象的语言,并且有自动内存管理机制。而操作系统无法去进行自动垃圾回收等操作,所以就有了虚拟机。虚拟机可以对字节码加载、自动垃圾回收、并发等。而 JVM 只是一个规范,定义了 .class 文件的结构、加载机制、数据存储、运行时栈等诸多内容,最常用的 JVM 实现就是 Hotspot。

  • 你对 JVM 的运行原理了解多少?

JVM 的生命周期是和 Java 程序的运行一样,当程序运行结束,JVM 实例也就跟着消失了。具体的运行原理,会在后续文章中详细介绍,请关注小李哦!

  • 我们写的 Java 代码到底是如何运行起来的?

Java 程序通过 javac 编译成 .class 文件,然后虚拟机将其加载到元数据区,执行引擎将会通过混合模式执行这些字节码。执行时,会翻译成操作系统相关的函数。

过程如下:Java 文件->编译器->字节码->JVM->机器码

总结

本篇文章从三个角度了解了 JVM 在 Java 研发体系中的位置,并以一个简单的程序,看了下一个 Java 程序的执行过程。

我们说的 JVM,狭义上指的就是 HotSpot。如果没有特殊说明,我们都以 HotSpot 为准。

我们知道 Java 之所以跨平台,就是由于 JVM 的存在。Java 的字节码,是沟通 Java 语言与 JVM 的桥梁,同时也是沟通 JVM 与操作系统的桥梁。

JVM 是一个非常小的集合,我们常说的 Java 运行时环境,也就是 JRE 包含 JVM 和一部分基础类库。如果加上我们常用的一些开发工具,就构成了整个 JDK。

Java 虚拟机栈采用基于栈的架构,有比较丰富的 opcode。这些字节码可以解释执行,也可以编译成机器码,运行在底层硬件上,可以说 JVM 是一种混合执行的策略。

留两道思考题给大家:

  • 栈上都会有哪些数据?

  • 垃圾回收发生在什么地方?

思考题我会在后面的章节为大家一一解答。

参考

http://pc-shop.xiaoe-tech.com/appcCrwMYBx6232/video_details?id=v_5e14662379d00_UAifIZpt

推荐阅读