JVM基础篇

课程体系

初识JVM

JVM 全称是 Java Virtual Machine,中文译名 Java虚拟机。JVM 本质上是一个运行在计算机上的程序,他的职责是运行Java字节码文件。

image-20240212195640949

JVM的功能

1-解释和运行

2-内存管理

3-即时编译

image-20240212195845116

Java为什么要选择一条执行效率比较低的方式呢?主要是为了实现跨平台的特性。Java的字节码指令,如果希望在不同平台(操作系统+硬件架构),比如在windows或者linux上运行。可以使用同一份字节码指令,交给windows和linux上的Java虚拟机进行解释,这样就可以获得不同平台上的机器码了。这样就实现了Write Once,Run Anywhere 编写一次,到处运行 的目标。

即时编译具体流程

image-20240212211256563

JVM提供了即时编译(Just-In-Time 简称JIT) 进行性能的优化,最终能达到接近C 、C++ 语言的运行性能甚至在特定场景下实现超越。

常见JVM种类

image-20240212211515010
image-20240212211809150

字节码文件

Java虚拟机组成

image-20240212215217838
  • 类加载子系统:核心组件类加载器,负责将字节码文件中的内容加载到内存中。
  • 运行时数据区:JVM管理的内存,创建出来的对象、类的信息等等内容都会放在这块区域中。
  • 执行引擎:包含了即时编译器、解释器、垃圾回收器,执行引擎使用解释器将字节码指令解释成机器码,使用即时编译器优化性能,使用垃圾回收器回收不再使用的对象。
  • 本地接口:调用本地使用C/C++编译好的方法,本地方法在Java中声明时,都会带上native关键字,如下图所示。
image-20240212215247925

字节码文件组成

无法解读出文件里包含的内容,推荐使用 jclasslib工具查看字节码文件。 Github地址: https://github.com/ingokegel/jclasslib

字节码文件总共可以分为以下几个部分:

  • 基础信息:魔数、字节码文件对应的Java版本号、访问标识(public final等等)、父类和接口信息
  • 常量池:保存了字符串常量、类或接口名、字段名,主要在字节码指令中使用
  • 字段: 当前类或接口声明的字段信息
  • 方法: 当前类或接口声明的方法信息,核心内容为方法的字节码指令
  • 属性: 类的属性,比如源码的文件名、内部类的列表等

基础信息

魔数

文件是无法通过文件扩展名来确定文件类型的,文件扩展名可以随意修改,不影响文件的内容。 软件使用文件的头几个字节(文件头)去校验文件的类型,如果软件不支持该种类型就会出错。 Java字节码文件中,将文件头称为magic魔数。

image-20240213093858853

主副版本号

主副版本号指的是编译字节码文件的JDK 版本号,主版本号用来标识大版本号,JDK1.0-1.1 使用了45.0-45.3,JDK1.2是46之后每升级一个大版本就加1;副版本号是当主版本号相同时作为区分不同版本的标识,一般只需要关心主版本号。 版本号的作用主要是判断当前字节码的版本和运行时的JDK是否兼容。

image-20240213094120143

两种方案: 1.升级JDK版本 (容易引发其他的兼容性问题,并且需要大量的测试) 2(√ 建议采用).将第三方依赖的版本号降低或者更换依赖,以满足JDK版本的要求

常量池

常量池中的数据都有一个编号,编号从1开始。在字段或者字节码指令中通过编号可以快速的找到对应的数据。 字节码指令中通过编号引用到常量池的过程称之为符号引用。

方法

字节码中的方法区域是存放字节码指令的核心位置,字节码指令的内容存放在方法的Code 属性中。

image-20240213100232811
image-20240213101034880

局部变量数组0索引处存放的是main函数的参数

image-20240213101309620

全流程: image-20240213101821637

i++执行流程解析

image-20240213102456533

++i执行流程解析(先在局部变量表中+1,再放入操作数栈)

image-20240213102655552

问题:

int i=0,j=0,k=0;
i++;
j=j+1;
k+=1;

以上哪种方式的性能更好?

image-20240213103929480

字节码常用工具

javap

javap是JDK 自带的反编译工具,可以通过控制台查看字节码文件的内容。适合在服务器上查看字节码文件内容。 直接输入javap 查看所有参数。 输入javap v 字节码文件名称 查看具体的字节码信息。(如果jar 包需要先使用 jar xvf 命令解压)

jclasslib 插件

阿里arthas

image-20240213110138905

Arthas是一款线上监控诊断产品,通过全局视角实时查看应用 load 、内存、 gc 、线程的状态信息,并能在不修改应用代码的情况下,对业务问题进行诊断,大大提升线上问题排查效率 。

image-20240213110348206

官网:https://arthas.aliyun.com/doc/ dump 类的全限定名:dump 已加载类的字节码文件到特定目录。 jad 类的全限定名:反编译已加载类的源码。

类的生命周期

概述

image-20240213114251082

加载阶段

加载(Loading)阶段第一步是类加载器根据类的全限定名通过不同的渠道以二进制流的方式获取字节码信息。 程序员可以使用Java代码拓展的不同的渠道。

类加载器在加载完类之后,Java虚拟机会将字节码中的信息保存到方法区中。 生成一个InstanceKlass 对象,保存类的所有信息,里边还包含实现特定功能比如多态的信息。

image-20240213114705226

同时,Java 虚拟机还会在堆中生成一份与方法区中数据类似的java.lang.Class 对象。 作用是在Java 代码中去获取类的信息以及存储静态字段的数据(JDK8 及之后)。

image-20240213114758845
image-20240213114854665

对于开发者来说,只需要访问堆中的Class 对象而不需要访问方法区中所有信息。 这样Java 虚拟机就能很好地控制开发者访问数据的范围。image-20240213115136758

查看内存中的对象-推荐使用 JDK 自带的hsdb 工具查看Java 虚拟机内存信息。工具位于JDK 安装目录下lib 文件夹中的sa-jdi.jar 中。 启动命令:

java -cp sa-jdi.jar sun.jvm.hotspot.HSDB

利用jps命令显示当前主机全部Java进程

连接阶段

这个阶段一般不需要程序员参与

连接阶段分为三个子阶段:

  • 验证,验证内容是否满足《Java虚拟机规范》。

1、文件格式验证,比如文件是否以0xCAFEBABE开头,主次版本号是否满足当前Java虚拟机版本要求。

image-20240214103713655

对版本号的验证,在JDK8的源码中如下:

image-20240213122146813

编译文件的主版本号不能高于运行环境主版本号,如果主版本号相等,副版本号也不能超过。

2、元信息验证,例如类必须有父类(super不能为空)。

3、验证程序执行指令的语义,比如方法内的指令执行中跳转到不正确的位置。

4、符号引用验证,例如是否访问了其他类中private的方法等。

  • 准备,给静态变量赋初值。

注意:本章涉及到的内存结构只讨论JDK8 及之后的版本,8 之前的版本后续章节详述。

image-20240213122304755

final修饰的基本数据类型的静态变量,准备阶段直接会将代码中的值进行赋值。

  • 解析,将常量池中的符号引用替换成指向内存的直接引用。

解析阶段主要是将常量池中的符号引用替换为直接引用,符号引用就是在字节码文件中使用编号来访问常量池中的内容。

image-20240213122714778

初始化阶段

初始化阶段会执行静态代码块中的代码,并为静态变量赋值。 初始化阶段会执行字节码文件中clinit部分的字节码指令。

image-20240213143206668

clinit方法中的执行顺序与Java 中编写的顺序是一致的

以下几种方式会导致类的初始化: 1.访问一个类的静态变量或者静态方法,注意变量是final 修饰的并且等号右边是常量不会触发初始化。 2.调用Class.forName(String className) 。 3.new一个该类的对象时。 4.执行Main 方法的当前类。

添加-XX:+TraceClassLoading参数可以打印出加载并初始化的类

clinit指令在特定情况下不会出现,比如:如下几种情况是不会进行初始化指令执行的。

1.无静态代码块且无静态变量赋值语句。 2.有静态变量的声明,但是没有赋值语句。 3.静态变量的定义使用final 关键字,这类变量会在准备阶段直接进行初始化。

面试题

如下代码的输出结果是什么?

public class Test1 {
 public static void main(String[] args) {
     System.out.println("A");
     new Test1();
     new Test1();
 }

 public Test1(){
     System.out.println("B");
 }

 {
     System.out.println("C");
 }

 static {
     System.out.println("D");
 }
}

初始化类:打印D

执行Main方法:打印A

创建对象:打印CB(源代码中输出C这行,被放到了对象初始化的一开始来执行。)

答案:DACBCB

直接访问父类的静态变量,不会触发子类的初始化。 子类的初始化clinit 调用之前,会先调用父类的clinit 初始化方法。

image-20240213145103210

两个特殊场景

数组的创建不会导致数组中元素的类进行初始化image-20240213145248506

final修饰的变量如果赋值的内容需要执行指令才能得出结果,会执行clinit方法进行初始化image-20240213145303914

类加载器

类加载器(ClassLoader)是Java虚拟机提供给应用程序去实现获取类和接口字节码数据的技术。 类加载器只参与加载过程中的字节码获取并加载到内存这一部分。

image-20240214105524346

分类

类加载器分为两类,一类是Java 代码中实现的,一类是Java 虚拟机底层源码实现的。

image-20240214105927894

JDK8以前: image-20240214110038143

类加载器的详细信息可以通过classloader 命令查看: classloader - 查看 classloader 的继承树,urls,类加载信息,使用 classloader 去 getResource

启动类加载器

启动类加载器(BootstrapClassLoader)是由Hotspot 虚拟机提供的、使用C++ 编写的类加载器。 默认加载Java 安装目录/jre/lib 下的类文件,比如rt.jar jar,tools.jar jar,resources.jar 等。

通过启动类加载器去加载用户jar 包:

放入jre /lib 下进行扩展

不推荐,尽可能不要去更改JDK 安装目录中的内容,会出现即时放进去由于文件名不匹配的问题也不会正常地被加载

使用参数进行扩展

推荐,使用-Xbootclasspath/a:jar 包目录/jar 包名进行扩展

image-20240214120730872

Java 中的默认类加载器

扩展类加载器和应用程序类加载器都是JDK 中提供的、使用Java 编写的类加载器。 它们的源码都位于sun.misc.Launcher 中,是一个静态内部类。继承自URLClassLoader 。具备通过目录或者指定jar 包将字节码文件加载到内存中。

image-20240214121442754
拓展类加载器

默认加载Java 安装目录/jre/lib/ext 下的类文件

通过扩展类加载器去加载用户jar 包:

放入/jre/lib/ext下进行扩展

不推荐,尽可能不要去更改JDK 安装目录中的内容

使用参数进行扩展

推荐,使用-Djava.ext.dirs=jar包目录 进行扩展,这种方式会覆盖掉原始目录,可以用;(windows):(macos/linux)追加上原始目录

image-20240214121734401
应用程序加载器

默认加载的是项目中的类以及通过maven引入的第三方jar包中的类。

类加载器的加载路径可以通过classloader –c hash值查看

双亲委派机制

类由谁加载? 保证类加载安全性+避免重复i加载

双亲委派机制指的是:当一个类加载器接收到加载类的任务时,会自底向上查找是否加载过,再由顶向下进行加载。

image-20240214133343019

向上查找如果已经加载过,就直接返回Class对象,加载过程结束。这样就能避免一个类重复加载。

向下委派加载起到了一个加载优先级的作用。

image-20240214134056784
image-20240214134204886

一个细节:启动类加载器使用C++ 编写,没有上级类加载器image-20240214134537146

打破双亲委派机制

打破双亲委派机制历史上有三种方式,但本质上只有第一种算是真正的打破了双亲委派机制:

  • 自定义类加载器并且重写loadClass方法。Tomcat通过这种方式实现应用之间类隔离,《面试篇》中分享它的做法。
  • 线程上下文类加载器。利用上下文类加载器加载类,比如JDBC和JNDI等。
  • Osgi框架的类加载器。历史上Osgi框架实现了一套新的类加载器机制,允许同级之间委托进行类的加载,目前很少使用。
自定义类加载器

一个Tomcat程序中是可以运行多个Web应用的,如果这两个应用中出现了相同限定名的类,比如Servlet类,Tomcat要保证这两个类都能加载并且它们应该是不同的类。如果不打破双亲委派机制,当应用类加载器加载Web应用1中的MyServlet之后,Web应用2中相同限定名的MyServlet类就无法被加载了。

image-20240214140924497

Tomcat使用了自定义类加载器来实现应用之间类的隔离。 每一个应用会有一个独立的类加载器加载对应的类。

ClassLoader中包含了4个核心方法,双亲委派机制的核心代码就位于loadClass方法中。

image-20240214141233498

注意:loadClass方法内默认不执行连接阶段

image-20240214141455715
//重写loadClass方法
    @Override
    public Class<?> loadClass(String name) throws ClassNotFoundException {
        //如果是java包下,还是走双亲委派机制
        if(name.startsWith("java.")){
            return super.loadClass(name);
        }
        //从磁盘中指定目录下加载
        byte[] data = loadClassData(name);
        //调用虚拟机底层方法,方法区和堆区创建对象
        return defineClass(name, data, 0, data.length);
    }

    public static void main(String[] args) throws ClassNotFoundException, InstantiationException, IllegalAccessException, IOException {
        //第一个自定义类加载器对象
        BreakClassLoader1 classLoader1 = new BreakClassLoader1();
        classLoader1.setBasePath("D:\\lib\\");

        Class<?> clazz1 = classLoader1.loadClass("com.itheima.my.A");
         //第二个自定义类加载器对象
        BreakClassLoader1 classLoader2 = new BreakClassLoader1();
        classLoader2.setBasePath("D:\\lib\\");

        Class<?> clazz2 = classLoader2.loadClass("com.itheima.my.A");

        System.out.println(clazz1 == clazz2);

        Thread.currentThread().setContextClassLoader(classLoader1);

     System.out.println(Thread.currentThread().getContextClassLoader());

        System.in.read();
     }
image-20240214142237482
image-20240214142517580
两个自定义类加载器加载相同限定名的类,不会冲突吗?

不会冲突,在同一个Java虚拟机中,只有相同类加载器+相同的类限定名才会被认为是同一个类。

在Arthas中使用sc –d 类名的方式查看具体的情况

image-20240214142855848
线程上下文类加载器

JDBC提供的DriverManager属于rt.jar是启动类加载器加载的。而用户jar包中的驱动需要由应用类加载器加载,这就违反了双亲委派机制

image-20240214144314149

DriverManager怎么知道jar 包中要加载的驱动在哪儿?

spi全称为(Service Provider Interface),是JDK内置的一种服务提供发现机制。

image-20240214151206870
image-20240214151611235

SPI中是如何获取到应用程序类加载器的?

image-20240214151632941
Osgi框架的类加载器(了解)

存在同级之间的类加载器的委托加载

OSGi还使用类加载器实现了热部署的功能

使用Arthas不停机解决线上问题
image-20240215102344659

注意事项:

1、程序重启之后,字节码文件会恢复,除非将class文件放入jar包中进行更新。

2、使用retransform不能添加方法或者字段,也不能更新正在执行中的方法。

JDK9之后的类加载器

JDK8及之前的版本中,扩展类加载器和应用程序类加载器的源码位于rt.jar包中的sun.misc.Launcher.java。

image-20240215102916143

由于JDK9引入了module的概念,类加载器在设计上发生了很多变化。

1.启动类加载器使用Java编写,位于jdk.internal.loader.ClassLoaders类中。

Java中的BootClassLoader继承自BuiltinClassLoader实现从模块中找到要加载的字节码资源文件。

启动类加载器依然无法通过java代码获取到,返回的仍然是null,保持了统一。

2、扩展类加载器被替换成了平台类加载器(Platform Class Loader)。

​ 平台类加载器遵循模块化方式加载字节码文件,所以继承关系从URLClassLoader变成了BuiltinClassLoader,BuiltinClassLoader实现了从模块中加载字节码文件。平台类加载器的存在更多的是为了与老版本的设计方案兼容,自身没有特殊的逻辑。

运行时数据区

image-20240215111112106

程序计数器

程序计数器(Program Counter Register Register)也叫PC 寄存器,每个线程会通过程序计数器记录当前要执行的的字节码指令的地址。

在加载阶段,虚拟机将字节码文件中的指令读取到内存之后,会将原文件中的偏移量转换成内存地址。每一条字节码指令都会拥有一个内存地址。

程序计数器可以控制程序指令的进行,实现分支、跳转、异常等逻辑。

在多线程执行情况下,Java 虚拟机需要通过程序 计数器记录CPU 切换前解释执行到那一句指令并继续解释运行。

程序计数器在运行中会出现内存溢出吗?

内存溢出指的是程序在使用某一块内存区域时,存放的数据需要占用的内存大小超过了虚拟机能提供的内存上限。

由于每个线程只存储一个固定长度的内存地址,程序计数器是不会发生内存溢出的。

程序员无需对程序计数器做任何处理。

Java虚拟机栈

Java虚拟机栈(Java Virtual Machine Stack)采用栈的数据结构来管理方法调用中的基本数据,先进后出(First In Last Out),每一个方法的调用使用一个栈帧(Stack Frame)来保存。

在IDEA中也可以看到对应的栈帧:

image-20240215135949683

所以分析异常报错要从底部开始看才能看到最近执行的方法

Java虚拟机栈随着线程的创建而创建,而回收则会在线程的销毁时进行。由于方法可能会在不同线程中执行,每个线程都会包含一个自己的虚拟机栈。

Java虚拟机栈的栈帧中主要包含三方面的内容:

  • 局部变量表,局部变量表的作用是在运行过程中存放所有的局部变量
  • 操作数栈,操作数栈是栈帧中虚拟机在执行指令过程中用来存放临时数据的一块区域
  • 帧数据,帧数据主要包含动态链接、方法出口、异常表的引用
局部变量表
image-20240215141347117

栈帧中的局部变量表是一个数组,数组中每一个位置称之为槽(slot),long 和double 类型占用两个槽,其他类型占用一个槽。

image-20240215141423852

实例方法中的序号为0 的位置存放的是thisthis,指的是当前调用方法的对象,运行时会在内存中存放实例对象的地址。

方法参数也会保存在局部变量表中,其顺序与方法中参数定义的顺序一致。

image-20240215142515401

为了节省空间,局部变量表中的槽是可以复用的,一旦某个局部变量不再生效,当前槽就可以再次被使用。

image-20240215142728227
操作数栈

操作数栈是栈帧中虚拟机在执行指令过程中用来存放中间数据的一块区域。他是一种栈式的数据结构,如果一条指令将一个值压入操作数栈,则后面的指令可以弹出并使用该值。

在编译期就可以确定操作数栈的最大深度,从而在执行时正确的分配内存大小。

image-20240215144843727
帧数据

帧数据主要包含动态链接、方法出口、异常表的引用。

动态链接

当前类的字节码指令引用了其他类的属性或者方法时,需要将符号引用(编号)转换成对应的运行时常量池中的内存地址。动态链接就保存了编号到运行时常量池的内存地址的映射关系。

image-20240215145317550
方法出口

方法出口指的是方法在正确或者异常结束时,当前栈帧会被弹出,同时程序计数器应该指向上一个栈帧中的下一条指令的地址。所以在当前栈帧中,需要存储此方法出口的地址。

image-20240215145626841
异常表

异常表存放的是代码中异常的处理信息,包含了异常捕获的生效范围以及异常发生后跳转到的字节码指令位置。

image-20240215153918876
栈内存溢出

Java虚拟机栈如果栈帧过多,占用内存超过栈内存可以分配的最大大小就会出现内存溢出。Java虚拟机栈内存溢出时会出现StackOverflowError的错误。

默认大小

如果我们不指定栈的大小,JVM 将创建一个具有默认大小的栈。大小取决于操作系统和计算机的体系结构。

img
img

执行之后可以打印出溢出时总栈帧的数量,并且发现虚拟机已经抛出了StackOverflow的错误。

要修改Java虚拟机栈的大小,可以使用虚拟机参数 -Xss 。

  • 语法:-Xss栈大小(单位)
  • 单位:字节(默认,必须是 1024 的倍数)、k或者K(KB)、m或者M(MB)、g或者G(GB)

例如:

-Xss1048576 
-Xss1024K      
-Xss1m
-Xss1g

操作步骤如下,不同IDEA版本的设置方式会略有不同:

1、点击修改配置Modify options

2、点击Add VM options

3、添加参数

image-20240215161755678

注意事项:

1、与-Xss类似,也可以使用 -XX:ThreadStackSize 调整标志来配置堆栈大小。

格式为: -XX:ThreadStackSize=1024

2、HotSpot JVM对栈大小的最大值和最小值有要求:

​ 比如测试如下两个参数,会直接报错:

-Xss1k
-Xss1025m

Windows(64位)下的JDK8测试最小值为180k,最大值为1024m

3、局部变量过多、操作数栈深度过大也会影响栈内存的大小。我们在这段代码中添加一些局部变量。

//递归方法调用自己
public static void recursion() {
    long a,b,c,d,f,g,h,i,j,k;
    System.out.println(++count);
    recursion();
}

使用默认大小来测试之后,发现栈帧数量从10000+减少了到8000+

一般情况下,工作中即便使用了递归进行操作,栈的深度最多也只能到几百,不会出现栈的溢出。所以此参数可以手动指定为-Xss256k节省内存。

本地方法栈

Java虚拟机栈存储了Java方法调用时的栈帧,而本地方法栈存储的是native本地方法的栈帧。

在Hotspot虚拟机中,Java虚拟机栈和本地方法栈实现上使用了同一个栈空间。本地方法栈会在栈内存上生成一个栈帧,临时保存方法的参数同时方便出现异常时也把本地方法的栈信息打印出来。

堆内存

一般Java程序中堆内存是空间最大的一块内存区域。创建出来的对象都存在于堆上。栈上的局部变量表中,可以存放堆上对象的引用。静态变量也可以存放堆对象的引用,通过静态变量就可以实现对象在线程之间共享。

堆内存大小是有上限的,当对象一直向堆中放入对象达到上限之后,就会抛出OutOfMemory错误。在这段代码中,不停创建100M大小的字节数组并放入ArrayList集合中,最终超过了堆内存的上限。抛出如下错误:

image-20240216091643468

堆空间有三个需要关注的值,used、total、max。used指的是当前已使用的堆内存,total是java虚拟机已经分配的可用堆内存,max是java虚拟机可以分配的最大堆内存。

当used达到了total的大小,Java虚拟机会向操作系统申请更大的内存。

那么是不是当used = max = total的时候,堆内存就溢出了呢?

不是,堆内存溢出的判断条件比较复杂,在下一章《垃圾回收器》中会详细介绍。

设置堆的大小

要修改堆的大小,可以使用虚拟机参数 –Xmx(max最大值)和-Xms (初始的total)。

语法:-Xmx值 -Xms值

单位:字节(默认,必须是 1024 的倍数)、k或者K(KB)、m或者M(MB)、g或者G(GB)

限制:Xmx必须大于 2 MB,Xms必须大于1MB

-Xms6291456
-Xms6144k
-Xms6m
-Xmx83886080
-Xmx81920k
-Xmx80m

Java服务端程序开发时,建议将-Xmx和-Xms设置为相同的值,这样在程序启动之后可使用的总内存就是最大内存,而无需向java虚拟机再次申请,减少了申请并分配内存时间上的开销,同时也不会出现内存过剩之后堆收缩的情况。

方法区

方法区是存放基础信息的位置,线程共享,主要包含三部分内容:

  • 类的元信息,保存了所有类的基本信息
  • 运行时常量池,保存了字节码文件中的常量池内容
  • 字符串常量池,保存了字符串常量

类的元信息

方法区是用来存储每个类的基本信息(元信息),一般称之为InstanceKlass对象。在类的加载阶段完成。其中就包含了类的字段、方法等字节码文件中的内容,同时还保存了运行过程中需要使用的虚方法表(实现多态的基础)等信息。

运行时常量池

方法区除了存储类的元信息之外,还存放了运行时常量池。常量池中存放的是字节码中的常量池内容。

字节码文件中通过编号查表的方式找到常量,这种常量池称为静态常量池。当常量池加载到内存中之后,可以通过内存地址快速的定位到常量池中的内容,这种常量池称为运行时常量池。

image-20240216093835398

方法区是《Java虚拟机规范》中设计的虚拟概念,每款Java虚拟机在实现上都各不相同。Hotspot设计如下:

JDK7及之前的版本将方法区存放在堆区域中的永久代空间,堆的大小由虚拟机参数来控制。

JDK8及之后的版本将方法区存放在元空间中,元空间位于操作系统维护的直接内存中,默认情况下只要不超过操作系统承受的上限,可以一直分配。

image-20240216094113799

方法区的溢出

在JDK8上运行百万次,程序都没有出现任何错误,但是内存会直线升高。这说明JDK7和JDK8在方法区的存放上,采用了不同的设计。

  • JDK7将方法区存放在堆区域中的永久代空间,堆的大小由虚拟机参数-XX:MaxPermSize=值来控制。
  • JDK8将方法区存放在元空间中,元空间位于操作系统维护的直接内存中,默认情况下只要不超过操作系统承受的上限,可以一直分配。可以使用-XX:MaxMetaspaceSize=值将元空间最大大小进行限制。

字符串常量池

字符串常量池存储在代码中定义的常量字符串内容。比如“123” 这个123就会被放入字符串常量池。

image-20240216142742622
image-20240216143038528

辨析:

1.image

2.image-20240216143635924

image-20240216143704443

关键点:+左右到底是变量(堆)还是常量(方法区常量池)

手动添加常量池

String.intern()方法是可以手动将字符串放入字符串常量池中,返回常量池中地址

分别在JDK6 JDK8下执行代码,JDK6 中结果是false false ,JDK8中是true false

package chapter03.stringtable;

/**
 * intern案例
 */
public class Demo4 {
    public static void main(String[] args) {
        String s1 = new StringBuilder().append("think").append("123").toString();

        System.out.println(s1.intern() == s1);
//        System.out.println(s1.intern() == s1.intern());

        String s2 = new StringBuilder().append("ja").append("va").toString();

        System.out.println(s2.intern() == s2);
    }
}

JDK6及以前: image-20240216145252787

JDK7+: JDK7及之后版本中由于字符串常量池在堆上,所以intern () 方法会把第一次遇到的字符串的引用放入字符串常量池。

image-20240216145707005

后续JDK版本中,如果Java虚拟机不需要使用java字符串,那么字符串常量池中就不会存放java。打印结果有可能会出现两个true。

面试题:静态变量存储在哪里呢?

  • JDK6及之前的版本中,静态变量是存放在方法区中的,也就是永久代。
  • JDK7及之后的版本中,静态变量是存放在堆中的Class对象中,脱离了永久代。具体源码可参考虚拟机源码:BytecodeInterpreter针对putstatic指令的处理。

直接内存

直接内存(Direct Memory)并不在《Java虚拟机规范》中存在,所以并不属于Java运行时的内存区域。

在 JDK 1.4 中引入了 NIO 机制,使用了直接内存,主要为了解决以下两个问题:

1、Java堆中的对象如果不再使用要回收,回收时会影响对象的创建和使用。

2、IO操作比如读文件,需要先把文件读入直接内存(缓冲区)再把数据复制到Java堆中。

现在直接放入直接内存即可,同时Java堆上维护直接内存的引用,减少了数据复制的开销。写文件也是类似的思路。

image-20240216150445884

使用方法:

要创建直接内存上的数据,可以使用ByteBuffer

语法: ByteBuffer directBuffer = ByteBuffer.allocateDirect(size);

注意事项: arthas的memory命令可以查看直接内存大小,属性名direct。

在Idea中设置直接内存最大值为1g:

image-20240216151337722

垃圾回收

在C/C++这类没有自动垃圾回收机制的语言中,一个对象如果不再使用,需要手动释放,否则就会出现内存泄漏。

内存泄漏指的是不再使用的对象在系统中未被回收,内存泄漏的积累可能会导致内存溢出。

Java中为了简化对象的释放,引入了自动的垃圾回收(Garbage Collection简称GC)机制。通过垃圾回收器来对不再使用的对象完成自动的回收,垃圾回收器主要负责对堆上的内存进行回收。其他很多现代语言比如C#、Python、Go都拥有自己的垃圾回收器。

image-20240217095459753

线程不共享的部分,都是伴随着线程的创建而创建,线程的销毁而销毁。而方法的栈帧在执行完方法之后就会自动弹出栈并释放掉对应的内存。所以这一部分不需要垃圾回收器负责回收。

方法区的回收

判定一个类可以被卸载。需要同时满足下面三个条件:

1、此类所有实例对象都已经被回收,在堆中不存在任何该类的实例对象以及子类对象。

这段代码中就将局部变量对堆上实例对象的引用去除了,所以对象就可以被回收。

2、加载该类的类加载器已经被回收。

这段代码让局部变量对类加载器的引用去除,类加载器就可以回收。

3、该类对应的 java.lang.Class 对象没有在任何地方被引用。

如果需要手动触发垃圾回收,可以调用System.gc()方法。

语法: System.gc()

注意事项:

调用System.gc()方法并不一定会立即回收垃圾,仅仅是向Java虚拟机发送一个垃圾回收的请求,具体是否需要执行垃圾回收Java虚拟机会自行判断。

开发中此类场景一般很少出现,主要在如 OSGi、JSP 的热部署等应用场景中。

每个jsp文件对应一个唯一的类加载器,当一个jsp文件修改了,就直接卸载这个jsp类加载器。重新创建类加载器,重新加载jsp文件。

堆回收

如何判断对象可以回收

垃圾回收器要回收对象的第一步就是判断哪些对象可以回收。Java中的对象是否能被回收,是根据对象是否被引用来决定的。如果对象被引用了,说明该对象还在使用,不允许被回收。

image-20240217104611073

A和B互相之间的引用需要去除吗?答案是不需要,因为局部变量都没引用这两个对象了,在代码中已经无法访问这两个对象,即便他们之间互相有引用关系,也不影响对象的回收。

引用计数法

引用计数法会为每个对象维护一个引用计数器,当对象被引用时加1,取消引用时减1。

引用计数法的优点是实现简单,C++中的智能指针就采用了引用计数法,但是它也存在缺点,主要有两点:

1.每次引用和取消引用都需要维护计数器,对系统性能会有一定的影响

2.存在循环引用问题,所谓循环引用就是当A引用B,B同时引用A时会出现对象无法回收的问题。

这张图上,由于A和B之间存在互相引用,所以计数器都为1,两个对象都不能被回收。但是由于没有局部变量对这两个代码产生引用,代码中已经无法访问到这两个对象,理应可以被回收。

如果想要查看垃圾回收的信息,可以使用-verbose:gc参数。 语法: -verbose:gc

image-20240217105038200

可达性分析法

Java使用的是可达性分析算法来判断对象是否可以被回收。可达性分析将对象分为两类:垃圾回收的根对象(GC Root)和普通对象,对象与对象之间存在引用关系。

image-20240217105631552

图中A到B再到C和D,形成了一个引用链,可达性分析算法指的是如果从某个到GC Root对象是可达的,对象就不可被回收。

哪些对象被称之为GC Root对象呢?

  • 线程Thread对象,引用线程栈帧中的方法参数、局部变量等。
image-20240217111121003
  • 系统类加载器加载的java.lang.Class对象,引用类中的静态变量。
image-20240217111232688
  • 监视器对象,用来保存同步锁synchronized关键字持有的对象。
image-20240217111310933
  • 本地方法调用时使用的全局对象。

通过arthas和eclipse Memory Analyzer (MAT) 工具可以查看GC Root,MAT工具是eclipse推出的Java堆内存检测工具。具体操作步骤如下:

1、使用arthas的heapdump命令将堆内存快照保存到本地磁盘中。

2、使用MAT工具打开堆内存快照文件。

3、选择GC Roots功能查看所有的GC Root。

image-20240217111438750

常见的引用对象

可达性算法中描述的对象引用,一般指的是强引用,即是GCRoot对象对普通对象有引用关系,只要这层关系存在,普通对象就不会被回收。除了强引用之外,Java中还设计了几种其他引用方式:

  • 软引用
  • 弱引用
  • 虚引用
  • 终结器引用

软引用

软引用相对于强引用是一种比较弱的引用关系,如果一个对象只有软引用关联到它,当程序内存不足时,就会将软引用中的数据进行回收。在JDK 1.2版之后提供了SoftReference类来实现软引用,软引用常用于缓存中。

这样做有什么好处?如果对象A是一个缓存,平时会保存在内存中,如果想访问数据可以快速访问。但是如果内存不够用了,我们就可以将这部分缓存清理掉释放内存。即便缓存没了,也可以从数据库等地方获取数据,不会影响到业务正常运行,这样可以减少内存溢出产生的可能性。

特别注意:

软引用对象本身,也需要被强引用,否则软引用对象也会被回收掉。

image-20240217113022345
软引用的使用方法

软引用的执行过程如下:

1.将对象使用软引用包装起来,new SoftReference<对象类型>(对象)。

2.内存不足时,虚拟机尝试进行垃圾回收。

3.如果垃圾回收仍不能解决内存不足的问题,回收软引用中的对象。

4.如果依然内存不足,抛出OutOfMemory异常。

软引用对象本身怎么回收呢?

如果软引用对象里边包含的数据已经被回收了,那么软引用对象本身其实也可以被回收了。

SoftReference提供了一套队列机制:

1、软引用创建时,通过构造器传入引用队列

2、在软引用中包含的对象被回收时,该软引用对象会被放入引用队列

3、通过代码遍历引用队列,将SoftReference的强引用删除

实践
image-20240217120244875

弱引用

弱引用的整体机制和软引用基本一致,区别在于弱引用包含的对象在垃圾回收时,不管内存够不够都会直接被回收。在JDK 1.2版之后提供了WeakReference类来实现弱引用,弱引用主要在ThreadLocal中使用。 弱引用对象本身也可以使用引用队列进行回收。

虚引用和终结器引用

这两种引用在常规开发中是不会使用的。

  • 虚引用也叫幽灵引用/幻影引用,不能通过虚引用对象获取到包含的对象。虚引用唯一的用途是当对象被垃圾回收器回收时可以接收到对应的通知。Java中使用PhantomReference实现了虚引用,直接内存中为了及时知道直接内存对象不再使用,从而回收内存,使用了虚引用来实现。


  • 终结器引用指的是在对象需要被回收时,终结器引用会关联对象并放置在Finalizer类中的引用队列中,在稍后由一条由FinalizerThread线程从队列中获取对象,然后执行对象的finalize方法,在对象第二次被回收时,该对象才真正的被回收。在这个过程中可以在finalize方法中再将自身对象使用强引用关联上,但是不建议这样做。


垃圾回收算法

1、找到内存中存活的对象

2、释放不再存活对象的内存,使得程序能再次利用这部分空间

Java垃圾回收过程会通过单独的GC 线程来完成,但是不管使用哪一种GC算法,都会有部分阶段需要停止所有的用户线程。这个过程被称之为Stop The World简称STW,如果STW 时间过长则会影响用户的使用。

所以判断GC算法是否优秀,可以从三个方面来考虑:

1.吞吐量

吞吐量指的是 CPU 用于执行用户代码的时间与 CPU 总执行时间的比值,即吞吐量 = 执行用户代码时间 /(执行用户代码时间 + GC时间)。吞吐量数值越高,垃圾回收的效率就越高。

2.最大暂停时间

最大暂停时间指的是所有在垃圾回收过程中的STW时间最大值。比如如下的图中,黄色部分的STW就是最大暂停时间,显而易见上面的图比下面的图拥有更少的最大暂停时间。最大暂停时间越短,用户使用系统时受到的影响就越短。

3.堆使用效率

不同垃圾回收算法,对堆内存的使用方式是不同的。比如标记清除算法,可以使用完整的堆内存。而复制算法会将堆内存一分为二,每次只能使用一半内存。从堆使用效率上来说,标记清除算法要优于复制算法。

上述三种评价标准:堆使用效率、吞吐量,以及最大暂停时间不可兼得。

一般来说,堆内存越大,最大暂停时间就越长。想要减少最大暂停时间,就会降低吞吐量。

标记清除算法

标记清除算法的核心思想分为两个阶段:

1.标记阶段,将所有存活的对象进行标记。Java中使用可达性分析算法,从GC Root开始通过引用链遍历出所有存活对象。

2.清除阶段,从内存中删除没有被标记也就是非存活对象。

缺点:1.碎片化问题

由于内存是连续的,所以在对象被删除之后,内存中会出现很多细小的可用内存单元。如果我们需要的是一个比较大的空间,很有可能这些内存单元的大小过小无法进行分配。

2.分配速度慢。由于内存碎片的存在,需要维护一个空闲链表,极有可能发生每次需要遍历到链表的最后才能获得合适的内存空间。 我们需要用一个链表来维护,哪些空间可以分配对象,很有可能需要遍历这个链表到最后,才能发现这块空间足够我们去创建一个对象。如下图,遍历到最后才发现有足够的空间分配3个字节的对象了。如果链表很长,遍历也会花费较长的时间。

image-20240218150227962

复制算法

1.准备两块空间From空间和To空间,每次在对象分配阶段,只能使用其中一块空间(From空间)。

2.在垃圾回收GC阶段,将From中存活对象复制到To空间。

在垃圾回收阶段,如果对象A存活,就将其复制到To空间。然后将From空间直接清空。

3.将两块空间的From和To名字互换。

接下来将两块空间的名称互换,下次依然在From空间上创建对象。

优点:

  • 吞吐量高,复制算法只需要遍历一次存活对象复制到To空间即可,比标记-整理算法少了一次遍历的过程,因而性能较好,但是不如标记-清除算法,因为标记清除算法不需要进行对象的移动
  • 不会发生碎片化,复制算法在复制之后就会将对象按顺序放入To空间中,所以对象以外的区域都是可用空间,不存在碎片化内存空间。

缺点:

内存使用效率低,每次只能让一半的内存空间来为创建对象使用。

标记整理算法

标记整理算法也叫标记压缩算法,是对标记清理算法中容易产生内存碎片问题的一种解决方案。

核心思想分为两个阶段:

1.标记阶段,将所有存活的对象进行标记。Java中使用可达性分析算法,从GC Root开始通过引用链遍历出所有存活对象。

2.整理阶段,将存活对象移动到堆的一端。清理掉存活对象的内存空间。

优点:

  • 内存使用效率高,整个堆内存都可以使用,不会像复制算法只能使用半个堆内存
  • 不会发生碎片化,在整理阶段可以将对象往内存的一侧进行移动,剩下的空间都是可以分配对象的有效空间

缺点:

整理阶段的效率不高,整理算法有很多种,比如Lisp2整理算法需要对整个堆中的对象搜索3次,整体性能不佳。可以通过Two-Finger、表格算法、ImmixGC等高效的整理算法优化此阶段的性能。

分代垃圾回收算法

现代优秀的垃圾回收算法,会将上述描述的垃圾回收算法组合进行使用,其中应用最广的就是分代垃圾回收算法(Generational GC)。

image-20240218150809890
image-20240218155523439

回收流程

分代回收时,创建出来的对象,首先会被放入Eden伊甸园区。 随着对象在Eden区越来越多,如果Eden区满,新创建的对象已经无法放入,就会触发年轻代的GC,称为Minor GC或者Young GC。

Minor GC会把需要eden中和From需要回收的对象回收,把没有回收的对象放入To区。

接下来,S0会变成To区,S1变成From区。当eden 区满时再往里放入对象,依然会发生Minor GC。 此时会回收eden区和S1(from) 中的对象,并把eden和from区中剩余的对象放入S0。 注意:每次Minor GC中都会为对象记录他的年龄,初始值为00,每次GC完加1 。

image-20240218160433195

如果Minor GC后对象的年龄达到阈值(最大15,默认值和垃圾回收器有关),对象就会被晋升至老年代。

当老年代中空间不足,无法放入新的对象时,先尝试minor gc(先解决年轻代问题,避免继续向老年代添加)如果还是不足,就会触发Full GC,Full GC会对整个堆进行垃圾回收。

如果Full GC依然无法回收掉老年代的对象,那么当对象继续放入老年代时,就会抛出Out Of Memory异常。

分代GC算法将堆分成年轻代和老年代主要原因有:

1、可以通过调整年轻代和老年代的比例来适应不同类型的应用程序,提高内存的利用率和性能。

2、新生代和老年代使用不同的垃圾回收算法,新生代一般选择复制算法,老年代可以选择标记-清除和标记-整理算法,由程序员来选择灵活度较高。

3、分代的设计中允许只回收新生代(minor gc),如果能满足对象分配的要求就不需要对整个堆进行回收(full gc),STW时间就会减少。

垃圾回收器

垃圾回收器是垃圾回收算法的具体实现。

由于垃圾回收器分为年轻代和老年代,除了G1之外其他垃圾回收器必须成对组合进行使用。

具体的关系图如下:

image-20240219093452293

年轻代-Serial垃圾回收器

Serial是是一种单线程串行回收年轻代的垃圾回收器。

image-20240219100547775

老年代-SerialOld垃圾回收器

image-20240219101232184

年轻代-ParNew垃圾回收器

ParNew垃圾回收器本质上是对Serial在多CPU下的优化,使用多线程进行垃圾回收

image-20240219100927996

老年代- CMS(Concurrent Mark Sweep)垃圾回收器

image-20240219100949130

CMS执行步骤:

1.初始标记,用极短的时间标记出GC Roots能直接关联到的对象。

2.并发标记, 标记所有的对象,用户线程不需要暂停。

3.重新标记,由于并发标记阶段有些对象会发生了变化,存在错标、漏标等情况,需要重新标记。

4.并发清理,清理死亡的对象,用户线程不需要暂停。

年轻代-Parallel Scavenge垃圾回收器

image-20240219105846055

老年代-Parallel Old垃圾回收器

image-20240219105914845
image-20240219110340602

G1垃圾回收器

JDK9之后默认的垃圾回收器是G1(Garbage First)垃圾回收器。Parallel Scavenge关注吞吐量,允许用户设置最大暂停时间 ,但是会减少年轻代可用空间的大小。CMS关注暂停时间,但是吞吐量方面会下降。

而G1设计目标就是将上述两种垃圾回收器的优点融合:

1.支持巨大的堆空间回收,并有较高的吞吐量。

2.支持多CPU并行垃圾回收。

3.允许用户设置最大暂停时间。

JDK9之后强烈建议使用G1垃圾回收器。

G1的整个堆会被划分成多个大小相等的区域,称之为区Region,区域不要求是连续的。分为Eden、Survivor、Old区。Region的大小通过堆空间大小/2048计算得到,也可以通过参数-XX:G1HeapRegionSize=32m指定(其中32m指定region大小为32M),Region size必须是2的指数幂,取值范围从1M到32M。

image-20240219152756936
年轻代回收

年轻代回收(Young GC),回收Eden区和Survivor区中不用的对象。会导致STW,G1中可以通过参数-XX:MaxGCPauseMillis=n(默认200)设置每次垃圾回收时的最大暂停时间毫秒数,G1垃圾回收器会尽可能地保证暂停时间。

1、新创建的对象会存放在Eden区。当G1判断年轻代区不足(max默认60%),无法分配对象时需要回收时会执行Young GC。

2、标记出Eden和Survivor区域中的存活对象,

3、根据配置的最大暂停时间选择某些区域将存活对象复制到一个新的Survivor区中(年龄+1),清空这些区域。

image-20240219152957582

G1在进行Young GC的过程中会去记录每次垃圾回收时每个Eden区和Survivor区的平均耗时,以作为下次回收时的参考依据。这样就可以根据配置的最大暂停时间计算出本次回收时最多能回收多少个Region区域了。

4、后续Young GC时与之前相同,只不过Survivor区中存活对象会被搬运到另一个Survivor区。

5、当某个存活对象的年龄到达阈值(默认15),将被放入老年代。

6、部分对象如果大小超过Region的一半,会直接放入老年代,这类老年代被称为Humongous区。比如堆内存是4G,每个Region是2M,只要一个大对象超过了1M就被放入Humongous区,如果对象过大会横跨多个Region。

image-20240219153256748

7、多次回收之后,会出现很多Old老年代区,此时总堆占有率达到阈值时

(-XX:InitiatingHeapOccupancyPercent默认45%)会触发混合回收MixedGC。回收所有年轻代和部分老年代的对象以及大对象区。采用复制算法来完成。

混合回收

混合回收分为:初始标记(initial mark)、并发标记(concurrent mark)、最终标记(remark或者Finalize Marking)、并发清理(cleanup)

G1对老年代的清理会选择存活度最低的区域来进行回收,这样可以保证回收效率最高,这也是G1(Garbage first)名称的由来。

image-20240219153557865

注意:如果清理过程中发现没有足够的空Region存放转移的对象,会出现Full GC。单线程执行标记-整理算法,此时会导致用户线程的暂停。所以尽量保证应该用的堆内存有一定多余的空间。

小结

JDK8及之前: ParNew + CMS(关注暂停时间)、Parallel Scavenge + Parallel Old (关注吞吐量)、 G1(JDK8之前不建议,较大堆并且关注暂停时间)

JDK9之后: G1(默认)

从JDK9之后,由于G1日趋成熟,JDK默认的垃圾回收器已经修改为G1,所以强烈建议在生产环境上使用G1。

此作者没有提供个人介绍
最后更新于 2024-08-14