Java String可以有多长?相信大部分人不会太关注这个问题,甚至可能有些人会认为String要多长可以有多长,很明显这是不实际的想法。假设现在有这样一个场景:
byte[] jsonBytes = readTaskFromFile(); String json = new String(jsonBytes); Task entity = new Gson().fromJson(json, Task.class);
这段代码看似没什么问题,但是一旦文件存储内容的字节长度超过String运行时所能承受的长度,这里的json就不是一个完整的json字符串,这样在使用gson做反序列化时,必然会因为json格式不正确导致反序列化失败,抛出异常。
当我们在方法里调用场景里的代码是,其临时变量是存储在 Java堆
中的,String类型的长度理论上取决于传入的byte数组的长度。
在创建byte数组时,要求new []传入的必须是一个整型类型的数据,也就是说byte[]数组的最大长度为 Integer.MAX_VALUE
,但是,我们从ArrayList的源码可以看出,数组可分配的最大长度应该是 Integer.MAX_VALUE - 8
,否则会抛出 OutOfMemoryError: Requested array size exceeds VM limit
错误:
/** * The maximum size of array to allocate. * Some VMs reserve some header words in an array. * Attempts to allocate larger arrays may result in * OutOfMemoryError: Requested array size exceeds VM limit */ private static final int MAX_ARRAY_SIZE = Integer.MAX_VALUE - 8;
但是实际上,如果真的执行了下面的代码:
byte[] bytes = new byte[Integer.MAX_VALUE - 8];
还会抛出错误 java.lang.OutOfMemoryError: Java heap space
,那是受到了Java堆可分配的内存大小限制,如何在编译器里修改Java虚拟机堆栈的大小,这里就不多说,主要是想说明其实还有这样一个限制因素存在。
当String变量是一个类中的全局变量时,其变量是存在在Java方法区里的,这时String类型可存储的字节长度取决于.class描述全局String类型变量的数据结构。
例如:
private final static String LONG_STRING = "aaaa.....";
当.java文件编译成.class文件时,其类中的静态String数据是以以下数据结构去存储的:
CONSTANT_Utf8_info { u1 tag; u2 length; // 0 ~ 65535 u1 bytes[length]; }
u2是表示一个2个字节的数据类型,这也就意味着允许的最大长度为65535。
前面我们都是从String可存储的字节数去考虑的,现在从可存储的字符数去考虑,假如字符是以utf-8编码的,其实这个问题可以直接转换成:
一个字符使用utf-8编码对应多少个字节数?
Unicode | bit数 | UTF-8 | byte数 | 常见字符类型 |
---|---|---|---|---|
0000 ~ 007F | 0~7 | 0XXX XXXX | 1 | 拉丁字母 |
0080 ~ 07FF | 8~11 | 110X XXXX、10XX XXXX | 2 | |
0800 ~FFFF | 12~16 | 1110XXXX、10XX XXXX、10XX XXXX | 3 | 中文字符 |
10000 ~ 1FFFFF | 17~21 | 1111 0XXX、10XX XXXX、10XX XXXX、10XX XXXX | 4 | 表情符号 |
所以,如果一个String类型可容纳的字符数,应该是这样的:
字符类型 | 在Java栈中的大小 | 在Java堆中的大小 |
---|---|---|
Latin字母 | 65535 | Integer.MAX_VALUE - 8 |
中文 | 65535 / 3 | (Integer.MAX_VALUE - 8) / 3 |
拓展问题,String.length()返回的是字节数还是字符数?答案是字节数。
面试官问这个问题时,是希望你除了Java基础深厚外,还希望你对Java虚拟机对类型的存储有一定的了解,另外就是希望从你的回答中,看出你有积极的探索欲望。有时候,往往看似简单的提问,其期待的结果往往涉及很多重要的知识理解。