获取字符长度的正确姿势

2023-08-07 04:09:21

public static void main(String[] args) throws UnsupportedEncodingException {
    String a="\uD864\uDD00";
    System.out.println(a.length()); //结果是2
    System.out.println(a.codePointCount(0, a.length())); //结果是1  这个才要正确姿势
    System.out.println(a.getBytes("utf8").length);  //结果是4
}

这里的\uD864\uDD00 ，对应的中文是参照https://segmentfault.com/q/1010000003757947

length 为什么会不对呢，length其实是char数组的长度。char是16位，最多也就是能表示65536个字符，中文都不只65536个，所以一个char是表示不了一个中文的。

更具体来说，char是 UTF-16 编码的结果，UTF-16其实也是变长的，一个到两个字符，有的时候会两个char表示一个字符

有的人说可以用getBytes("utf8")，这个也是很不靠谱的，虽然多数中文的结果都是3，但是有少部分是4的。对于非中文更加可能是1或者2

[size=medium] 所以获取字符个数应该用codePointCount。

这UTF-16的编码规则，超出一个char的时候，是有特殊表示的，

具体地说保留了 D800-DFFF 共 2048 个位置：

D800-DBFF为高位 1024

DC00-DFFF 为地位 1024

1024*1024 = 一百万够用了[/size]

[size=medium]可以看到codePointCount 的原理其实就是对于UTF-16的高地位（两个char的情况）做了修正的[/size]

获取字符长度的正确姿势

继续阅读

Java反射具体需求实现案例一

java编程思想_006短路现象

九、设计模式以及查找、排序算法

这是我见过最简单理解NIO的文章了

Map集合中get不存在的key值，返回值问题

每日一学（14）——（面向对象）抽象类作为方法参数与返回值

effective java-tagged class to hierarchy class

单点登录-CAS

集合练习题1

java 编程思想第四版学习随记

java之单用户登录

Java反射是什么，为什么要用反射

Double类parseDouble和valueOf方法的区别

java调用Windows命令行

java打印任意边长的菱形

java 8 Lamda 求 List 中 Bigdecimal类型的各种值求最大值求最小值求和求平均值