1.编码的基本知识

1.1.为何有编码：

一开始是为了和计算机进行沟通，出现了英文的ASCII码；后来因为各个国家语言不同，也有自己的一套编码格式，所以出现了ISO8859系列。Unicode等

1.2.编码的种类：

①ASCII：用一个字节的7位进行表示，只能表示128个字符，不支持中文

②ISO8859-1:用一个字节的8位进行表示，可以支持256个字符，不支持中文

③GBK:针对中文的编码格式，每个中文字符用两个字节表示

④Unicode:为了实现编码的统一，这是一种规范。其中包括UTF-8、UTF-16等；UTF-16用两个字节表示字符。UTF-8用边长的字节表示字符，UTF-8的编码格式如下

0xxxxxxx

110xxxxx 10xxxxxx

1110xxxx 10xxxxxx 10xxxxxx

11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

比如，你用Unicode的编码十六进制为 4f60

转化为二进制的话，那么为：0100 1111 0110 0000 16位，符合UTF-8 三个字节

所以用UTF-8 表示为 1110 0100 1011 1101 1010 0000 也就是 e4 bd a0、

如果用UTF-16 表示的话，因为它使用两个字节表示一个字符，所以还是 0100 1111 0110 0000 当然，有些字符使用一个字节就可以表示了

（扩展：如果打印出unicode的时候，会发现[-2, -1, 0, 97]-2,1表示这代表是unicode格式（代表ff,fe)，0和97表示a （unicode统一用2个字节表示英文和和中文内容））

注意：getBytes 编码解码的解密默认为" UTF-8"(具体可看源码)

1.3.编码输出

public class TestBM {

public static void main(String args[]) throws UnsupportedEncodingException{

show("你".getBytes("unicode"));

show("你".getBytes("UTF-16"));

show("你".getBytes());

show("你".getBytes("UTF-8"));

show("你".getBytes("GBK"));

show("你".getBytes("ISO8859-1"));

}

public static void show(byte[] bs){

for(int i=0;i<bs.length;i++){

System.out.println(bs[i]);

}

System.out.println("______");

}

结果

-2

-1

______

-2

-1

______

-28

-67

-96

______

-28

-67

-96

______

-60

-29

______

2.编码出错的根本原因：

编码与解码的类型对应不上。

3.编码错误类型的匹配（使用不同编码看看编码后的中文样子）

3.1.中文变为一个？号：

如果编码和解码的字符集都是一致的，那么可以确定该字符编码不支持中文，例如：ISO-8859-1

System.out.println(new String("你".getBytes("ISO8859-1")));

分析：你本来对应的unicode为4f60 但是iso-8859-1为单字节编码，此时4f60已经超出它的范围，于是使用3f代替，3f在iso-8859-1中表示的时问号？

3.2.中文变为两个？号：

中文经过多次编码且其中有一次编码或者解码使用了不支持中文的字符集　

new String(new String("你".getBytes("GBK"),"ISO8859-1").getBytes("GBK"),"GBK")

过程为：gbk编码、iso解码、gbk编码、gbk解码

分析：gbk编码、iso解码后为“Äã”这两个字符进行gbk编码解码均为？

3.3. 中文变奇怪字符，

如：ä½ å¥½ 或者 ÄãºÃ Ì Ô £ ¡Î Ò Ï²»¶ £ ¡:编码和解码的不对应，有一个ISO8859-1

(new String("你".getBytes("GBK"),"ISO8859-1") Äã

(new String("你".getBytes("UTF-8"),"ISO8859-1") ä½

new String("淘".getBytes("GBK"),"ISO8859-1") ÌÔ

3.4 出现菱形问号�：

是Unicode中的"REPLACEMENT CHARACTER",该字符的主要作用是用来表示不识别的字符，所以一般是涉及到UTF-8 以及 UTF-16

new String("你".getBytes("GBK"),"UTF-8") ��

new String("你".getBytes("UTF-8"),"GBK") 浣�

new String("你".getBytes("UTF-16"),"GBK") �O`

new String("你".getBytes("UTF-8"),"UTF-16") �

new String("你".getBytes("UTF-16"),"UTF-8") ��O`

new String("你".getBytes("GBK"),"UTF-16") 쓣

4.编码出错常发生的地方

4.1.对应URL的传送

firefox对url中出现的中文使用了UTF-8的编码方式。之所以url中出现%，这是因为根据URL编码规范，浏览器会将非ASCII字符编成16进制后，每个字节前需要加%。

http://localhost:8080/fdyuntu-ssm/manager/codec/%E4%BD%A0%E5%A5%BD

4.2.在HTTP中，post和get

通过request获取参数的时候（request.getParamter）的时候，默认使用的时ISO8859-1进行解码(可以查找)

处理的时候，在第一次调用request.getParamter 前设置解码的编码

如：request.setCharacterEncoding(“utf-8”)

参考链接

https://blog.csdn.net/u013905744/article/details/52456417/

https://www.cnblogs.com/yuanfy008/p/6937803.html

https://www.cnblogs.com/maohuidong/p/8044568.html

https://blog.csdn.net/u011159417/article/details/49612299

https://www.jianshu.com/p/63c7ad13907a

https://blog.csdn.net/baixiaoshi/article/details/40786503

中文编码1.编码的基本知识2.编码出错的根本原因：3.编码错误类型的匹配（使用不同编码看看编码后的中文样子）4.编码出错常发生的地方

1.编码的基本知识

1.1.为何有编码：

1.2.编码的种类：

1.3.编码输出

2.编码出错的根本原因：

3.编码错误类型的匹配（使用不同编码看看编码后的中文样子）

3.1.中文变为一个？号：

3.2.中文变为两个？号：

3.3. 中文变奇怪字符，

3.4 出现菱形问号�：

4.编码出错常发生的地方

4.1.对应URL的传送

4.2.在HTTP中，post和get

继续阅读

关于Gradle配置的小结

Java小案例——随机数猜测随机数猜测

nginx location中斜线的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method