ANSI是什麼編碼？

用Notepad++建立一個文本檔案text.txt，其預設編碼格式為ANSI（乍看之下，還以為是ASCII呢），輸入漢字居然不是亂碼：

ANSI是什麼編碼？

儲存為test.txt，發送給你美國的同僚Bob。他也用Notepad++，不幸的是，卻發現你的檔案内容是這樣的：

ANSI是什麼編碼？

也許你會認為：你用的是中文系統，能正常顯示中文；他用的是英文系統，不能顯示中文！

這麼想，好像很有道理呢！

但是再細想一下：一個系統顯示亂碼，說明它不支援這種編碼格式（或者解碼方式不對）。難道英文系統不支援ANSI？難道ANSI是一種中文編碼？

如果你身邊有一個韓文系統，也裝一個Notepad++，預設還是ANSI編碼，你可以輸入“한국어”，發現也能正常顯示：

ANSI是什麼編碼？

但是你要輸入“漢字”可能就會發現是亂碼了...

通過這個反例，就可以說明ANSI不是一種中文編碼。那麼，ANSI到底是什麼編碼？

用十六進制編輯器打開内容為“漢字”的test.txt檔案：

ANSI是什麼編碼？

你會發現：其中baba和d7d6正好是“漢”和“字”兩個字的GBK編碼值。

同樣，用十六進制編輯器打開内容為“한국어”的test.txt檔案：

ANSI是什麼編碼？

你會發現：其中c7d1、b1b9和beee正好是“한”、“국”和“어”三個字元的EUC-KR編碼值。

由此可以看出：其實ANSI并不是某一種特定的字元編碼，而是在不同的系統中，ANSI表示不同的編碼。你的美國同僚Bob的系統中ANSI編碼其實是ASCII編碼（ASCII編碼不能表示漢字，是以漢字為亂碼），而你的系統中（“漢字”正常顯示）ANSI編碼其實是GBK編碼，而韓文系統中（“한국어”正常顯示）ANSI編碼其實是EUC-KR編碼。

話說計算機是由美國佬搞出來的嘛，他們覺得一個位元組（可以表示256個編碼）表示英語世界裡所有的字母、數字
和常用特殊符号已經綽綽有餘了（其實ASCII隻用了前127個編碼）。後來歐洲人不幹了，法國人說：我需要在小
寫字母加上變音符号（如：é），德國人說：我也要加幾個字母（Ä ä、Ö ö、Ü ü、ß）。于是，歐洲人就将ASCII
沒用完的編碼（128-255）為自己特有的符号編碼（後來稱之為“擴充字元集”）。等到我們中國人開始使用計算機
的時候，尼瑪，256個編碼哪夠？我泱泱大中華，漢字起碼也得N多萬吧，就連國小生都得要求掌握兩三千字。國标
局最後拍闆：一個位元組不夠，那我們就用多個位元組來為漢字編碼吧，但是，國情那麼窮，位元組那麼貴，三個位元組傷
不起，那就用倆位元組吧，先給常用的幾千漢字編個碼，等以後國家強盛了人民富裕了，咱再擴充呗---于是GB2312
就産生了。台灣同胞一看，尼瑪，全是簡體字，還讓不讓我們寫繁體字的活了，于是台灣同胞也自己弄了個繁體字
編碼---大五碼（Big-5）。同時，其它國家也在為自己的文字編碼。最後，微軟苦逼了：顧客就是上帝啊，你們
的編碼我都得滿足啊，這樣吧，賣給美國國内的系統預設就用ASCII編碼吧，賣給中國人的系統預設就用GBK編碼
吧，賣給南韓人的系統預設就用EUC-KR編碼，...但是為了避免你們誤會我賣給你們的系統功能有差異，我就統一
把你們的預設編碼都顯示成ANSI吧。---本故事純屬虛構，但“ANSI編碼”确實隻存在于Windows系統。

那麼Windows系統是如何區分ANSI背後的真實編碼的呢？

微軟用一個叫“Windows code pages”（在指令行下執行chcp指令可以檢視目前code page的值）的值來判斷系統預設編碼，比如：簡體中文的code page值為936（它表示GBK編碼，win95之前表示GB2312，詳見：Microsoft Windows' Code Page 936），繁體中文的code page值為950（表示Big-5編碼）。

我們能否通過修改Windows code pages的值來改變“ANSI編碼”呢？

指令提示符下，我們可以通過chcp指令來修改目前終端的active code page，例如：

(1) 執行：chcp 437，code page改為437，目前終端的預設編碼就為ASCII編碼了（漢字就成亂碼了）；

(2) 執行：chcp 936，code page改為936，目前終端的預設編碼就為GBK編碼了（漢字又能正常顯示了）。

上面的操作隻在目前終端起作用，并不會影響系統預設的“ANSI編碼”。（更改指令行預設codepage參看：設定cmd的codepage的方法）。

Windows下code page是根據目前系統區域（locale）來設定的，要想修改系統預設的“ANSI編碼”，我們可以通過修改系統區域來實作（“控制台” =>“時鐘、語言和區域”=>“區域和語言”=>“管理”=>“更改系統區域設定...”）：

ANSI是什麼編碼？

圖中的系統locale為簡體中文，意味着目前“ANSI編碼”實際是GBK編碼。當你把它改成Korean(Korea)時，“ANSI編碼”實際是EUC-KR編碼，“한국어”就能正常顯示了；當你把它改成English(US)時，“ANSI編碼”實際是ASCII編碼，“漢字”和“한국어”都成亂碼了。（改了之後需要重新開機系統的。。。）

說明：locale是國際化與本地化中重要的概念，本文不深入講解該内容。

你上面說的都是windows的情形吧，Linux呢？

将前述内容為“漢字”的檔案test.txt拷貝至Linux下，用Emacs打開：

ANSI是什麼編碼？

也是亂碼！原因也是locale的問題：

ANSI是什麼編碼？

更改locale後再打開：

ANSI是什麼編碼？

ANSI是什麼編碼？

繼續閱讀

關于Gradle配置的小結

Java小案例——随機數猜測随機數猜測

nginx location中斜線的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method