URL編碼分析與亂碼解決方案

一、問題的由來

URL就是網址，隻要上網，就一定會用到。

一般來說，URL隻能使用英文字母、阿拉伯數字和某些标點符号，不能使用其他文字和符号。比如，世界上有英文字母的網址"http://www.abc.com"，但是沒有希臘字母的網址"http://www.aβγ.com"（讀作阿爾法-貝塔-伽瑪.com）。這是因為網絡标準做了硬性規定：

"...Only alphanumerics [0-9a-zA-Z], the special characters "$-_.+!*‘()," [not including the quotes - ed], and reserved characters used for their reserved purposes may be used unencoded within a URL." "隻有字母和數字[0-9a-zA-Z]、一些特殊符号"$-_.+!*‘(),"[不包括雙引号]、以及某些保留字，才可以不經過編碼直接用于URL。"

這意味着，如果URL中有漢字，就必須編碼後使用。但是麻煩的是，RFC

1738沒有規定具體的編碼方法，而是交給應用程式（浏覽器）自己決定。這導緻"URL編碼"成為了一個混亂的領域。

下面就讓我們看看，"URL編碼"到底有多混亂。我會依次分析四種不同的情況，在每一種情況中，浏覽器的URL編碼方法都不一樣。把它們的差異解釋清楚之後，我再說如何用Javascript找到一個統一的編碼方法。

二、情況1：網址路徑中包含漢字

打開IE（我用的是8.0版），輸入網址"http://zh.wikipedia.org/wiki/春節"。注意，"春節"這兩個字此時是網址路徑的一部分。

檢視HTTP請求的頭資訊，會發現IE實際查詢的網址是"http://zh.wikipedia.org/wiki/%E6%98%A5%E8%8A%82"。也就是說，IE自動将"春節"編碼成了"%E6%98%A5%E8%8A%82"。

我們知道，"春"和"節"的utf-8編碼分别是"E6 98 A5"和"E8 8A

82"，是以，"%E6%98%A5%E8%8A%82"就是按照順序，在每個位元組前加上%而得到的。（具體的轉碼方法，請參考我寫的。）

在Firefox中測試，也得到了同樣的結果。是以，結論1就是，網址路徑的編碼，用的是utf-8編碼。

三、情況2：查詢字元串包含漢字

在IE中輸入網址"http://www.baidu.com/s?wd=春節"。注意，"春節"這兩個字此時屬于查詢字元串，不屬于網址路徑，不要與情況1混淆。

檢視HTTP請求的頭資訊，會發現IE将"春節"轉化成了一個亂碼。

切換到十六進制方式，才能清楚地看到，"春節"被轉成了"B4 BA BD DA"。

我們知道，"春"和"節"的GB2312編碼（我的作業系統"Windows XP"中文版的預設編碼）分别是"B4 BA"和"BD

DA"。是以，IE實際上就是将查詢字元串，以GB2312編碼的格式發送出去。

Firefox的處理方法，略有不同。它發送的HTTP

Head是"wd=%B4%BA%BD%DA"。也就是說，同樣采用GB2312編碼，但是在每個位元組前加上了%。

是以，結論2就是，查詢字元串的編碼，用的是作業系統的預設編碼。

四、情況3：Get方法生成的URL包含漢字

前面說的是直接輸入網址的情況，但是更常見的情況是，在已打開的網頁上，直接用Get或Post方法發出HTTP請求。

根據台灣中興大學，這時的編碼方法由網頁的編碼決定，也就是由HTML源碼中字元集的設定決定。

如果上面這一行最後的charset是UTF-8，則URL就以UTF-8編碼；如果是GB2312，URL就以GB2312編碼。

舉例來說，百度是GB2312編碼，Google是UTF-8編碼。是以，從它們的搜尋框中搜尋同一個詞"春節"，生成的查詢字元串是不一樣的。

百度生成的是%B4%BA%BD%DA，這是GB2312編碼。

Google生成的是%E6%98%A5%E8%8A%82，這是UTF-8編碼。

是以，結論3就是，GET和POST方法的編碼，用的是網頁的編碼。

五、情況4：Ajax調用的URL包含漢字

前面三種情況都是由浏覽器發出HTTP請求，最後一種情況則是由Javascript生成HTTP請求，也就是Ajax調用。還是根據呂瑞麟老師的文章，在這種情況下，IE和Firefox的處理方式完全不一樣。

舉例來說，有這樣兩行代碼：

　　url = url + "?q=" +document.myform.elements[0].value; //

假定使用者在表單中送出的值是"春節"這兩個字

　　http_request.open(‘GET‘, url, true);

那麼，無論網頁使用什麼字元集，IE傳送給伺服器的總是"q=%B4%BA%BD%DA"，而Firefox傳送給伺服器的總是"q=%E6%98%A5%E8%8A%82"。也就是說，在Ajax調用中，IE總是采用GB2312編碼（作業系統的預設編碼），而Firefox總是采用utf-8編碼。這就是我們的結論4。

六、Javascript函數：escape()

好了，到此為止，四種情況都說完了。

假定前面你都看懂了，那麼此時你應該會感到很頭痛。因為，實在太混亂了。不同的作業系統、不同的浏覽器、不同的網頁字元集，将導緻完全不同的編碼結果。如果程式員要把每一種結果都考慮進去，是不是太恐怖了？有沒有辦法，能夠保證用戶端隻用一種編碼方法向伺服器送出請求？

回答是有的，就是使用Javascript先對URL編碼，然後再向伺服器送出，不要給浏覽器插手的機會。因為Javascript的輸出總是一緻的，是以就保證了伺服器得到的資料是格式統一的。

Javascript語言用于編碼的函數，一共有三個，最古老的一個就是escape()。雖然這個函數現在已經不提倡使用了，但是由于曆史原因，很多地方還在使用它，是以有必要先從它講起。

實際上，escape()不能直接用于URL編碼，它的真正作用是傳回一個字元的Unicode編碼值。比如"春節"的傳回結果是%u6625%u8282，也就是說在Unicode字元集中，"春"是第6625個（十六進制）字元，"節"是第8282個（十六進制）字元。

它的具體規則是，除了ASCII字母、數字、标點符号"@ * _ + - .

/"以外，對其他所有字元進行編碼。在\u0000到\u00ff之間的符号被轉成%xx的形式，其餘符号被轉成%uxxxx的形式。對應的解碼函數是unescape()。

是以，"Hello World"的escape()編碼就是"Hello%20World"。因為空格的Unicode值是20（十六進制）。

還有兩個地方需要注意。

首先，無論網頁的原始編碼是什麼，一旦被Javascript編碼，就都變為unicode字元。也就是說，Javascipt函數的輸入和輸出，預設都是Unicode字元。這一點對下面兩個函數也适用。

其次，escape()不對"+"編碼。但是我們知道，網頁在送出表單的時候，如果有空格，則會被轉化為+字元。伺服器處理資料的時候，會把+号處理成空格。是以，使用的時候要小心。

七、Javascript函數：encodeURI()

encodeURI()是Javascript中真正用來對URL編碼的函數。

它着眼于對整個URL進行編碼，是以除了常見的符号以外，對其他一些在網址中有特殊含義的符号"; / ? : @ & = + $ ,

#"，也不進行編碼。編碼後，它輸出符号的utf-8形式，并且在每個位元組前加上%。

它對應的解碼函數是decodeURI()。

需要注意的是，它不對單引号‘編碼。

八、Javascript函數：encodeURIComponent()

最後一個Javascript編碼函數是encodeURIComponent()。與encodeURI()的差別是，它用于對URL的組成部分進行個别編碼，而不用于對整個URL進行編碼。

是以，"; / ? : @ & = + $ ,

#"，這些在encodeURI()中不被編碼的符号，在encodeURIComponent()中統統會被編碼。至于具體的編碼方法，兩者是一樣。

它對應的解碼函數是decodeURIComponent()。

（完）

原文網址：

最後修改時間：2014年5月15日 17:44

付費支援： |

URL編碼分析與亂碼解決方案

繼續閱讀

Java小案例——随機數猜測随機數猜測

nginx location中斜線的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

QR碼編碼原理三（日本漢字和中文編碼）

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method