< DOCTYPE html PUBLIC -WCDTD XHTML StrictEN httpwwwworgTRxhtmlDTDxhtml-strictdtd>
參數編碼規範一.摘要
我們經常要在頁面傳遞中文資料,但是往往被文字編碼所困惑.有時不了解到底是浏覽器編碼問題還是伺服器編碼問題.本文分析了網際網路傳遞資料的編碼原理, 并且提出了完善易用的解決方案.
二.原則
避免在get或者post參數時直接傳遞中文字元.中文參數需要經過編碼後再傳遞.伺服器端要使用相同的編碼格式進行解碼
三.錯誤觀點
1.很多程式員認為url中可以傳遞中文.
2.當擷取中文參數産生了亂碼時, 往往首先檢查伺服器端程式的編碼格式.
很多人認為url可以傳遞中文,不知道浏覽器有自動編碼的行為, 是以單純的認為問題出在伺服器端.其實即使在伺服器端找到了正确的編碼格式,我們也不應該輕易地改變伺服器的預設編碼格式.
3.傳遞參數前編碼,使用Request對象擷取參數時解碼
很多的程式員認為認為,傳遞參數時我們使用UrlEncode等方式編碼, 在接收時應該使用UrlDecode解碼.這是常見的錯誤請大家一定要注意,使用預設的Request.QueryString和Request.Form時已經自動執行了一次解碼,使用的解碼格式是伺服器端設定的預設編碼格式.
四.原因
傳遞中文字元時,自動的編碼解碼格式和浏覽器與伺服器的設定有關.
測試Firefox3和IE6的Get方式發送中文參數, Firefox預設使用UTF-8格式編碼中文參數, 而IE6即使在進階設定中設定了"總是以 UTF-8 發送URL", 仍然自動使用GB2312編碼中文參數.
對于伺服器端我們可以自由的控制解碼的格式.但是往往是通過更改伺服器配置進行全局的統一設定.比如對于ASP.NET程式.可以在Web.Config中設定伺服器段的編碼和解碼格式:
<globalization culture="zh-CN" uiCulture="zh-CN" requestEncoding="UTF-8" responseEncoding="gb2312" />
但是我們沒法控制浏覽器端行為.使用者可能使用不同的浏覽器.
五.解決方案1.統一預設的編碼格式
(1)設定伺服器端的編碼格式為UTF-8
(2)傳遞參數全部進行編碼,.伺服器端(C#)使用Server.UrlEncode方法,用戶端(javascript)使用encodeURIComponent方法.
說明:
用戶端的javascript函數encodeURIComponent隻能使用UTF-8編碼格式. 是以需要設定伺服器端request和response都為UTF-8.
缺陷是如果某些合作夥伴必須傳遞其他的編碼格式的參數, 則伺服器端或擷取到亂碼.此方案實作簡單,适合大部分場景.
2.通過編碼參數指定編碼格式
為了解決可能存在的無法統一編碼格式的問題, 我們使用一個參數"encoding"來顯示的指定編碼格式.encoding參數需要在所有的請求中傳遞,無論是get還是post.
(1)對于javascript用戶端編碼而言, 仍然使用encodeURIComponent方法編碼, 此時指定encoding參數的值為"UTF-8".
(2)對于傳入給伺服器端的其他編碼格式, 比如GB2312, 我們不能使用預設的Request.Form或者QueryString方法進行編碼.因為伺服器端的編碼格式可能設定為了UTF-8.此時使用Request.Form或者QueryString會自動使用伺服器端指定的編碼格式進行解碼. 是以需要使用下面的方法自己處理請求,擷取參數:
/// <summary> /// 根據指定的編碼格式傳回請求的參數集合 ziqiu.zhang 2009.1.19 /// </summary> /// <param name="request">目前請求的request對象</param> /// <param name="encode">編碼格式字元串</param> /// <returns>鍵為參數名,值為參數值的NameValue集合</returns> public static NameValueCollection GetRequestParameters(HttpRequest request, string encode) { NameValueCollection result = null; Encoding destEncode = null; //擷取指定編碼格式的Encoding對象 if (!String.IsNullOrEmpty(encode)) { try { //擷取指定的編碼格式 destEncode = Encoding.GetEncoding(encode); } catch { //如果擷取指定編碼格式失敗,則設定為null destEncode = null; } } //根據不同的HttpMethod方式,擷取請求的參數.如果沒有Encoding對象則使用伺服器端預設的編碼. if (request.HttpMethod == "POST") { if (null != destEncode) { Stream resStream = request.InputStream; byte[] filecontent = new byte[resStream.Length]; resStream.Read(filecontent, 0, filecontent.Length); string postquery = destEncode.GetString(filecontent); result = HttpUtility.ParseQueryString(postquery, destEncode); } else { result = request.Form; } } else { if (null != destEncode) { result = System.Web.HttpUtility.ParseQueryString(request.Url.Query, destEncode); } else { result = request.QueryString; } } //傳回結果 return result; }
通過上面的方法, 無論是Get請求還是Post請求, 我們都可以使用自己指定的編碼格式擷取參數.如果有人認為寫這個方法是在自找麻煩,請看"二.錯誤觀點"中的第三條.
此方法傳回的是一個NameValueCollection對象,判斷是否有某個參數時不能使用檢查是否存在key值的方法.而是要通key擷取值,然後判斷值是否為null(和List有些不同):
//擷取參數, 假設paramList是一個NameValueCollection對象 p1= paramList["p1"]; //判斷是否存在此參數,如果不存在則p1為null if ( !( String.IsNullOrEmpty(p1) ) {...}
另外本方法如果沒有傳遞Encoding或者傳遞的字元串無法轉換成強類型的Encoding對象, 則使用伺服器端預設編碼格式(即直接使用Request對象的QueryString和Form擷取參數).
六.Javascript編碼方法
發送請求的一方叫做用戶端.我們經常需要使用Javascript在用戶端編碼中文參數.下面javascript中和編碼有關的函數:
函數名稱
函數說明
解釋
escape()
escape() 函數可對字元串進行編碼,這樣就可以在所有的計算機上讀取該字元串。
該方法不會對 ASCII 字母和數字進行編碼,也不會對下面這些 ASCII 标點符号進行編碼: - _ . ! ~ * ' ( ) 。其他所有的字元都會被轉義序列替換。
[已過時] 請使用 encodeURI() 或 encodeURIComponent()
unescape()
unescape() 函數可對通過 escape() 編碼的字元串進行解碼。
該函數的工作原理是這樣的:通過找到形式為 %xx 和 %uxxxx 的字元序列(x 表示十六進制的數字),用 Unicode 字元 \u00xx 和 \uxxxx 替換這樣的字元序列進行解碼。
[已過時] 請使用 decodeURI() 或 decodeURIComponent()
encodeURI()
encodeURI() 函數可把字元串作為 URI 進行編碼。
該方法不會對 ASCII 字母和數字進行編碼,也不會對這些 ASCII 标點符号進行編碼: - _ . ! ~ * ' ( ) 。
該方法的目的是對 URI 進行完整的編碼,是以對以下在 URI 中具有特殊含義的 ASCII 标點符号,encodeURI() 函數是不會進行轉義的:;/?:@&=+$,#
[提示] 如果 URI 的參數中含有不能轉移的字元,則應當使用 encodeURIComponent() 方法分别對各參數進行編碼。
decodeURI()
decodeURI() 函數可對 encodeURI() 函數編碼過的 URI 進行解碼。
encodeURIComponent()
encodeURIComponent() 函數可把字元串作為 URI 元件進行編碼。
其他字元(比如 :;/?:@&=+$,# 這些用于分隔 URI 元件的标點符号),都是由一個或多個十六進制的轉義序列替換的。
[提示] 此方法會編碼URI中的特殊字元
decodeURIComponent()
decodeURIComponent() 函數可對 encodeURIComponent() 函數編碼的 URI 進行解碼。
escape和unescape在V3版本的标準中已經不在推薦使用.應該用encodeURI和encodeURIComponent方法.對于一個URI(URL也是一中URI),如果我們希望将它作為完整的網址發送請求, 但是上面帶有中文, 則應該使用encodeURI方法.如果是要編碼參數,則應該使用encodeURIComponent.
下面舉例說明這兩個方法的差別:
document.write(encodeURIComponent("http://www.w3school.com.cn")+ "<br />")
document.write(encodeURI("http://www.w3school.com.cn")+ "<br />")
結果
http%3A%2F%2Fwww.w3school.com.cn
<a href="http://www.w3school.com.cn/">http://www.w3school.com.cn</a>
七.浏覽器自動編碼Get請求
對于Get方式發送的請求, 不同的浏覽器使用不同的編碼方式自動為中文參數編碼.
比如:Firefox/3.0.5 使用UTF-8, IE6使用GB2312.
Post請求
對于Post方式發送的請求, 表單中的參數值對是通過request body發送給伺服器,此時浏覽器會根據網頁的ContentType("text/html; charset=GBK")中指定的編碼進行對表單中的資料進行編碼,然後發給伺服器。在HTML代碼的Head中添加:
<meta http-equiv="Content-Type" content="text/html;charset=gb2312" />
Firefox/3.0.5 會使用根據charset中設定的編碼格式編碼post的中文參數.
IE6不起作用.
實驗表明使用用戶端浏覽器預設編碼格式具有不确定性.是以傳遞中文時我們要手工編碼參數.
八.總結
寫這篇文章的目的是提醒Web程式員要注意浏覽器的自動編碼, 在一個項目中按照本文提供的解決方案将避免中文參數傳遞帶來的亂碼問題.在看了YJingLee's Blog的"CnBlogs博文排版技巧"後我對本文重新進行了整理.
本文轉自 netcorner 部落格園部落格,原文連結: http://www.cnblogs.com/netcorner/archive/2010/03/02/2912029.html ,如需轉載請自行聯系原作者