天天看點

VS2005中UNICODE和ANSI的差別

我們在編寫Visual C++ 2005程式時候經常會碰到(如下錯誤),很迷惑 

 'CreateWindowExW' : cannot convert parameter 1 from 'const char [4]' to 'LPCWSTR'

UNICODE  計算機發明後,為了在計算機中表示字元,人們制定了一種編碼,叫ASCII碼。ASCII碼由一個位元組中的7位(bit)表示,範圍是0x00 - 0x7F 共128個字元。他們以為這128個數字就足夠表示abcd....ABCD....1234 這些字元了。咳......說英語的人就是“笨”!後來他們突然發現,如果需要按照表格方式列印這些字元的時候,缺少了“制表符”。于是又擴充了ASCII的定義,使用一個位元組的全部8位(bit)來表示字元了,這就叫擴充ASCII碼。範圍是0x00 - 0xFF 共256個字元。咳......說中文的人就是聰明!中國人利用連續2個擴充ASCII碼的擴充區域(0xA0以後)來表示一個漢字,該方法的标準叫GB-2312。後來,日文、韓文、阿拉伯文、台灣繁體(BIG-5)......都使用類似的方法擴充了本地字元集的定義,現在統一稱為 MBCS 字元集(多位元組字元集。既:有2 個位元組的字元,也有1個位元組的字元)。這個方法是有缺陷的,因為各個國家地區定義的字元集有交集,是以使用GB-2312的軟體,就不能在BIG-5的環境下運作(顯示亂碼,因為:阿拉伯人在機器上編寫的阿拉伯文字,經過機器的字元編碼,變成了一個特定的0x XXXX,而這個特定的0x XXXX字元到中國人的機器上卻不存在相對應的漢字,或者是相對應出的漢字 根本就與原來阿拉伯文字文章一點關系沒有的,是以出現亂碼),反之亦然。

 咳......說英語的人終于變“聰明”一些了。為了把全世界人民所有的所有的文字元号都統一進行編碼,于是制定了UNICODE标準字元集。UNICODE 使用2個位元組表示一個字元(unsigned shor int、WCHAR、_wchar_t、OLECHAR)。這下終于好啦,全世界任何一個地區的軟體,可以不用修改地就能在另一個地區運作了。雖然我用 IE 浏覽日本網站,顯示出我不認識的日文文字,但至少不會是亂碼了。UNICODE 的範圍是 0x0000 - 0xFFFF 共6萬多個字元,其中光漢字就占用了4萬多個。嘿嘿,中國人賺大了。

 在程式中使用各種字元集的方法: 

const char * p = "Hello"; // 使用 ASCII 字元集

 const char * p = "你好"; // 使用 MBCS 字元集,由于 MBCS 完全相容 ASCII,多數情況下,我們并不嚴格區

 分他們 

LPCSTR p = "Hello,你好"; // 意義同上

const WCHAR * p = L"Hello,你好"; // 使用 UNICODE 字元集

LPCOLESTR p = L"Hello,你好"; // 意義同上

// 如果預定義了_UNICODE,則表示使用UNICODE字元集;如果定義了_MBCS,則表示使用 MBCS

const TCHAR * p = _T("Hello,你好");

PCTSTR p = _T("Hello,你好"); // 意義同上

在上面的例子中,T是非常有意思的一個符号(TCHAR、LPCTSTR、LPTSTR、_T()、TEXT()、_TEXT()...),它表示使用一種中間類型,既不明确表示使用 MBCS,也不明确表示使用 UNICODE。那到底使用哪種字元集那?嘿嘿......編譯的時候決定吧。設定條件編譯的方式是:VC6中,"Project\Settings...\C/C++卡片 Preprocessor definitions" 中添加或修改 _MBCS、_UNICODE;VC.NET中,"項目\屬性\配置屬性\正常\字元集"然後用組合窗進行選擇。使用 T 類型,是非常好的習慣,嚴重推薦!

 舉個例子:

 "abc"是非Unicode  string,

 L"abc"是Unicode tring.     L用來定義UNICODE字元串,L就是轉換成寬字元

 其次:.NET  的平台CLR (Common Language  RunTime庫中用定義(#define)  _UNICODE  來表示使用Unicode;

在  Win32  API 中是用定義(#define)  UNICODE  來表示使用 Unicode 。  

而大多數應用程式(Application)都是既使用CLR又使用Win32  API的,是以一般地,_UNICODE和UNICODE  應該在工程中同時定義或同時不定義。 

 _T("abc") 在_UNICODE已定義時解釋成L"abc",是Unicode string;在_UNICODE 未定義時則解釋成"abc",非Unicode  string。

  TEXT("abc")類似,不過它是根據UNICODE 的定義與否來決定的。

 再說以下: 

  如果有下面三句話:  

 TCHAR   szStr1[]   =   TEXT("str1");  

 char   szStr2[]   =   "str2";  

 WCHAR   szStr3[]   =   L("str3");  

 那麼第一句話在定義了UNICODE時會解釋為第三句話,沒有定義時就等于第二句話。   

 第二句話無論是否定義了UNICODE都是生成一個ANSI字元串,而第三句話總是生成UNICODE字元串。   

 為了程式的可移植性,建議都用第一中表示方法。

 MultiByteToWideChar函數與 _T、TEXT() 這兩個宏都可以選擇 ASNI (MBCS) 還是 UNICODE 字元

 第一個函數轉換的對象可以是常量、變量;第二、三隻能轉換常量。 

 補充:

 LPSTR   ==   char* 

 LPCSTR   ==   const   char*   

 LPCTSTR   ==   const   char*   //   Not   defined   _UNICODE,   such   as   win9x  

 LPCTSTR   ==   const   wchar_t*   //   defined   _UNICODE,   such   as   win2k   

 LPWSTR   ==   wchar_t*

 即:

 LPCSTR    A  32-bit   pointer   to   a   constant   character   string.

 LPSTR     A  32-bit   pointer   to   a   character   string.

 LPCTSTR   A  32-bit pointer to a constant character string that is portable for Unicode and DBCS.   

 LPTSTR    A 32-bit   pointer   to   a   character   string   that   is   portable   for   Unicode   and   DBCS.

 另外,如果嫌類型轉換實在太麻煩的話,就把字元集設成“未設定”,修改之後通常需要清了解決方案,再重新生成,否則會出現錯誤:general error c101008a: Failed to save the updated manifest to the file ".\Debug\Test1.exe.embed.manifest". The parameter is incorrect.    mt.exe

繼續閱讀