VS2005中UNICODE和ANSI的差別

我們在編寫Visual C++ 2005程式時候經常會碰到（如下錯誤），很迷惑

'CreateWindowExW' : cannot convert parameter 1 from 'const char [4]' to 'LPCWSTR'

UNICODE　　計算機發明後，為了在計算機中表示字元，人們制定了一種編碼，叫ASCII碼。ASCII碼由一個位元組中的7位(bit)表示，範圍是0x00 - 0x7F 共128個字元。他們以為這128個數字就足夠表示abcd....ABCD....1234 這些字元了。咳......說英語的人就是“笨”！後來他們突然發現，如果需要按照表格方式列印這些字元的時候，缺少了“制表符”。于是又擴充了ASCII的定義，使用一個位元組的全部8位(bit)來表示字元了，這就叫擴充ASCII碼。範圍是0x00 - 0xFF 共256個字元。咳......說中文的人就是聰明！中國人利用連續2個擴充ASCII碼的擴充區域（0xA0以後）來表示一個漢字，該方法的标準叫GB-2312。後來，日文、韓文、阿拉伯文、台灣繁體（BIG-5）......都使用類似的方法擴充了本地字元集的定義，現在統一稱為 MBCS 字元集（多位元組字元集。既：有2 個位元組的字元，也有1個位元組的字元）。這個方法是有缺陷的，因為各個國家地區定義的字元集有交集，是以使用GB-2312的軟體，就不能在BIG-5的環境下運作（顯示亂碼，因為：阿拉伯人在機器上編寫的阿拉伯文字，經過機器的字元編碼，變成了一個特定的0x XXXX，而這個特定的0x XXXX字元到中國人的機器上卻不存在相對應的漢字，或者是相對應出的漢字根本就與原來阿拉伯文字文章一點關系沒有的，是以出現亂碼），反之亦然。

咳......說英語的人終于變“聰明”一些了。為了把全世界人民所有的所有的文字元号都統一進行編碼，于是制定了UNICODE标準字元集。UNICODE 使用2個位元組表示一個字元(unsigned shor int、WCHAR、_wchar_t、OLECHAR)。這下終于好啦，全世界任何一個地區的軟體，可以不用修改地就能在另一個地區運作了。雖然我用 IE 浏覽日本網站，顯示出我不認識的日文文字，但至少不會是亂碼了。UNICODE 的範圍是 0x0000 - 0xFFFF 共6萬多個字元，其中光漢字就占用了4萬多個。嘿嘿，中國人賺大了。

在程式中使用各種字元集的方法：

const char * p = "Hello"; // 使用 ASCII 字元集

const char * p = "你好"; // 使用 MBCS 字元集，由于 MBCS 完全相容 ASCII，多數情況下，我們并不嚴格區

分他們

LPCSTR p = "Hello,你好"; // 意義同上

const WCHAR * p = L"Hello,你好"; // 使用 UNICODE 字元集

LPCOLESTR p = L"Hello,你好"; // 意義同上

// 如果預定義了_UNICODE，則表示使用UNICODE字元集；如果定義了_MBCS,則表示使用 MBCS

const TCHAR * p = _T("Hello,你好");

PCTSTR p = _T("Hello,你好"); // 意義同上

在上面的例子中，T是非常有意思的一個符号（TCHAR、LPCTSTR、LPTSTR、_T()、TEXT()、_TEXT()...），它表示使用一種中間類型，既不明确表示使用 MBCS，也不明确表示使用 UNICODE。那到底使用哪種字元集那？嘿嘿......編譯的時候決定吧。設定條件編譯的方式是：VC6中，"Project\Settings...\C/C++卡片 Preprocessor definitions" 中添加或修改 _MBCS、_UNICODE；VC.NET中，"項目\屬性\配置屬性\正常\字元集"然後用組合窗進行選擇。使用 T 類型，是非常好的習慣，嚴重推薦！

舉個例子：

"abc"是非Unicode string,

L"abc"是Unicode tring. L用來定義UNICODE字元串，L就是轉換成寬字元

其次：.NET 的平台CLR (Common Language RunTime庫中用定義(#define) _UNICODE 來表示使用Unicode；

在 Win32 API 中是用定義(#define) UNICODE 來表示使用 Unicode 。

而大多數應用程式(Application)都是既使用CLR又使用Win32 API的，是以一般地，_UNICODE和UNICODE 應該在工程中同時定義或同時不定義。

_T("abc") 在_UNICODE已定義時解釋成L"abc",是Unicode string；在_UNICODE 未定義時則解釋成"abc",非Unicode string。

TEXT("abc")類似，不過它是根據UNICODE 的定義與否來決定的。

再說以下：

如果有下面三句話：

TCHAR szStr1[] = TEXT("str1");

char szStr2[] = "str2";

WCHAR szStr3[] = L("str3");

那麼第一句話在定義了UNICODE時會解釋為第三句話，沒有定義時就等于第二句話。

第二句話無論是否定義了UNICODE都是生成一個ANSI字元串，而第三句話總是生成UNICODE字元串。

為了程式的可移植性，建議都用第一中表示方法。

MultiByteToWideChar函數與 _T、TEXT() 這兩個宏都可以選擇 ASNI (MBCS) 還是 UNICODE 字元

第一個函數轉換的對象可以是常量、變量；第二、三隻能轉換常量。

補充：

LPSTR == char*

LPCSTR == const char*

LPCTSTR == const char* // Not defined _UNICODE, such as win9x

LPCTSTR == const wchar_t* // defined _UNICODE, such as win2k

LPWSTR == wchar_t*

即：

LPCSTR A 32-bit pointer to a constant character string.

LPSTR A 32-bit pointer to a character string.

LPCTSTR A 32-bit pointer to a constant character string that is portable for Unicode and DBCS.

LPTSTR A 32-bit pointer to a character string that is portable for Unicode and DBCS.

另外，如果嫌類型轉換實在太麻煩的話，就把字元集設成“未設定”，修改之後通常需要清了解決方案，再重新生成，否則會出現錯誤：general error c101008a: Failed to save the updated manifest to the file ".\Debug\Test1.exe.embed.manifest". The parameter is incorrect. mt.exe

VS2005中UNICODE和ANSI的差別

繼續閱讀

面試題:vector和map的差別，異同。空間分布，100萬資料存哪個比較合适。一、疊代器差別二、vector三、Map、Set四、vector_map 為什麼比map效率高五、如何選擇六、容器選擇原則七、效率對比

C++ 多線程用條件變量确定線程的執行順序而不是使用 sleep(1)

POJ 1284 Primitive Roots (歐拉函數&原根定理)

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

成員函數初始化清單

2021-08-13c++——類之操作符重載

swmm與lisflood-fp源碼如何一起編譯 CMake指令

Windows下VS開發環境環境安裝工程項目設定關于Debug和Release的提示

一文看懂字元串的加減乘除

C++ 第十五周報告1--《冒泡法排序》

C++實作簡單順序表

Netty——自定義協定解決TCP粘包拆包問題什麼是TCP粘包拆包自定義協定解決拆包粘包問題

C經典書籍筆記——C陷阱與缺陷②(文法陷阱之優先級)一、錯誤案列二、優先級規律

線性表之順序表的實作

C++判斷素數、求最大公約數代碼判斷一個數是否為素數求兩個數的最大公約數

SequoiaDB巨杉資料庫C++驅動概述