天天看點

Unicode Tips

<code>String regex = </code><code>"[\\p{InCJK Unified Ideographs}&amp;&amp;\\P{Cn}]]"</code><code>;</code>

<a href="http://s4.51cto.com/wyfs02/M01/79/84/wKioL1aTcxbjlCovAAA4_yGLBkg691.png" target="_blank"></a>

5、關于utf8的bom頭。(Python3下)

<code>&gt;&gt;&gt; </code><code>import</code> <code>codecs</code>

<code>&gt;&gt;&gt; codecs.BOM_UTF8</code>

<code>b</code><code>'\xef\xbb\xbf'</code>

<code>&gt;&gt;&gt; </code><code>len</code><code>(b</code><code>'\xef\xbb\xbf'</code><code>)</code>

<code>3</code>

<code>&gt;&gt;&gt; codecs.BOM_UTF8.decode(</code><code>'utf8'</code><code>)</code>

<code>'\ufeff'</code>

<code>&gt;&gt;&gt; </code><code>len</code><code>(</code><code>'\ufeff'</code><code>)</code>

<code>1</code>

6、一些編碼字元集的關系:

(1)、gb2312-1980 &lt; gbk-1995 &lt; gb18030-2000 &lt; gb18030-2005

<code># 收錄漢字個數</code>

<code>gb2312-1980:6763</code>

<code>gbk-1995:21003</code>

<code>gb18030-2000:27533</code>

<code>gb18030-2005:70244</code>

本文轉自walker snapshot部落格51CTO部落格,原文連結http://blog.51cto.com/walkerqt/1733872如需轉載請自行聯系原作者

RQSLT