<code>String regex = </code><code>"[\\p{InCJK Unified Ideographs}&&\\P{Cn}]]"</code><code>;</code>
<a href="http://s4.51cto.com/wyfs02/M01/79/84/wKioL1aTcxbjlCovAAA4_yGLBkg691.png" target="_blank"></a>
5、关于utf8的bom头。(Python3下)
<code>>>> </code><code>import</code> <code>codecs</code>
<code>>>> codecs.BOM_UTF8</code>
<code>b</code><code>'\xef\xbb\xbf'</code>
<code>>>> </code><code>len</code><code>(b</code><code>'\xef\xbb\xbf'</code><code>)</code>
<code>3</code>
<code>>>> codecs.BOM_UTF8.decode(</code><code>'utf8'</code><code>)</code>
<code>'\ufeff'</code>
<code>>>> </code><code>len</code><code>(</code><code>'\ufeff'</code><code>)</code>
<code>1</code>
6、一些编码字符集的关系:
(1)、gb2312-1980 < gbk-1995 < gb18030-2000 < gb18030-2005
<code># 收录汉字个数</code>
<code>gb2312-1980:6763</code>
<code>gbk-1995:21003</code>
<code>gb18030-2000:27533</code>
<code>gb18030-2005:70244</code>
本文转自walker snapshot博客51CTO博客,原文链接http://blog.51cto.com/walkerqt/1733872如需转载请自行联系原作者
RQSLT