天天看點

Python檢測文本類型

1、根據檔案頭。

<code>#是否為帶BOM頭的UTF8檔案</code>

<code>def</code> <code>IsUtf8BomFile(pathfile):</code>

<code>    </code><code>if</code> <code>b</code><code>'\xef\xbb\xbf'</code> <code>=</code><code>=</code> <code>open</code><code>(pathfile, mode</code><code>=</code><code>'rb'</code><code>).read(</code><code>3</code><code>)):</code>

<code>        </code><code>return</code> <code>True</code>

<code>        </code> 

<code>    </code><code>return</code> <code>False</code>

2、用cchardet庫。

<code>&gt;&gt;&gt; </code><code>import</code> <code>cchardet</code>

<code>&gt;&gt;&gt; cchardet.detect(</code><code>open</code><code>(pathfile, </code><code>'rb'</code><code>).read())</code>

<code>{</code><code>'encoding'</code><code>: </code><code>'UTF-8'</code><code>, </code><code>'confidence'</code><code>: </code><code>0.9900000095367432</code><code>}</code>

相關閱讀:

本文轉自walker snapshot部落格51CTO部落格,原文連結http://blog.51cto.com/walkerqt/1757899如需轉載請自行聯系原作者

RQSLT