天天看点

Python检测文本类型

1、根据文件头。

<code>#是否为带BOM头的UTF8文件</code>

<code>def</code> <code>IsUtf8BomFile(pathfile):</code>

<code>    </code><code>if</code> <code>b</code><code>'\xef\xbb\xbf'</code> <code>=</code><code>=</code> <code>open</code><code>(pathfile, mode</code><code>=</code><code>'rb'</code><code>).read(</code><code>3</code><code>)):</code>

<code>        </code><code>return</code> <code>True</code>

<code>        </code> 

<code>    </code><code>return</code> <code>False</code>

2、用cchardet库。

<code>&gt;&gt;&gt; </code><code>import</code> <code>cchardet</code>

<code>&gt;&gt;&gt; cchardet.detect(</code><code>open</code><code>(pathfile, </code><code>'rb'</code><code>).read())</code>

<code>{</code><code>'encoding'</code><code>: </code><code>'UTF-8'</code><code>, </code><code>'confidence'</code><code>: </code><code>0.9900000095367432</code><code>}</code>

相关阅读:

本文转自walker snapshot博客51CTO博客,原文链接http://blog.51cto.com/walkerqt/1757899如需转载请自行联系原作者

RQSLT