python設定utf8編碼_怎麼在Python裡使用UTF-8編碼

展開全部

概述

在2113python代碼即.py檔案的頭部聲明即可

解析5261

py檔案中的編碼

Python 預設腳本檔案都是 ANSCII 編碼的，當4102檔案中有非 ANSCII 編碼範圍内的字元的時候就要使用"編碼訓示"來修正一個 module的定義中，如果.py檔案中包含中文字元（嚴格的說是含有非1653anscii字元），則需要在第一行或第二行指定編碼聲明：# -*- coding=utf-8 -*-

#coding=utf-8

# 以上兩種選其一即可

其他的編碼如：gbk、gb2312也可以；否則會出現:SyntaxError: Non-ASCII character '\xe4' in file test.py on line 3, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

python中的編碼與解碼

先說一下python中的字元串類型，在python中有兩種字元串類型，分别是 str 和 unicode，他們都是basestring的派生類；

str類型是一個包含Characters represent (at least) 8-bit bytes的序列；

unicode 的每個 unit 是一個 unicode obj;

在str的文檔中有這樣的一句話：The string data type is also used to represent arrays of bytes, e.g., to hold data read from a file.

也就是說在讀取一個檔案的内容，或者從網絡上讀取到内容時，保持的對象為str類型；如果想把一個str轉換成特定編碼類型，需要把str轉為Unicode,然後從unicode轉為特定的編碼類型如：utf-8、gb2312等。

拓展内容

utf-8編碼

python設定utf8編碼_怎麼在Python裡使用UTF-8編碼

UTF-8（8-bit Unicode Transformation Format）是一種針對Unicode的可變長度字元編碼，也是一種字首碼。它可以用來表示Unicode标準中的任何字元，且其編碼中的第一個位元組仍與ASCII相容，這使得原來處理ASCII字元的軟體無須或隻須做少部分修改，即可繼續使用。是以，它逐漸成為電子郵件、網頁及其他存儲或發送文字的應用中，優先采用的編碼。

UTF-8使用一至六個位元組為每個字元編碼（盡管如此，2003年11月UTF-8被RFC 3629重新規範，隻能使用原來Unicode定義的區域，U+0000到U+10FFFF，也就是說最多四個位元組）：

1、128個US-ASCII字元隻需一個位元組編碼（Unicode範圍由U+0000至U+007F）。

2、帶有附加符号的拉丁文、希臘文、西裡爾字母、亞美尼亞語、希伯來文、阿拉伯文、叙利亞文及它拿字母則需要兩個位元組編碼（Unicode範圍由U+0080至U+07FF）。

3、其他基本多文種平面（BMP）中的字元（這包含了大部分常用字，如大部分的漢字）使用三個位元組編碼（Unicode範圍由U+0800至U+FFFF）。

4、其他極少使用的Unicode 輔助平面的字元使用四至六位元組編碼（Unicode範圍由U+10000至U+1FFFFF使用四位元組，Unicode範圍由U+200000至U+3FFFFFF使用五位元組，Unicode範圍由U+4000000至U+7FFFFFFF使用六位元組）。

對上述提及的第四種字元而言，UTF-8使用四至六個位元組來編碼似乎太耗費資源了。但UTF-8對所有常用的字元都可以用三個位元組表示，而且它的另一種選擇，UTF-16編碼，對前述的第四種字元同樣需要四個位元組來編碼，是以要決定UTF-8或UTF-16哪種編碼比較有效率，還要視所使用的字元的分布範圍而定。不過，如果使用一些傳統的壓縮系統，比如DEFLATE，則這些不同編碼系統間的的差異就變得微不足道了。若顧及傳統壓縮算法在壓縮較短文字上的效果不大，可以考慮使用Unicode标準壓縮格式（SCSU）。

網際網路工程工作小組（IETF）要求所有網際網路協定都必須支援UTF-8編碼。網際網路郵件聯盟（IMC）建議所有電子郵件軟體都支援UTF-8編碼。

python設定utf8編碼_怎麼在Python裡使用UTF-8編碼

繼續閱讀

python設定utf8編碼_設定utf-8為預設編碼

python設定utf8編碼_python解決js檔案utf-8編碼亂碼問題(推薦)

python設定utf8編碼,python可以編碼為utf-8，但無法解碼