在VB2005中,讀取文本檔案中的文本可以采用的方法是System.IO.File.ReadAllText,這個函數有兩個參數,一個是檔案的檔案名(包含路徑);一個是文本的編碼,如果省略,采用系統預設的編碼。可是,一般的文本編碼有ANSI、Unicode、UTF8等。如果編碼的格式選擇不對,則讀出來是一段亂碼。
筆者依照網上的資料,編寫一個函數,能自動根據判别文本的編碼格式,首先是将文本檔案的資料讀到位元組數組中,再判别文本的編碼格式,最後将位元組數組轉化為文本。
依據位元組流,前三個位元組辨別着這個文本的編碼方式。那麼依據這三個位元組的值,用不同的編碼來解析這個位元組流。這是下面這段代碼的核心内容。
代碼格式修正于2012年1月5日
Public Shared Function ReturnEncoding(ByVal tB() As Byte) As System.Text.Encoding
Dim tB1 As Byte, tB2 As Byte, tB3 As Byte, tB4 As Byte
If tB.Length < 2 Then Return Nothing
tB1 = tB(0)
tB2 = tB(1)
If tB.Length >= 3 Then tB3 = tB(2)
If tB.Length >= 4 Then tB4 = tB(3)
If (tB1 = &HFE AndAlso tB2 = &HFF) Then Return System.Text.Encoding.BigEndianUnicode
If (tB1 = &HFF AndAlso tB2 = &HFE AndAlso tB3 <> &HFF) Then Return System.Text.Encoding.Unicode
If (tB1 = &HEF AndAlso tB2 = &HBB AndAlso tB3 = &HBF) Then Return System.Text.Encoding.UTF8
Return System.Text.Encoding.Default
End Function