天天看點

自動識别文字的編碼以及讀取所有文本——VB2005

  在VB2005中,讀取文本檔案中的文本可以采用的方法是System.IO.File.ReadAllText,這個函數有兩個參數,一個是檔案的檔案名(包含路徑);一個是文本的編碼,如果省略,采用系統預設的編碼。可是,一般的文本編碼有ANSI、Unicode、UTF8等。如果編碼的格式選擇不對,則讀出來是一段亂碼。

  筆者依照網上的資料,編寫一個函數,能自動根據判别文本的編碼格式,首先是将文本檔案的資料讀到位元組數組中,再判别文本的編碼格式,最後将位元組數組轉化為文本。

  依據位元組流,前三個位元組辨別着這個文本的編碼方式。那麼依據這三個位元組的值,用不同的編碼來解析這個位元組流。這是下面這段代碼的核心内容。

  代碼格式修正于2012年1月5日

Public Shared Function ReturnEncoding(ByVal tB() As Byte) As System.Text.Encoding

  Dim tB1 As Byte, tB2 As Byte, tB3 As Byte, tB4 As Byte

  If tB.Length < 2 Then Return Nothing

  tB1 = tB(0)

  tB2 = tB(1)

  If tB.Length >= 3 Then tB3 = tB(2)

  If tB.Length >= 4 Then tB4 = tB(3)

  If (tB1 = &HFE AndAlso tB2 = &HFF) Then Return System.Text.Encoding.BigEndianUnicode

  If (tB1 = &HFF AndAlso tB2 = &HFE AndAlso tB3 <> &HFF) Then Return System.Text.Encoding.Unicode

  If (tB1 = &HEF AndAlso tB2 = &HBB AndAlso tB3 = &HBF) Then Return System.Text.Encoding.UTF8

  Return System.Text.Encoding.Default

End Function