天天看點

Hadoop Linux下txt檔案亂碼

第一種情況

  一問題産生

   在linux作業系統下,我們有時打開在windows下的txt檔案,發現在windows下能正常顯示的txt檔案出現了中文亂碼。

 二分析問題

    出現這種情況的原因為兩種作業系統的中文壓縮方式不同,在windows環境中中文壓縮一般為gbk,而在linux環境中為utf8,這就導緻了在windows下能正常顯示而在linux環境下打開呈現了亂碼狀态。

三 解決方案:

      在linux用iconv指令,如亂碼檔案名為1-5.txt, 在終端輸入如下指令:

       $  iconv -f gbk -t utf8 1-5.txt > 1-5.txt.utf8 

       發現重新生成了一個1-5.txt.utf8檔案,打開之後就能正常顯示中文了。

 四 檢視結果:

 $cat  1-5.txt.utf8

 放入叢集中

$hadoop  fs -put     1-5.txt.utf8   /market

第二種情況

當 第一種方式無法解決時

首先excel表格轉化為txt格式

用txt編譯器打開該txt檔案 另存為utf-8格式即可

MR

繼續閱讀