第一種情況
一問題産生
在linux作業系統下,我們有時打開在windows下的txt檔案,發現在windows下能正常顯示的txt檔案出現了中文亂碼。
二分析問題
出現這種情況的原因為兩種作業系統的中文壓縮方式不同,在windows環境中中文壓縮一般為gbk,而在linux環境中為utf8,這就導緻了在windows下能正常顯示而在linux環境下打開呈現了亂碼狀态。
三 解決方案:
在linux用iconv指令,如亂碼檔案名為1-5.txt, 在終端輸入如下指令:
$ iconv -f gbk -t utf8 1-5.txt > 1-5.txt.utf8
發現重新生成了一個1-5.txt.utf8檔案,打開之後就能正常顯示中文了。
四 檢視結果:
$cat 1-5.txt.utf8
放入叢集中
$hadoop fs -put 1-5.txt.utf8 /market
第二種情況
當 第一種方式無法解決時
首先excel表格轉化為txt格式
用txt編譯器打開該txt檔案 另存為utf-8格式即可