天天看點

使用word2vec模型亂碼不可用的解決方法

今天在利用word2vec訓練模型的時候發現模型不可用。仔細排查了一下,發現是讀寫檔案編碼不統一的問題。

使用word2vec模型亂碼不可用的解決方法
try (BufferedReader br = new BufferedReader(new InputStreamReader(
        new FileInputStream(file),"UTF-8"))) {
      String temp = null;
      while ((temp = br.readLine()) != null) {
        String[] split = temp.split(" ");
        trainWordsCount += split.length;
        for (String string : split) {
          mc.add(string);
//          System.out.println("詞語:" + string);
        }
      }
    }
           

後來在算法訓練工具類learn裡面修改了讀取檔案時的編碼(如上)。順利進行後續操作。

使用word2vec模型亂碼不可用的解決方法

繼續閱讀