使用word2vec模型亂碼不可用的解決方法

2023-05-07 14:54:57

今天在利用word2vec訓練模型的時候發現模型不可用。仔細排查了一下，發現是讀寫檔案編碼不統一的問題。

try (BufferedReader br = new BufferedReader(new InputStreamReader(
        new FileInputStream(file),"UTF-8"))) {
      String temp = null;
      while ((temp = br.readLine()) != null) {
        String[] split = temp.split(" ");
        trainWordsCount += split.length;
        for (String string : split) {
          mc.add(string);
//          System.out.println("詞語：" + string);
        }
      }
    }

後來在算法訓練工具類learn裡面修改了讀取檔案時的編碼（如上）。順利進行後續操作。

使用word2vec模型亂碼不可用的解決方法

word2vec 亂碼模型

上一篇: 400電話雲呼叫中心實作挂機推送功能需要滿足多種技術要求。其中一種常見的實作方法是通過在呼叫中心系統中設定一個虛拟伺服器

下一篇: linux grep指令，強大的文本搜尋

使用word2vec模型亂碼不可用的解決方法

繼續閱讀

解決springMVC4下使用@ResponseBody的中文亂碼問題

SpringMvc @ResponseBody字元串中文亂碼原因及解決方案

Spring mysql 資料庫亂碼解決方式

shell腳本打封包件亂碼解決方法

HTMl頁面中文亂碼，String字元串中文亂碼，SQl資料庫亂碼前言

關于在web頁面亂碼

Windows版本的Google word2vec和Stanford GloVe工具

NLP︱進階詞向量表達（一）——GloVe（理論、相關測評結果、R&python實作、相關應用）一、理論簡述二、測評三、Glove實作&R&python四、相關應用

GloVe與word2vec的差別，及GloVe的缺陷

統計學習大作業-BERT模型1 文本處理-BERT模型2 參考資料：

更别緻的詞向量模型(一)：simpler glove

Eclipse 編碼設定 UTF-8Eclipse的編碼設定成UTF-8格式

04-SpringMVC擷取參數處理參數以及頁面跳轉問題

深度學習中的一些基本概念

Ubuntu20.04安裝deepin-wine微信、QQUbuntu20.04安裝deepin-wine微信、QQ

java操作access資料庫亂碼問題