1.安裝gensim
pip install gensim
會報一個問題,可以直接忽略。
2.下載下傳wiki語料
wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
3.用 WikiExtractor抽取正文文本
nohup python WikiExtractor.py -cb 1000M -o extracted zhwiki-latest-pages-articles.xml.bz2
nohup.out

運作時長:15點08分到16點,約1h
看一下運作結果:
4.繁簡體轉換
這個opencc安裝教程很強大!~
安裝Opencc,方法如下:
$git clone https://github.com/BYVoid/OpenCC.git
$cd OpenCC
$make
$make install
編譯報錯,更新gcc:【具體參考 gcc版本更新】
wget http: //ftp.gnu.org/gnu/gcc/gcc-4.8.0/gcc-4.8.0.tar.bz2<pre name="code" class="python">tar -jxvf gcc-4.8.0.tar.bz2<pre name="code" class="python">cd gcc-4.8.0
./contrib/download_prerequisites
cd ..
mkdir gcc-build-4.8.0
cd gcc-build-4.8.0
../gcc-4.8.0/configure --enable-checking=release --enable-languages=c,c++ --disable-multilib
make -j4
sudo make install
最後用新版替換舊版
update-alternatives --install /usr/bin/gcc gcc /usr/local/bin/i686-pc-linux-gnu-gcc 40
事實是,失敗了(笑着活下去...)
發現了這個更新教程更新gcc!之後覺得剛才的自己蠢蠢的,更新成功!
重新編譯安裝OpenCC!~
還是報錯(笑着活下去+1)...
libstdc++的問題,于是在/usr/local/lib64中找到了高版本的libstdc++.so.6.0.18檔案,将它複制并連結,代碼如下:
sudo cp /usr/local/lib64/libstdc++.so.6.0.20 /usr/lib64/
$ sudo ln -s -f /usr/lib64/libstdc++.so.6.0.20 /usr/lib64/libstdc++.so.6
結果還是報錯:
opencc: error while loading shared libraries: libopencc.so.2: cannot open shared object file: No such file or directory
于是去find這個檔案,并建立連結檔案:
sudo find / -name libopencc.so.2
sudo ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2
這下終于ok了,感動天感動地2333
【總結:這次裝軟體配環境心态比較好,比較細心耐心,恩!~】
運作example:
恩,下面就開始處理wiki語料的繁簡體轉換了:
參考opencc官方文檔