Word2vec模型複現與PYTHONHASHSEED

2023-04-13 10:01:14

1 Word2vec模型複現問題

1.1 問題描述

我在對word2vec模型（基于

gensim.models.Word2Vec

）進行實驗的時候發現，在設定了random和numpy的種子後，結果依舊無法複現。

主要表現在生成的詞向量是随機的。是以我猜測問題出在是word2vec模型生成部分。

1.2 解決

Seed for the random number generator. Initial vectors for each word are seeded with a hash of the concatenation of word + str(seed) . Note that for a fully deterministically-reproducible run, you must also limit the model to a single worker thread ( workers=1 ), to eliminate ordering jitter from OS thread scheduling. (In Python 3, reproducibility between interpreter launches also requires use of the PYTHONHASHSEED environment variable to control hash randomization).[2]

在

gensim.models.Word2Vec

的初始化部分，對于可選參數

seed

有以上的描述。裡面提供了解決我問題的答案：

首先word2vec模型對詞向量的初始化是對“詞+str(seed)”進行hash運算。是以要複現模型需要保證seed和python環境變量中的hash種子（

PYTHONHASHSEED

）固定。另外提到，為了消除多線程的影響，還要将算法設為單線程（

workers=1

）。以上三點保證word2vec模型結果的可複現性。

2 PYTHONHASHSEED的設定問題

2.1 問題描述

word2vec模型複現的問題找到了，設定環境變量

應該可以複現了吧。

發現還是不行，在python代碼裡設定環境變量

PYTHONHASHSEED

不起作用。

2.2 解決

一些環境變量是在python解釋器開啟前處理，無法在程式中動态修改[3,4]。

是以隻能通過指令行進行設定。

# 正确的設定方式——by 指令行
PYTHONHASHSEED=0 python mycode.py

3 省流助手（總結）

固定 seed
固定 PYTHONHASHSEED
單線程

參考資料

[1] Ensure the gensim generate the same Word2Vec model for different runs on the same data - Stackoverflow

[2] gensim/models/word2vec: seed - Github

[3] Can-os-environpythonhashseed-be-set-dynamically-from-within-an-application - Stackoverflow

[4] Environment variables - Python Docs

Word2vec模型複現與PYTHONHASHSEED

1 Word2vec模型複現問題

1.1 問題描述

1.2 解決

2 PYTHONHASHSEED的設定問題

2.1 問題描述

2.2 解決

3 省流助手（總結）

參考資料

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入