- 探究是什麼讓跨語言預訓練模型有跨語言的能力 Dissecting mBERT/XLM models
- 領域相似性 domain similarity
-
錨點 shared vocabulary (or anchor points)
錨點是在兩個語言訓練語料中共同出現的相同字元串(identical strings),作為跨語言共享編碼器在不同語言中的紐帶。
用code-switch的方法做實驗,增加錨點
但是最近的研究發現,錨點在訓練跨語言表示中起到非常小的作用
-
共享參數 shared parameters
甚至softmax層的參數對模型都有影響,但是和錨點參數(embedding)一樣影響不大
-
語言相似性 language similarity
改變上述因素對不相似的語言影響更大
- 訓練兩個單語的bert模型去學習跨語言表達的相似性 Similarity of BERT Models
-
Aligning Monolingual BERTs
測量相似性的方法Procrustes
-
-
單語詞對齊 Word-level alignment
把每個子詞當作獨立的輸入,把所有embedding相加然後平均,每一層得到一個embedding。用muse詞表進行監督學習。最後align結果比fasttext好。而且高層的representations比底層好。
-
雙語詞對齊 Contextual word-level alignment
we can align contextual representations of monolingual BERT models with a simple
linear mapping and use this approach for crosslingual transfer.
中間層比高層representation alignment更好
-
Sentence-level alignment
pooling subword representation of sentences at each layer of monolingual BERT.
-
結論
bert在詞級别和句子級别都可以通過簡單的orthogonal mapping來align。
與word embedding相似,bert模型在不同語言是相似的,是以為什麼僅通過共享權重就足夠。
- Neural network similarity(沒怎麼看)
- CKA entered kernel alignment; CCA canonical correlation analysis
- 結論
當語言相近時,用相同的模型增加representation的相似性
相反,語言不相近時,相同模型不能增加representation相似性