天天看點

Emerging Cross-lingual Structure in Pretrained Language Models

  • 探究是什麼讓跨語言預訓練模型有跨語言的能力 Dissecting mBERT/XLM models
    • 領域相似性 domain similarity
    • 錨點 shared vocabulary (or anchor points)

      錨點是在兩個語言訓練語料中共同出現的相同字元串(identical strings),作為跨語言共享編碼器在不同語言中的紐帶。

      用code-switch的方法做實驗,增加錨點

      但是最近的研究發現,錨點在訓練跨語言表示中起到非常小的作用

    • 共享參數 shared parameters

      甚至softmax層的參數對模型都有影響,但是和錨點參數(embedding)一樣影響不大

    • 語言相似性 language similarity

      改變上述因素對不相似的語言影響更大

Emerging Cross-lingual Structure in Pretrained Language Models
  • 訓練兩個單語的bert模型去學習跨語言表達的相似性 Similarity of BERT Models
    • Aligning Monolingual BERTs

      測量相似性的方法Procrustes

Emerging Cross-lingual Structure in Pretrained Language Models
  • 單語詞對齊 Word-level alignment

    把每個子詞當作獨立的輸入,把所有embedding相加然後平均,每一層得到一個embedding。用muse詞表進行監督學習。最後align結果比fasttext好。而且高層的representations比底層好。

  • 雙語詞對齊 Contextual word-level alignment

    we can align contextual representations of monolingual BERT models with a simple

    linear mapping and use this approach for crosslingual transfer.

    中間層比高層representation alignment更好

  • Sentence-level alignment

    pooling subword representation of sentences at each layer of monolingual BERT.

  • 結論

    bert在詞級别和句子級别都可以通過簡單的orthogonal mapping來align。

    與word embedding相似,bert模型在不同語言是相似的,是以為什麼僅通過共享權重就足夠。

  • Neural network similarity(沒怎麼看)
  • CKA entered kernel alignment; CCA canonical correlation analysis
    • 結論

    當語言相近時,用相同的模型增加representation的相似性

    相反,語言不相近時,相同模型不能增加representation相似性

繼續閱讀