IBM Model1

IBM Model 是统计机器翻译中的经典翻译模型

IBM Model1仅考虑了词和词之间的互译概率

记录学习lecture-ibm-model1的过程

学习

外来句子， foreign sentence f = ( f 1 , . . . f l f ) f=(f_1,...f_{l_f}) f=(f1,...flf)，长度为 l f l_f lf
英文句子， english sentence e = ( e 1 , . . . , e l e ) e =(e_1,...,e_{l_e}) e=(e1,...,ele)，长度为 l e l_e le
a， alignment 外来句子中的词和英文句子中的词的对应关系，假设英文句子中的 e j e_j ej对应外来句子中的 f i f_i fi（相同意思），则对应关系为 a : j → i a:j\rightarrow i a:j→i
目标函数， P ( a ∣ e , f ) P(a|e,f) P(a∣e,f)，以给定的外来和英语为条件，找出其alignment
参数估计，EM算法

假设是需要将外来句子翻译成英文句子

目标函数

pdf中先给出了一个公式

p ( e , a ∣ f ) = ϵ ( l f + 1 ) l e ∏ j = 1 l e t ( e j ∣ f a ( j ) ) p(e,a|f)=\frac{\epsilon}{(l_f+1)^{l_e}}\prod_{j=1}^{l_e}t(e_j|f_{a(j)}) p(e,a∣f)=(lf+1)leϵj=1∏let(ej∣fa(j))

一开始看，懵了，怎么突然来这么一个公式，这公式什么意思

很多地方都是直接这样一个公式都不知道为什么，也不知道什么是什么，增加了小白我学习的难度，唉，泪啊

目标是要翻译成英文句子，那么每个英文单词有其对应的外文单词

a = ( a 1 , a 2 , . . . , a l e ) a = (a_1, a_2, ..., a_{l_e}) a=(a1,a2,...,ale) , a_1 表示第1个英文单词对应的外文句子中对应单词的位置，每个值的范围为 ( 0 , l f ) (0, l_f) (0,lf)

从0开始的原因是因为，万一有个英文词找不到对应的外文词，比如语气词之类的，可以在外文句前加个

NULL

使得外文句长为 l f + 1 l_f+1 lf+1

英文单词有 l e l_e le个，所以有 l e l_e le个对应关系 t ( e j ∣ f a ( j ) ) t(e_j|f_{a(j)}) t(ej∣fa(j))相当于给定 f a j f_{aj} faj翻译成 e j e_j ej的概率，可以看这篇

对于pdf中的图

NLP从入门到放弃_IBM Model1IBM Model1

p ( e , a ∣ f ) = 0.56 = 0.7 ∗ 0.8 = p ( t h e ∣ l a ) ∗ p ( h o u s e ∣ m a i s o n ) p(e,a|f)=0.56 = 0.7*0.8=p(the|la)*p(house|maison) p(e,a∣f)=0.56=0.7∗0.8=p(the∣la)∗p(house∣maison)

la翻译成the的可能性为0.7

masion翻译成house的可能性为0.8

那么第一种情况是这两者同时翻译

根据贝叶斯定理

p ( a ∣ e , f ) = p ( e , a ∣ f ) p ( e ∣ f ) p(a|e,f)=\frac{p(e,a|f)}{p(e|f)} p(a∣e,f)=p(e∣f)p(e,a∣f)

那么需要计算 p ( e ∣ f ) p(e|f) p(e∣f)

根据pdf

NLP从入门到放弃_IBM Model1IBM Model1

因为英文单词有 l e l_e le个，所以a的对应有 l e l_e le个

所以第二个等式中每一个 ∑ \sum ∑表示每个外文单词翻译到第i个英文单词的概率和，然后再乘起来

然后等式可以继续化下去

NLP从入门到放弃_IBM Model1IBM Model1

然后在看第二个等式到第三个等式

拿上面翻译的例子推了下，嗯，是正确的

NLP从入门到放弃_IBM Model1IBM Model1

可以按照写的式子

p ( e ∣ f ) = 0.035 + 0.56 + 0.005 + 0.08 = 0.68 p(e|f)=0.035+0.56+0.005+0.08=0.68 p(e∣f)=0.035+0.56+0.005+0.08=0.68

然后有了目标式子

NLP从入门到放弃_IBM Model1IBM Model1

则第一种对应关系

p ( a ∣ e , f ) = 0.56 0.68 = 0.824 p(a|e,f)=\frac{0.56}{0.68}=0.824 p(a∣e,f)=0.680.56=0.824

计算正确

到这里，目标函数的推导应该差不多了

参数估计

接着是这么一个公式，这公式又是啥？

NLP从入门到放弃_IBM Model1IBM Model1

查了一些资料

c ( e ∣ f ) c(e|f) c(e∣f)是训练数据中，外语单词f与英文单词e正确匹配的概率

c ( e ) c(e) c(e)表示不同的外文词f翻译成词e的概率和

δ ( e , e j ) \delta(e,e_j) δ(e,ej)表示 e j e_j ej在句子e中的期望次数

δ ( f , f j ) \delta(f,f_j) δ(f,fj)表示 f j f_j fj在句子e中的期望次数

δ ( e , e j ) δ ( f , f j ) \delta(e,e_j)\delta(f,f_j) δ(e,ej)δ(f,fj)表示词f到词e的个数（好吧，不懂）

举个例子

初始情况下，一个外语单词对所有英语单词的翻译的可能性是相同的

假设中文为外语f，需要翻译成英语e。免得把一些符号搞晕

NLP从入门到放弃_IBM Model1IBM Model1

然后按照公式推了下，拍的图片可能有点糊，但不影响

忘记写c(e)了。在语料1，a1的情况下， c(a)就相当于分母

c ( a ) = t ( a ∣ 一本 ) + t ( a ∣ 书 ) = 1 3 + 1 3 = 2 3 c(a) = t(a|一本)+t(a|书)=\frac1 3 + \frac 1 3=\frac 2 3 c(a)=t(a∣一本)+t(a∣书)=31+31=32

然后继续计算下去，虽然不知道这些公式是怎么来的，但概率矩阵也的确按照理想的变化在变化

代码

伪代码

NLP从入门到放弃_IBM Model1IBM Model1

python 代码

# 语料库
corpus = [[['一本','书'],['a','book']],[['一本', '杂志'],['a', 'magazine']]]

# 设置英文外文词汇表
english_vocab = []
foreign_vocab = []
for sp in corpus:
    for fw in sp[0]:
        foreign_vocab.append(fw)
    for ew in sp[1]:
        english_vocab.append(ew)
english_words = sorted(list(set(english_vocab)), key=lambda s:s.lower())
foreign_words = sorted(list(set(foreign_vocab)), key=lambda s:s.lower())
print('English words:\n', english_vocab)
print('Foreign words:\n', foreign_vocab)

# 给定e,f句子和t,计算p(e|f)
def probability_e_f(e, f, t, epsilon=1):
    l_e = len(e)
    l_f = len(f)
    p_e_f = 1
    for ew in e:
        t_ej_f = 0
        for fw in f:
            t_ej_f += t[fw][ew]
        p_e_f = t_ej_f * p_e_f
        
    p_e_f = p_e_f * epsilon / ((l_f+1)**l_e)
    return p_e_f

# 输入语料库计算perplexity
def perplexity(corpus, t, epsilon=1):
    log2pp = 0
    for sp in corpus:
        prob = probability_e_f(sp[1], sp[0], t)
        log2pp += math.log(prob, 2) 
        
    pp = 2.0 **(-log2pp)
    return pp


t = {} # 用来保存不同外文单词翻译成不同英文单词的概率
init_val = 1.0/len(english_words) # 初始情况下，一个外文单词翻译成不同英文单词的概率是相同的
for fw in foreign_words:
    for ew in english_words:
        if fw not in t:
            t[fw] = {}
        t[fw][ew] = init_val
        
print('\nInit t ')
for fw in t:
    print('Foreign word: ', fw)
    sorted_list = sorted(t[fw].items(), key=lambda x:x[1], reverse=True)
    for (ew, p) in sorted_list:
        print('prob to %s \tis %f'%(ew, p))
    print('')
    
num_epochs = 10
s_total = {}
perplexities = []
for epoch in range(num_epochs):
    print("--------epoch % s--------" % (epoch + 1))
    perplexities.append(perplexity(corpus, t))
    count = {}
    total = {}
    
    for fw in foreign_words:
        total[fw] = 0.0
        for ew in english_words:
            if fw not in count:
                count[fw] = {}
            count[fw][ew] = 0.0
          
    for sp in corpus:
        # s_total[a]相当于上面手工推演中的t(a|一本)+t(a|书)  
        # s_total也就相当于c(e)
        for ew in sp[1]:
            s_total[ew] = 0.0
            for fw in sp[0]:
                s_total[ew] += t[fw][ew] 
       
        # 此时计算出的count[一本][a]相当于c(a|一本)，在不同语料中继续相加相同对应的概率  
        # total[一本]相当于一本翻译成不同英文词的概率和
        # 还要考虑不同语料，主要用于t概率矩阵的归一化
        for ew in sp[1]:
            for fw in sp[0]:
                count[fw][ew] += t[fw][ew] / s_total[ew]
                total[fw] += t[fw][ew] / s_total[ew]
                
    # 概率的归一化，使得一个外文单词翻译成不同英文单词的概率和为1
    for fw in foreign_words:
        for ew in english_words:
            t[fw][ew] = count[fw][ew] / total[fw]

            
    for fw in t:
        print('foreign word: ', fw)
        sorted_list = sorted(t[fw].items(), key=lambda x:x[1], reverse=True)
        for (ew, p) in sorted_list:
            print('prob to %s \tis %f'%(ew, p))
        print('')
        
plt.plot(perplexities) # 需要matplotlib库

NLP从入门到放弃_IBM Model1IBM Model1

嗯~ ，貌似这样就完成了model1

按照代码我又推了一遍，很好的符合了上面手推的过程

至于那些个公式是怎么来的，不知道

听从pdf的指示（我是小白）

至于如何衡量模型，那么就是困惑度 perplexity

pdf中给出了公式，并且写在了代码中

l o g 2 P P = − ∑ s l o g 2 p ( e s ∣ f s ) log_2PP=-\sum_slog_2p(e_s|f_s) log2PP=−s∑log2p(es∣fs)

参考资料

lecture-ibm-model1
mt2
https://zhuanlan.zhihu.com/p/72160554
http://blog.sina.com.cn/s/blog_6335d3b00100w4ch.html
https://zhuanlan.zhihu.com/p/72640549
应该还有一些，忘记保存了

NLP从入门到放弃_IBM Model1IBM Model1

IBM Model1

学习

代码

参考资料

继续阅读

seq2seq模型 + Attention机制

传统的seq2seq模型与seq2seq with attention的模型原理细节解析

torch.nn.Embedding的使用torch.nn.Embedding

nn.Embedding()参数的理解nn.Embedding()

pytorch中nn.RNN()总结

高考志愿填报：人工智能专业怎么样？人工智能行业发展前景如何？

【Python学习笔记】- Day6

Windows版本的Google word2vec和Stanford GloVe工具

seq2sqe与attenton实现聊天机器人

奋战聊天机器人（四）自然语言处理中的文本分类nltk中的贝叶斯分类器

从词向量衡量标准到全局向量的词嵌入模型GloVe再到一词多义的解决方式衡量标准Evaluation引子全局向量的词嵌入应用对一词多义的思考Reference

GloVe与word2vec的区别，及GloVe的缺陷

统计学习大作业-BERT模型1 文本处理-BERT模型2 参考资料：

anaconda中科大镜像

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合