前言:
利用貝葉斯公式,根據對方的中文姓名猜測對方的性别。廢話不多說,讓我們愉快地開始吧~

開發工具
Python版本:3.6.4
相關子產品:
pyqt5子產品;
以及一些python自帶的子產品。
環境搭建
安裝Python并添加到環境變量,pip安裝需要的相關子產品即可。
原理簡介
先來簡單介紹一下貝葉斯公式吧,然後再來說代碼實作。
我們都知道,事件A在事件B已經發生的條件下發生的機率為:
如果A和B是兩個互相獨立的事件,則有:
顯然,我們可以利用上面的公式來判斷兩個事件是否獨立。再來引入一下全機率公式(上标c代表補集):
上面的公式畫個維恩圖的話其實很好了解(圖源網絡):
綜合上面的結論,我們可以很容易地推出貝葉斯公式來:
實際應用到我們的姓名猜測性别中的話,其實就是求:
顯然,我們有:
這裡我們已知每個漢字在男性名字和女性名字中出現的頻率:
我們可以假設他們是獨立的,例如:
def genderprob(name, probs, type_='male'):
assert type_ in ['male', 'female']
if type_ == 'male':
p = self.male_total / self.total
for c in name:
p *= probs.get(c, (0, 0))[0]
else:
p = self.female_total / self.total
for c in name:
p *= probs.get(c, (0, 0))[1]
return p
還是以劉亦菲為例:
P(女性) = 女性姓名出現的次數 / 總出現次數
P(劉|女) = 劉在女性姓名中出現的次數 / 女性姓名出現的總次數
分母在做除法的時候可以約去,是以不用算,即:
male_prob = genderprob(name, self.name_probs, 'male')
female_prob = genderprob(name, self.name_probs, 'female')
result = {'male': male_prob / (male_prob + female_prob), 'female': female_prob / (male_prob + female_prob)}
然後利用PyQt5給這個姓名預測性别的小模型做個簡單的可視化界面:
文章到這裡就結束了,感謝你的觀看,關注我每天分享Python小工具系列,下篇文章分享自動生成藝術簽名的小工具