天天看點

Python實用工具,PyQt5子產品,Python實作根據中文姓名猜測對方性别

前言:

利用貝葉斯公式,根據對方的中文姓名猜測對方的性别。廢話不多說,讓我們愉快地開始吧~

Python實用工具,PyQt5子產品,Python實作根據中文姓名猜測對方性别

開發工具

Python版本:3.6.4

相關子產品:

pyqt5子產品;

以及一些python自帶的子產品。

環境搭建

安裝Python并添加到環境變量,pip安裝需要的相關子產品即可。

原理簡介

先來簡單介紹一下貝葉斯公式吧,然後再來說代碼實作。

我們都知道,事件A在事件B已經發生的條件下發生的機率為:

Python實用工具,PyQt5子產品,Python實作根據中文姓名猜測對方性别

如果A和B是兩個互相獨立的事件,則有:

Python實用工具,PyQt5子產品,Python實作根據中文姓名猜測對方性别

顯然,我們可以利用上面的公式來判斷兩個事件是否獨立。再來引入一下全機率公式(上标c代表補集):

Python實用工具,PyQt5子產品,Python實作根據中文姓名猜測對方性别

上面的公式畫個維恩圖的話其實很好了解(圖源網絡):

Python實用工具,PyQt5子產品,Python實作根據中文姓名猜測對方性别

綜合上面的結論,我們可以很容易地推出貝葉斯公式來:

Python實用工具,PyQt5子產品,Python實作根據中文姓名猜測對方性别

實際應用到我們的姓名猜測性别中的話,其實就是求:

Python實用工具,PyQt5子產品,Python實作根據中文姓名猜測對方性别

顯然,我們有:

Python實用工具,PyQt5子產品,Python實作根據中文姓名猜測對方性别

這裡我們已知每個漢字在男性名字和女性名字中出現的頻率:

Python實用工具,PyQt5子產品,Python實作根據中文姓名猜測對方性别

我們可以假設他們是獨立的,例如:

Python實用工具,PyQt5子產品,Python實作根據中文姓名猜測對方性别
def genderprob(name, probs, type_='male'):
  assert type_ in ['male', 'female']
  if type_ == 'male':
    p = self.male_total / self.total
    for c in name:
      p *= probs.get(c, (0, 0))[0]
  else:
    p = self.female_total / self.total
    for c in name:
      p *= probs.get(c, (0, 0))[1]
  return p
           

還是以劉亦菲為例:

P(女性) = 女性姓名出現的次數 / 總出現次數
P(劉|女) = 劉在女性姓名中出現的次數 / 女性姓名出現的總次數
           

分母在做除法的時候可以約去,是以不用算,即:

male_prob = genderprob(name, self.name_probs, 'male')
female_prob = genderprob(name, self.name_probs, 'female')
result = {'male': male_prob / (male_prob + female_prob), 'female': female_prob / (male_prob + female_prob)}
           

然後利用PyQt5給這個姓名預測性别的小模型做個簡單的可視化界面:

Python實用工具,PyQt5子產品,Python實作根據中文姓名猜測對方性别

文章到這裡就結束了,感謝你的觀看,關注我每天分享Python小工具系列,下篇文章分享自動生成藝術簽名的小工具

繼續閱讀