前言:
利用贝叶斯公式,根据对方的中文姓名猜测对方的性别。废话不多说,让我们愉快地开始吧~

开发工具
Python版本:3.6.4
相关模块:
pyqt5模块;
以及一些python自带的模块。
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
原理简介
先来简单介绍一下贝叶斯公式吧,然后再来说代码实现。
我们都知道,事件A在事件B已经发生的条件下发生的概率为:
如果A和B是两个相互独立的事件,则有:
显然,我们可以利用上面的公式来判断两个事件是否独立。再来引入一下全概率公式(上标c代表补集):
上面的公式画个维恩图的话其实很好理解(图源网络):
综合上面的结论,我们可以很容易地推出贝叶斯公式来:
实际应用到我们的姓名猜测性别中的话,其实就是求:
显然,我们有:
这里我们已知每个汉字在男性名字和女性名字中出现的频率:
我们可以假设他们是独立的,例如:
def genderprob(name, probs, type_='male'):
assert type_ in ['male', 'female']
if type_ == 'male':
p = self.male_total / self.total
for c in name:
p *= probs.get(c, (0, 0))[0]
else:
p = self.female_total / self.total
for c in name:
p *= probs.get(c, (0, 0))[1]
return p
还是以刘亦菲为例:
P(女性) = 女性姓名出现的次数 / 总出现次数
P(刘|女) = 刘在女性姓名中出现的次数 / 女性姓名出现的总次数
分母在做除法的时候可以约去,所以不用算,即:
male_prob = genderprob(name, self.name_probs, 'male')
female_prob = genderprob(name, self.name_probs, 'female')
result = {'male': male_prob / (male_prob + female_prob), 'female': female_prob / (male_prob + female_prob)}
然后利用PyQt5给这个姓名预测性别的小模型做个简单的可视化界面:
文章到这里就结束了,感谢你的观看,关注我每天分享Python小工具系列,下篇文章分享自动生成艺术签名的小工具