分类交叉熵Cross-Entropy

一、简介

　在二分类问题中，你可以根据神经网络节点的输出，通过一个激活函数如Sigmoid，将其转换为属于某一类的概率，为了给出具体的分类结果，你可以取0.5作为阈值，凡是大于0.5的样本被认为是正类，小于0.5则认为是负类

　然而这样的做法并不容易推广到多分类问题。多分类问题神经网络最常用的方法是根据类别个数n，设置n个输出节点，这样每个样本神经网络都会给出一个n维数组作为输出结果，然后我们运用激活函数如softmax，将输出转换为一种概率分布，其中的每一个概率代表了该样本属于某类的概率。

　比如一个手写数字识别这种简单的10分类问题，对于数字1的识别，神经网络模型的输出结果应该越接近[0,1,0,0,0,0,0,0,0,0]

越好，其中[0,1,0,0,0,0,0,0,0,0]

是最理想的结果了

　但是如何衡量一个神经网络输出向量和理想的向量的接近程度呢？交叉熵（cross entropy）就是这个评价方法之一，他刻画了两个概率分布之间的距离，是多分类问题中常用的一种损失函数

二、交叉熵

　给定两个概率分布：p（理想结果即正确标签向量）和q（神经网络输出结果即经过softmax转换后的结果向量），则通过q来表示p的交叉熵为：

H(p,q)=−∑xp(x)logq(x)

　注意：既然p和q都是一种概率分布，那么对于任意的x，应该属于[0,1]

并且所有概率和为1

∀xp(X=x)ϵ[0,1]

且∑xp(X=x)=1

　交叉熵刻画的是通过概率分布q来表达概率分布p的困难程度，其中p是正确答案，q是预测值，也就是交叉熵值越小，两个概率分布越接近

三、三分类实例讲解交叉熵

　其中某个样本的正确答案即p是[1,0,0]

，某模型经过Softmax激活后的答案即预测值q是[0.5,0.4,0.1]

，那么这个预测值和正确答案之间的交叉熵为：

H(p=[1,0,0],q=[0.5,0.4,0.1])=−(1∗log0.5+0∗log0.4+0∗log0.1)≈0.3

　如果另外一个模型的预测值q是[0.8,0.1,0.1]

，那么这个预测值和正确答案之间的交叉熵为：

H(p=[1,0,0],q=[0.8,0.1,0.1])=−(1∗log0.8+0∗log0.1+0∗log0.1)≈0.1

　从直观上可以很容易的知道第二个预测答案要优于第一个，通过交叉熵计算得到的结果也是一致的（第二个交叉熵值更小）

　而TF中很容易做到交叉熵的计算：

import

tensorflow as tf

cross_entropy

tf.reduce_mean( y_

tf.log(tf.clip_by_value(y,

1e

1.0

)) )

　上述代码包含了四种不同的TF运算，解释如下：

　1）tf.clip_by_value()：将一个张量中的数值限制在一个范围内，如限制在[0.1,1.0]

范围内，可以避免一些运算错误，如预测结果q中元素可能为0，这样的话log0是无效的

tf.constant([[

1.0

2.0

3.0

], [

4.0

5.0

6.0

] ])

with tf.Session() as sess:

sess.run(tf.global_variables_initializer())

print

(tf.clip_by_value(v,

2.5

4.5

).

eval

())

分类交叉熵Cross-Entropy

　2）tf.log()：对张量中的所有元素依次求对数

tf.constant([[

1.0

2.0

3.0

], [

4.0

5.0

6.0

] ])

with tf.Session() as sess:

sess.run(tf.global_variables_initializer())

print

(tf.log(v).

eval

())

分类交叉熵Cross-Entropy

　3）乘法运算：*操作，是元素之间直接相乘，而矩阵相乘用tf.matmul函数来完成

v1

tf.constant([ [

1.0

2.0

], [

3.0

4.0

]])

v2

tf.constant([ [

5.0

6.0

], [

7.0

8.0

]])

with tf.Session() as sess:

sess.run(tf.global_variables_initializer())

print

( (v1

v2).

eval

() )

print

( tf.matmul(v1, v2).

eval

() )

分类交叉熵Cross-Entropy

　4）求和：上面三个运算完成了每个样例中每个类别的交叉熵p(x)logq(x)

的计算，还未进行求和运算

　　即：三步计算后得到的结果是个n * m的二维矩阵，其中n为一个batch中样本数量，m为分类的类别数量，比如十分类问题，m为10.根据交叉熵公式

　　最后是要将每行中m个结果相加得到每个样本的交叉熵，然后再对这n行取平均得到一个batch的平均交叉熵，即-tf.reduce_mean()函数来实现

　总结：因为交叉熵一般会与softmax一起使用，所以TF对这两个功能进行了封装，并提供了tf.nn.softmax_cross_entropy_with_logits函数

cross_entropy

tf.nn.softmax_cross_entropy_with_logits(y, y_)

#y:原始神经网络的输出结果

#y_:标准答案

#这样一个函数即可实现使用了Softmax后的交叉熵

　关于Softmax计算过程，可以参考：实战Google深度学习框架-C4-深层神经网络

分类交叉熵Cross-Entropy

继续阅读

2020年经济师考试，难吗？

初级银行从业资格证有什么用？

MBA提前面试纯干货分享

MBA值得学么

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

通俗理解查准率(precision)和查全率(recall)

吴恩达logistic回归实现

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

深度学习模型分析人类复杂疾病的准确性

人工智能如何有效地运用于自然语言处理

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络