耿贝尔分布是样本最值的分布
摘选自一些网页的资料
度娘百科:
耿贝尔分布是根据极值定理导出,由费雪(R·A·Fisher ) 和蒂培特(L·H·C·Tippe -t t) 于1928 年发现各个样本的最大值分布将趋于三种极限形式种的一种,具体由型式参数K确定,当K=0的时候也就是耿贝尔分布,水文方面主要用第I 型渐近极值分布,是耿贝尔在1941年将此分布应用于洪水频率分析工作,所以也称Fisher一Tippe 优工型分布。
耿贝尔分布主要是适用于对海洋、水文、气象,来计算不同重现期的极端高(低)潮位。 [1] 海洋的年最高水位可以认为是由天文潮和许多随机因子的影响形成的。因此,它可以用耿贝尔极值I型分布函数进行拟合。
Wikipedia:
在概率论和统计学中,Gumbel分布(广义极值分布类型-I)用于模拟各种分布的多个样本的最大值(或最小值)的分布。如果存在过去十年的最大值列表,则该分布可用于表示特定年份中河流的最大水平的分布。它可用于预测极端地震,洪水或其他自然灾害发生的可能性。Gumbel分布代表最大值分布的潜在适用性与极值理论有关,表示如果基础样本数据的分布是正常或指数类型,它可能是有用的。本文的其余部分引用Gumbel分布来模拟最大值的分布。要对最小值建模,请使用原始值的负值。
Gumbel分布是广义极值分布(也称为Fisher-Tippett分布)的特例。它也被称为log- Weibull分布和双指数分布(或者有时用于表示拉普拉斯分布的术语)。它与Gompertz分布有关:当其密度首先反映原点然后限制为正半线时,获得Gompertz函数。
在多项logit模型的潜在变量公式中- 在离散选择理论中常见- 潜在变量的误差遵循Gumbel分布。这很有用,因为两个Gumbel分布的随机变量的差异具有逻辑分布。
Gumbel分布以Emil Julius Gumbel(1891-1966)命名,基于他描述分布的原始论文。[1] [2]
内容
- 1属性
- 2标准Gumbel分布
- 3分位数函数和生成Gumbel变量
- 4相关发行版
- 5概率论文
- 6申请
- 7另见
- 8参考文献
- 9外部链接
属性
Gumbel分布的累积分布函数是
{\ displaystyle F(x; \ mu,\ beta)= e ^ { - e ^ { - (x-\ mu)/ \ beta}}。\,}
模式为μ,而中位数为 {\ displaystyle \ mu - \ beta \ ln \ left(\ ln 2 \ right),}
平均值由。给出
{\ displaystyle \ operatorname {E}(X)= \ mu + \ gamma \ beta,}
哪里 {\ displaystyle \ gamma \ about 0.5772}
是Euler-Mascheroni常数。
标准差 {\ displaystyle \ sigma}
是 {\ displaystyle \ beta \ pi / {\ sqrt {6}}}
于是 {\ displaystyle \ beta = \ sigma {\ sqrt {6}} / \ pi \约0.78 \ sigma。}
[3]
在模式,在哪里 {\ displaystyle x = \ mu}
, 的价值 {\ displaystyle F(x; \ mu,\ beta)}
变 {\ displaystyle e ^ { - 1} \约0.37}
无论价值多少 {\ displaystyle \ beta。}
标准Gumbel分布
标准的Gumbel分布是这样的 {\ displaystyle \ mu = 0}
和 {\ displaystyle \ beta = 1}
具有累积分布函数
{\ displaystyle F(x)= e ^ { - e ^ {( - x)}} \,}
和概率密度函数
{\ displaystyle f(x)= e ^ { - (x + e ^ { - x})}。}
在这种情况下,模式为0,中位数为 {\ displaystyle - \ ln(\ ln(2))\ about 0.3665}
,意思是 {\ displaystyle \ gamma}
,标准差是 {\ displaystyle \ pi / {\ sqrt {6}} \约1.2825。}
对于n> 1,累积量由下式给出
{\ displaystyle \ kappa _ {n} =(n-1)!\ zeta(n)。}
分位数函数和生成Gumbel变量
由于分位数函数(逆累积分布函数),{\ displaystyle Q(p)}
Gumbel分布给出了
{\ displaystyle Q(p)= \ mu - \ beta \ ln( - \ ln(p)),}
变量 {\ displaystyle Q(U)}
有一个带参数的Gumbel分布 {\ displaystyle \ mu}
和 {\ displaystyle \ beta}
当随机变量 {\ displaystyle U}
是从区间上的均匀分布中得出的{\ displaystyle(0,1)}
。
相关发行[
- 如果 {\ displaystyle X} 具有Gumbel分布,然后Y = -X的条件分布,假设Y是正的,或者等效地假设X是负的,则具有Gompertz分布。的CDF ģ的ý涉及˚F,的CDF X,由式{\ displaystyle G(y)= P(Y \ leq y)= P(X \ geq -y | X \ leq 0)=(F(0)-F(-y))/ F(0)} 对于y > 0。因此,密度与之相关{\ displaystyle g(y)= f(-y)/ F(0)} :Gompertz密度与反射的Gumbel密度成比例,限制为正半线。[4]
- 如果X是具有均值1的指数分布变量,则-log(X)具有标准Gumbel-Distribution。
- 如果 {\ displaystyle X \ sim \ mathrm {Gumbel}(\ alpha _ {X},\ beta)} 和 {\ displaystyle Y \ sim \ mathrm {Gumbel}(\ alpha _ {Y},\ beta)} 然后 {\ displaystyle XY \ sim \ mathrm {Logistic}(\ alpha _ {X} - \ alpha _ {Y},\ beta)\,} (见后勤分配)。
- 如果 {\ displaystyle X} 和 {\ displaystyle Y \ sim \ mathrm {Gumbel}(\ alpha,\ beta)} 然后 {\ displaystyle X + Y \ nsim \ mathrm {Logistic}(2 \ alpha,\ beta)\,} 。注意{\ displaystyle E(X + Y)= 2 \ alpha +2 \ beta \ gamma \ neq 2 \ alpha = E \ left(\ mathrm {Logistic}(2 \ alpha,\ beta)\ right)} 。
与广义多变量log-gamma分布相关的理论提供了Gumbel分布的多变量版本。
概率论文
一张包含Gumbel分布的方格纸。
在预软件时代,概率论文用于描绘Gumbel分布(见插图)。本文基于累积分布函数的线性化{\ displaystyle F}
:
{\ displaystyle - \ ln [ - \ ln(F)] =(x- \ mu)/ \ beta}
在该论文中,水平轴以双对数刻度构造。垂直轴是线性的。通过绘图{\ displaystyle F}
在纸的横轴和 {\ displaystyle x}
- 在垂直轴上可变,分布由具有斜率1的直线表示{\ displaystyle / \ beta}
。当像CumFreq这样的分布拟合软件可用时,绘制分布的任务变得更容易,如下面的部分所示。
分布拟合有信心带累积Gumbel分布最大单日降雨量十月的。[5]
Gumbel已经表明,随着样本量的增加,指数分布后随机变量样本中的最大值(或最后阶次统计量)接近Gumbel分布。[6]
因此,在水文学中,Gumbel分布用于分析诸如每日降雨量和河流流量的月度和年度最大值等变量,[3]并描述干旱。[7]
冈贝尔还表明,该估计器- [R / (Ñ 1)一个事件的概率- ,其中[R是在数据序列中观察到的值的秩数,Ñ是观测的总数-是一个无偏估计的分布模式周围的累积概率。因此,该估计器通常用作绘图位置。
在数论中,Gumbel分布近似于整数[8]的随机分区中的项数,以及最大素数间隙和主要星座之间的最大间隙的趋势调整大小。[9]
在机器学习中,Gumbel分布有时用于从分类分布中生成样本。[10]