我们可以代入期望的数学表达形式。比如连续随机变量:
Var(X)=E[(X−μ)2]=∫+∞−∞(x−μ)2f(x)dx
方差概念背后的逻辑很简单。一个取值与期望值的“距离”用两者差的平方表示。该平方值表示取值与分布中心的偏差程度。平方的最小取值为0。当取值与期望值相同时,此时不离散,平方为0,即“距离”最小;当随机变量偏离期望值时,平方增大。由于取值是随机的,不同取值的概率不同,我们根据概率对该平方进行加权平均,也就获得整体的离散程度——方差。
方差的平方根称为标准差(standard deviation, 简写std)。我们常用σ表示标准差
σ=Var(X)−−−−−−√
标准差也表示分布的离散程度。
正态分布的方差
根据上面的定义,可以算出正态分布
E(X)=1σ2π−−√∫+∞−∞xe−(x−μ)2/2σ2dx
的方差为
Var(X)=σ2
正态分布的标准差正等于正态分布中的参数σ。这正是我们使用字母σ来表示标准差的原因!
方差和标准差的区别如下:
1、概念不同。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数;标准差是总体各单位标准值与其平均数离差平方的算术平均数的平方根。
2、样本不同。样本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大。
3、对于数据的表现不同。真正能反映稳定性的是标准差,因为它的单位和数据的单位是一样的,而方差的单位是数据单位的平方,所以方差有点夸大波动的情况。
4、方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量,用来度量随机变量和其数学期望(即均值)之间的偏离程度。标准差在概率统计中常做统计分布程度上的测量,反映组内个体之间的离散程度,平均数相同的两组数据,标准差未必相同。