一、集中趋势
集中趋势是指一组数据所趋向的中心数值。对集中趋势的度量就是采用具体的统计方法和统计测度对这一中心数值的测量和计量,以一个综合数值来表述数据所趋向的这一中心数值的一般水平。
二、离散趋势
在统计学上描述观测值偏离中心位置的趋势,反映了所有观测值偏离中心的分布情况。
异众比率用于评价众数的代表性测度。异众比率越接近1,众数的代表性越弱。四分位差是指上四分位数与下四分位数的绝对离差。平均差是指全部变量值与均值离差的绝对值的均值。
平均差以均值为中心,通过每个变量值与均值的绝对距离反应数据离散程度的测度。方差是指全部变量值与其均值的离差平方的均值。标准差是方差的算术平方根。离散系数是指同一总体的标准差与均值的比较。标准化值是以变量值与其均值的差除以同一数据的标准化的比值。
集中趋势和离散程度是关于数据分布的基本测度,要进一步描述数据分布的形态是否偏倚,偏倚的方向和程度;分布是尖耸还是扁平,尖耸或扁平的程度,以及数据分布形态与正态分布的差异等,还需要对数据分布的偏态和峰度进行测量。
扩展资料
一、描述集中趋势的统计量
统计学中常用平均数来描述一组变量值的集中位置或平均水平。常用的统计量指标有算数均数、几何均数、中位数和百分位数。
1、算数均数:即为均数,用以反映一组呈对称分布的变量值在数量上的平均水平。
2、几何均数:常用以反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。
3、中位数:适用于偏态分布资料和一端或两端无确切的数值的资料。是第50百分位数
4、百分位数:为一界值,用以确定医学参考值范围。
二、描述离散趋势的统计量
离散趋势是反映资料的变异程度,常用指标有极差、四分位间距、方差与标准差、变异系数。
1、极差:为一组数据的最大值和最小值之差,但极差不能反映所有数据的变异大小,且极易受样本含量的影响。常用以描述偏态分布。
2、四分位数间距:它是由第3四分位数与第1四分位数相减得到,常和中位数一起描述偏态分布资料的分布。
3、方差与标准差:反映一组数据的平均离散水平,消除了样本含量的影响,常和均数一起用来描述一组数据中的离散和集中趋势。
4、变异系数:多用于观察指标单位不同时,可消除因单位不同而不能进行比较的困难。
参考资料来源:百度百科-集中趋势
参考资料来源:百度百科-离散趋势
集中趋势(central tendency)在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。
集中趋势测度就是寻找数据水平的代表值或中心值,低层数据的集中趋势测度值适用于高层次的测量数据,能够揭示总体中众多个观察值所围绕与集中的中心,反之,高层次数据的集中趋势测度值并不适用于低层次的测量数据。
位置平均数
位置平均数就是根据总体中处于特殊位置上的个别单位或部分单位的标志值来确定的代表值,它对于整个总体来说,具有非常直观的代表性,因此,常用来反映分布的集中趋势。常用的有众数、中位数。
众数——是总体中出现次数最多的变量值,在实际工作中有时有它的特殊用途。
中位数——将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据就是中位数。
以上内容参考 百度百科—集中趋势
常用描述变量集中趋势的统计指标包括:算术均数,几何均数,中位数,算术均数算术均数适用于对称分布特别是正态分布的资料,几何均数适用于可经对数转换为对称分布的资料;中位数适用于各种分步资料常用于偏峰资料。
一、集中趋势描述
1.算术平均数ArithmeticMean:所有数值的和除以数值的个数。用于描述一组数据在数量上的平均水平。
计算公式:
优缺点:算术平均数是能够充分运用已有信息的代表性数值,每个数值大小的改变都会引起其变化。也因此容易受极值的影响,并且会掩盖数据的差异性。
示例:最近更新了2018年度深圳在岗职工的月平均工资,达到了9309元。这就是一个算术平均值的实际应用。还是要保持进步,争当排头兵而非吊车尾呀。
2.几何平均数GeometricMean:对各数值的连乘积开项数次方根。一般用于当总成果为各个阶段(环节)的连乘积时,求各个阶段(环节)的一般成果。
计算公式:
优缺点:几何平均数受极端值的影响比均值小。但仅适用于具有等比或近似等比关系的数据。
示例:连续作业的车间求产品的平均次品率。一个产品的生产由三个环节组成。每个环节都会产生一定的次品。次品率依次为5%、2%、6%,求这个产品的平均次品率。
因为每个环节依次发生,需要完成上一个环节的合格品才能进入下一个环节,所以每个环节的次品率之间是乘积关系。
依照上式结果可知,该产品整个生产环节的平均次品率为3.91%。
3.中位数Median:将数值从小到大依次排列,最中间的数值为中位数。若数值个数为奇数个时,为中间位置的数值;若数值个数为偶数个时,为中间两个数的算术平均数。
优缺点:不受极端值影响,通过损失部分信息,来换取指标的稳定性。但对极值缺乏敏感性,当样本量小时,中位数不稳定。
示例:毕业生小于获得了两个offer,分别是A、B两个公司。A公司该部门工资情况为甲400元,乙500元,丙600元,丁20000元,B公司该部门工资情况为戊1000元,己1500元,庚2000元,辛8000元。
A、B公司平均月薪为5375元、2675元。此时算术平均数受极值影响已失去代表作用,A、B公司月薪中位数550元、1750元能代表更多的数据。
4.众数Mode:数据中出现次数最多的数值。如果有两个或两个以上的数值出现次数并列最多,那么这些数值都是该数据集的众数。如果所有数值出现的次数相同,这该数据集没有众数。
优缺点:可用于数值型数据,也可用于非数值型数据。数据量越多时越具有代表性,且不受极值影响。
示例:一家销售鞋的商铺,参照以往的消费数据,得出女鞋销售尺码的众数为37码,男鞋销售尺码的众数为42码,那么在商铺备货的时候,女鞋37码和男鞋42码就需要安排更多的备货。
5.截尾均数TrimmedMean :将数据进行排序后,按照一定比例去掉两端的数据,只用中部的数据来求均数。
若截尾均数与原均数相差不大,说明数据不存在极端值,或者两端极端值的影响正好抵消;若截尾均数与原均数相差较大,则说明数据存在极端值,此时截尾均数可以更好的反应数据的集中趋势。
优缺点:算术平均数较易受到极端值的影响,而截尾均数是其的一种改进,在一定程度上降低极端值给均数带来的影响。
示例:某次艺术比赛10个评委给出评分如下:47、56、74、42、83、75、69、71、76、69。若去掉一个最高分83和一个最低分42,则平均分为: