1、专用公式:若四格表资料四个格子的频数分别为a,b,c,d,则四格表资料卡方检验的卡方值=(ad-bc)2n/(a+b)(c+d)(a+c)(b+d),自由度v=(行数-1)(列数-1)。
2、应用条件:要求样本含量应大于40且每个格子中的理论频数不应小于5当样本含量大于40但理论频数有小于5的情况时卡方值需要校正,当样本含量小于40时只能用确切概率法计算概率。
简单来说,两者的值只是告诉看数据的人这个统计的可信度,而不是通过其统计结果计算出来的,相应的数据是在原有预测、之前统计等多种数据的基础上产生的。卡方是指和自己预期结果的相差度,P是指这个统计中偶然性的概率,因为样本不可能是无穷大的。详细见下:
1,P值指的是该统计的统计学意义,
结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。专业上,p值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。p值是将观察结果认为有效即具有总体代表性的犯错概率。如p=005提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联,我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果。(这并不是说如果变量间存在关联,我们可得到5%或95%次数的相同结果,当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效力有关。)在许多研究领域,005的p值通常被认为是可接受错误的边界水平。
2,χ2方是卡方检验结果的最终结果,称卡方值,其表示观察值与理论值之问的偏离程度。计算这种偏离程度的基本思路如下。
(1)设A代表某个类别的观察频数,E代表基于H0计算出的期望频数,A与E之差称为残差。
(2)显然,残差可以表示某一个类别观察值和理论值的偏离程度,但如果将残差简单相加以表示各类别观察频数与期望频数的差别,则有一定的不足之处。因为残差有正有负,相加后会彼此抵消,总和仍然为0,为此可以将残差平方后求和。
(3)另一方面,残差大小是一个相对的概念,相对于期望频数为10时,期望频数为20的残差非常大,但相对于期望频数为1 000时20的残差就很小了。考虑到这一点,人们又将残差平方除以期望频数再求和,以估计观察频数与期望频数的差别。
进行上述操作之后,就得到了常用的χ2统计量,由于它最初是由英国统计学家Karl Pearson在1900年首次提出的,因此也称之为Pearson χ2,其计算公式为(i=1,2,3,…,k)
其中,Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平的期望频率。i水平的期望频数Ti等于总频数n×i水平的期望概率pi,k为单元格数。当n比较大时,χ2统计量近似服从k-1(计算Ei时用到的参数个数)个自由度的卡方分布。
由卡方的计算公式可知,当观察频数与期望频数完全一致时,χ2值为0;观察频数与期望频数越接近,两者之间的差异越小,χ2值越小;反之,观察频数与期望频数差别越大,两者之间的差异越大,χ2值越大。因此,χ2是观察频数与期望频数之间距离的一种度量指标,也是假设成立与否的度量指标。如果χ2值“小”,研究者就倾向于不拒绝H0;如果χ2值大,就倾向于拒绝H0。至于χ2在每个具体研究中究竟要大到什么程度才能拒绝H0,则要借助于卡方分布求出所对应的P值来确定。
一个是看卡方值,另一个是看卡方值对应的p值,也就是sig值,尤其是sig,如果sig<005,表明检验的结果显著,如果你做的是拟合性卡方检验,那么此结果表明数据的实际分布和期望分布差异显著。如果你做的是独立性卡方检验,那么此结果表明你所检验的两个变量相关显著。反过来如果sig>005的话则无充分理由认为实际与期望有差异或者是两变量相关。
卡方值怎么算卡方值是这样算的:假设有两个分类变量X和Y,它们的值域分别为{x1, x2}和{y1, y2},若要推断的论述为H1:“X与Y有关系”,可以利用独立性检验来考察两个变量是否有关系,并且能较精确地给出这种判断的可靠程度。具体的做法是,由表中的数据算出随机变量K^2的值(即K的平方)K^2 = n (ad - bc) ^ 2 / [(a+b)(c+d)(a+c)(b+d)] 其中n=a+b+c+d为样本容量。K^2的值越大,说明“X与Y有关系”成立的可能性越大。
¥
5
百度文库VIP限时优惠现在开通,立享6亿+VIP内容
立即获取
卡方值怎么算
卡方值怎么算
卡方值是这样算的:假设有两个分类变量X和Y,它们的值域分别为{x1, x2}和{y1, y2},若要推断的论述为H1:“X与Y有关系”,可以利用独立性检验来考察两个变量是否有关系,并且能较精确地给出这种判断的可靠程度。
具体的做法是,由表中的数据算出随机变量K^2的值(即K的平方)
K^2 = n (ad - bc) ^ 2 / [(a+b)(c+d)(a+c)(b+d)] 其中n=a+b+c+d为样本容量。K^2的值越大,说明“X与Y有关系”成立的可能性越大。
生存分析是一种用于研究人群中事件发生时间的统计方法。在生存分析中,卡方检验(Chi-square test)是一种常用的统计方法,用于判断不同因素对事件发生时间的影响是否显著。
卡方值是一种表示观察值与期望值之间差异的统计量。在生存分析中,卡方值可以用于比较不同因素对事件发生时间的影响是否显著。卡方值越大,表示观察值与期望值之间的差异越大,即不同因素对事件发生时间的影响越显著。
卡方值的计算需要用到卡方检验表。卡方检验表是一种用于计算卡方值的表格,它包括实际观察值和期望观察值两列。实际观察值是指实际发生的事件数,期望观察值是指根据某一模型预测的事件数。卡方值的计算公式为:
卡方值 = Σ((实际观察值-期望观察值)^2/期望观察值)
在生存分析中,卡方值通常用于比较不同因素对事件发生时间的影响是否显著。例如,在比较两种治疗方式对患者生存时间的影响时,可以计算不同治疗方式下的卡方值,并比较两组卡方值的大小。如果卡方值较大,则说明不同治疗方式对患者生存时间的影响具有显著性差异。
因此,卡方值在生存分析中非常重要,它可以用于比较不同因素对事件发生时间的影响是否显著。
概念
卡方检验是一种用途很广的计数资料的假设检验方法,由卡尔·皮尔逊提出。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较 理论频数和实际频数 的 吻合程度或拟合优度 问题。
例一
我们想知道喝牛奶对感冒发病率有没有影响,以下为数据统计的四格表:
通过简单的统计我们得出喝牛奶组和不喝牛奶组的感冒率为3094%和2500%,两者的差别可能是抽样误差导致,也有可能是牛奶对感冒率真的有影响。
为了确定真实原因,我们先假设喝牛奶对感冒发病率是没有影响的,即喝牛奶喝感冒时独立无关的,所以我们可以得出感冒的发病率实际是(43+28)/(43+28+96+84)= 2829%
所以,理论的四格表应该如下表所示:
即下表:
如果喝牛奶喝感冒真的是独立无关的,那么四格表里的理论值和实际值差别应该会很小。
那如何来描述这种差别呢,我们定义卡方值为
其中,A为实际值,T为理论值。
x2用于衡量实际值与理论值的差异程度(也就是卡方检验的核心思想),包含了以下两个信息:
根据卡方检验公式我们可以得出例1的卡方值为:
卡方 = (43 - 393231)平方 / 393231 + (28 - 316848)平方 / 316848 + (96 - 996769)平方 / 996769 + (84 - 803152)平方 / 803152 = 1077
卡方值(理论值与实际值差异大小)的意义是什么呢?为此我们再引入一个概念:
卡方分布的临界值
上一步我们得到了卡方的值,但是如何通过卡方的值来判断喝牛奶和感冒是否真的是独立无关的?也就是说,怎么知道无关性假设是否可靠?
答案是,通过查询卡方分布的临界值表。
第一行表示显著性水平α
第一列表示自由度
这里需要用到一个 自由度 的概念,自由度等于V = (行数 - 1) (列数 - 1),对四格表,自由度V = 1。
对V = 1,喝牛奶和感冒(95%概率)不相关的卡方分布的临界值(最大)是:384。即如果卡方大于384,则认为喝牛奶和感冒(有95%的概率)相关。
临界值384的意义表示:如果卡方值>384,则纵列因素与横行因素不相关的的概念<005(即显著性水平),也即纵列因素与横行因素相关的概念>095。
显然1077<384,没有达到卡方分布的临界值,所以喝牛奶和感冒独立不相关的假设没有被推翻。
简单说,如果我们计算出的卡方值(表示实际值与理论值的差异,越大表示实际值与理论值越不符,即越有可能纵列因素会影响横行数值)大于临界值(列因素不影响横行值的范围:0~临界值),我们就排斥原假设(H0,即纵列因素不影响横行的因素的变化),接受备择假设(H1:纵列因素对横行的因素变化有影响);反之,卡方值小于临界值,即在(纵列与横行互不影响这一假设)理论范围内,无法推翻原假设,即无统计差异。
以上就是关于卡方公式是什么 卡方公式内容全部的内容,包括:卡方公式是什么 卡方公式内容、急求高手解答一下这个表中的卡方的X^2和p值怎么来的!!、急!spss卡方检验结果怎么看等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!