什么是样本数据什么是样本数据?多谢。


样本数据是概率运算里的一个概念,简单的说,有一批弹药,10000发,要求90%是性能优良的,现在要测算一下,我们不能把10000发全部打了试一下,这样就没有意义了。我们可以随机取100发,打一下,计算出性能优良的数量,算出优良率,假设是94%,因为是随机的,而且这100发也在10000发里占了一定的比例,所以就可以说这批弹药的优良率是94%,符合要求。这100发计算的值就称为样本数据。样本就是抽样的意思。

含义不同:原始检测数据是总体,总体是统计所研究对象的全体,是包含所研究变量的全部个体的集合,具有同质性、差异性、大量性。构成总体的个别事物叫总体单位。样本检测数据是从总体中抽取的一部分元素的集合,是总体的一部分。必须取自总体内部有多种抽样方法具有代表性、客观性。

2.

表示不同:样本检测数据中的单位数称为样本容量,通常样本单位数达到或超过30个称为大样本,30个以下称为小样本。样本是用来推断总体的。以相对很小的样本总体来推断很大的全及总体,是抽样法的重要特点。

数据样本之间相互独立,不存在任何关系。然而,在很多实际应用中,尤其是最近出现的像Facebook、微信和微博这种社交网络应用中,数据样本之间是有关系的,也就是说,样本之间是不独立的。例如,互联网上网页之间存在超链接关系,学术论文之间存在引用关系,社交网络中的对象之间存在各种各样的关系,人与人之间存在着通信关系,蛋白质之间存在各种交互关系。我们把这种样本之间存在关系的数据叫做关系数据 (relational data),把基于关系数据的机器学习叫做统计关系学习 (statistical relational learning, SRL)。由于关系数据在互联网数据挖掘、社交网络分析、生物信息学、经济学、恐怖和恶意行为预测、以及市场营销等各个领域不断涌现,统计关系学习已经成为一个具有重要科学意义和应用价值的研究课题。


转载请注明原文地址:https://juke.outofmemory.cn/read/2984210.html

最新回复(0)