基于描述性统计和分布推断的正态分布3354的应用

2024-03-12 19:42:54来源:西游留学网作者:饮舟 阅读量:11143

内容:你好,这里每天都有点分析。

此次介绍描述性统计指标与分布的基本关系,包括分布的基本类型、集中趋势与分布的关系、离散趋势与分布的关系,并结合国民收入案例探讨分布与描述性统计分析在实际生活中的应用。

基于描述性统计和分布推断的正态分布3354的应用

文章内容适合数据分析,内容深刻易懂,案例切合实际。

下期向大家介绍偏度系数。 期待您的关注。

概念介绍:分布类型:

上次主要介绍了正态分布,实际上不仅是正态分布,还有很多分布类型。 今天我来介绍一下科普。

的二次分布、均匀分布这样的根据古典概形的分布,在此不介绍。

这次介绍的分布也是统计中经常使用的类型。

第一、t分布。

如果知道等待分析的总体服从正态分布,则从总体中提取容量为n的所有可能样本,然后计算每个样本相应的t统计量,所有t统计量的值构成连续概率分布。 该分布为t分布,t分布的概率密度函数为:

t表示t统计量值; v表示自由度,等于样本容量n减去1; c是常数,使t分布函数曲线上的面积为1。

t分布有什么功能呢? 大家听说过系数t检验、样品t检验吗?

t分布可用于确定两个连续变量的显著性,经常用于确定线性回归中的系数是否显著性。 如果它不明显,则需要移除该变量并重新拟合。

一般情况下,t检验双侧p值小于5%,视为显著,超过5%则视为不显著。

例如身高和年龄是否有显著性关系,GDP和投资是否有显著性关系。

第二,卡方)2 )分布。

如果n个相互独立的随机变量、、n都服从标准正态分布,则服从这n个标准正态分布的随机变量的平方和构成一个新的随机变量,其分布规律称为卡方分布。

概率密度函数:

X2代表卡方统计量; e是自然底,等于2.72的v表示自由度,等于样本容量n-1; c表示调节常数,使卡方分布曲线下的总面积为1。

卡方分布用于检测方差,通常检查一个变量的两种方差是否显著,通常用于逻辑回归。

例如,某班60人,男35人,女25人,分析了男女身高水平是否存在显著差异,将60个身高数据按男女分开,用卡方分布进行了验证。

一般来说,卡方检验的双侧p值小于5%,被认为显著,超过5%则被认为不显著。

二分类逻辑回归的显著检验是应用卡方检验。

三.f分布。

两个正态分布总体之间的方差关系。

f统计量实际上被认为是除以两个卡方)2 )统计量,一般默认以卡方值大的总体为分母,以卡方值小的总体为分子。

概率密度函数如下。

v1表示f统计量分子自由度; v2表示f统计量的分母自由度; c表示修正常数,使f分布曲线下的总面积为1。

f分布是用来做什么的呢? 做数据分析的你一定用过吧。 但是,我们不一定知道f检验可以用于方差和函数的验证。 是的,通过验证函数、线性回归和逻辑回归模型的显著性,可以用f分布进行验证。

一般情况下,f检验的双侧p值小于5%,被认为显著,超过5%则被认为不显著。

分布与描述性统计分析的关系:

前期问了几个问题,如何解释频率分布图的特征?

1、左边的数据多还是右边的数据多?

2、左陡峭还是右陡峭?

3、有极小的离群值吗?

4、“凸”还是“凹”?

5、整体形状像什么?

关于分布的数据的特征和相关的作用,刚才已经介绍了。

分布的形状、陡度、偏离值的特征与描述性通过的相关指标有关。

接下来,具体理解一下吧。

集中趋势和分布的关系:

前几天的调查发现,平均值、中位数、众数是集中倾向的指标。

但是,在所有的数据中,平均值和中位数并不代表这个数据的集中趋势。

例如,考虑正态分布这样的倒u字型分布数据时,平均值、中值、众数表示数据的集中倾向。

像形状为u型的数据分布一样,只有最频值表示集中倾向。 例如,49个1,49个99,1个50这样的数据,平均值的中值为50,最频值为1和99。 此时,只有最频值表示数据集中倾向。

另外,平均值、中位数、众数的位置与分布图形的左右形状相关,当平均值小于中位数、小于众数时,分布形状为右隆起,左有长尾巴; 平均值大于中值时,分布形状为左隆起,右有长尾巴。

离散趋势与分布的关系:

离散倾向指标极差,属于方差和标准差,本文主要讨论标准差。

刚才,我说明了如何判断将数据向左或向右移动的指标; 下面介绍分布是“凸”还是“凹”的指标。

在任何分布中,方差越大数据分布越“凸”,方差越小数据分布越“凹”。

你如何判定方差是大是小? 参照相同平均值的正态分布即可。

而且“凸”和“凹”还有进一步的应用。

“凸”表示最频值集中,两端急速下降,由此可知两侧的值和集中的值有很大不同。 也就是说,意味着存在离群值,具体离群值在大的一侧还是小的一侧,可以结合数据分布的偏差来了解。

“凹”表示大步数不太集中,两侧下降缓慢,数值相差不大,意味着数据没有明显的离群值。

明白了吗? 没关系。 我们亲切地制作了一个小视频,帮助大家消化理解。

大家感兴趣的是可以关注并看到我们的公众号。

综合的APP场景:

接下来我们来看看有趣的案例吧。

国家收入水平案例

)1)为什么是白领,工资水平高于周围人,但小于国家统计行业的工资平均水平?

)2) x为收入,y为对应人数

x=[ ' 1000,2000,3000,4000,5000,6000,7000,8000,9000,10000,20000

y=[1000、3000、7000、10000、14000、16000、14000、8000、500、100、100、100、100、50和50]

要求:计算数据的基数、中位数和平均值,解释上述现象,评估国家整体收入状况。

根据数据,我们画出图形,计算指标,看看到底发生了什么。

图形比较“凸”,右侧下降陡峭,平均值大于中值和众数,存在右侧极端偏离值。

结论1 )我们看到的是大势所趋,收入高于他们,平均极大值,总体收入水平提高了。

结论:均值大于中位数和乘数,存在极大值,国家收入差距较大的数据集中在大步数和中位数周围,大多数人收入持平,总体收入水平较低,大多数人收入水平低于均值。

本期分享到此为止。 每周继续更新。 下期再见吧。 恭候您的光临。

你好。 这次提供了案例代码,请进入公众号领取。

如果您对想了解的知识、内容中的问题、想要的资料、下次分享的内容、学习遇到的问题等有什么建议,请在下面留言。

喜欢的话请关注。

海数据微信小程序

海数据微信二维码

相关文章

热门文章

11150