`
韩悠悠
  • 浏览: 827663 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

机器学习中 中值的含义

阅读更多

 

中值[median] (又称中位数)是指将统计总体当中的各个变量值按大小顺序排列起来,形成一个数列,处于变量数列中间位置的变量值就称为中位数,用Me表示。当变量值的项数N为奇数时,处于中间位置的变量值即为中位数;当N为偶数时,中位数则为处于中间位置的2个变量值的平均数。
中值也称中位数,即数据按升序或者降序排列,假如有n个数据,当n为偶数时,中位数为第n/2位数和第(n+2)/2位数的平均数;如果n为奇数,那么中位数为第(n+1)/2位数的值。
 
描述数据集取值水平的主要有以下三个指标:平均数,中位数,众数。 通常似乎人们更青睐平均数,例如衡量职工收入水平用“职工平均工资”,衡量班级学习成绩用“学生平均成绩”,以为平均数是衡量数据集取值水平的最好指标,其实错了!平均数有一个天然的缺陷没有得到重视,平均数受极端值的影响是非常大的。例如一些年薪千万、数百万的高层加入职工平均工资的计算,会大幅度提升“职工工资”的水平,从而产生职工工资已经很高的假象。去年上海市统计公布的职工月平均工资是三千多元,可是睁开眼睛看看,左邻右舍中大量的是只有一、二千元月收入的,只不过刚刚温饱而已! 其实人们是最就意识到平均数这种缺陷的,并且努力试图克服这种缺陷,例如在靠裁判、评委打分决定成绩的竞技体育、选秀活动中,往往采用去掉极端的最高、最低分以后计算平均分的方法,这确实可以在一定程度上抑制平均数的缺陷。 在某些场合,中位数、众数会可能更真实地反映数据集的水平,例如在统计职工平均工资时,如果不仅仅统计平均数,也同时统计中位数与众数的话,我们就能够真实地了解人民的收入情况,从而不会作出脱离人民实际状况的决策。
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics