均值与中位数

均值和中位数都是数据集中心的度量,但它们传达的信息略有不同。均值是算术平均值——将所有值相加然后除以个数。中位数是数据排序后的中间值。在偏态分布中(如收入或房价),两者可能差异巨大——选错了会导致误导性结论。

均值(平均值)

均值通过将所有值求和然后除以个数来计算。它使用数据集中的每个值,这使它对极端异常值敏感。

Mean = Σx / n
  • 所有值之和 ÷ 值的个数
  • 使用每个数据点进行计算
  • 被异常值(极高或极低值)拉偏
  • 最适合对称的正态分布数据
  • 最常教授的"平均值"
打开计算器

中位数

中位数是排序数据集的中间值。对于奇数个值,它是中心值;对于偶数个值,它是两个中心值的平均值。它不受异常值的影响。

Median = middle value of sorted data
  • 排序数据集的中间值
  • 不受极端异常值影响
  • 更适合偏态分布
  • 用于收入、房价和财富数据
  • 一半的值高于它,一半低于它
打开计算器

比较

方面均值(平均值)中位数
计算方式求和 ÷ 个数排序列表的中间值
是否受异常值影响是(强烈)否(稳健)
最佳分布类型对称/正态偏态/易有异常值
收入数据(美国2023年)均值约$83k(被富人拉高)中位数约$59k(典型工薪族)
心算难易度容易(加起来除以个数)需要先排序
是否受每个值影响否(只有中间值重要)

数据大致对称且没有极端异常值时使用均值:考试成绩、身高、温度。数据偏态或有异常值时使用中位数:收入、房价、财富或任何有长尾的数据。当新闻报道说"平均收入"时,核实他们说的是均值还是中位数——这很重要。

常见问题

为什么中位数收入低于均值收入?

收入分布是右偏的——大多数人收入适中,而少数高收入者大幅拉高了平均值。中位数更好地反映了典型人的收入,因为它忽略了顶端的亿万富翁。2023年,美国家庭平均收入(约$83k)显著高于中位家庭收入(约$59k),正是这个原因。

均值和中位数可以相等吗?

可以——在完全对称的分布中,例如正态(钟形曲线)分布,均值和中位数是相同的。如果你的数据集围绕中心值完全对称,两者也会一致。

均值和中位数哪个更好?

两者都不是普遍更好的——取决于数据和问题。对于没有异常值的对称数据,均值使用了所有信息,通常更受青睐。对于偏态数据或有异常值的数据,中位数能给出更有代表性的"典型"值。许多分析师会同时报告两者。