均值与中位数
均值和中位数都是数据集中心的度量,但它们传达的信息略有不同。均值是算术平均值——将所有值相加然后除以个数。中位数是数据排序后的中间值。在偏态分布中(如收入或房价),两者可能差异巨大——选错了会导致误导性结论。
均值(平均值)
均值通过将所有值求和然后除以个数来计算。它使用数据集中的每个值,这使它对极端异常值敏感。
Mean = Σx / n- •所有值之和 ÷ 值的个数
- •使用每个数据点进行计算
- •被异常值(极高或极低值)拉偏
- •最适合对称的正态分布数据
- •最常教授的"平均值"
中位数
中位数是排序数据集的中间值。对于奇数个值,它是中心值;对于偶数个值,它是两个中心值的平均值。它不受异常值的影响。
Median = middle value of sorted data- •排序数据集的中间值
- •不受极端异常值影响
- •更适合偏态分布
- •用于收入、房价和财富数据
- •一半的值高于它,一半低于它
比较
| 方面 | 均值(平均值) | 中位数 |
|---|---|---|
| 计算方式 | 求和 ÷ 个数 | 排序列表的中间值 |
| 是否受异常值影响 | 是(强烈) | 否(稳健) |
| 最佳分布类型 | 对称/正态 | 偏态/易有异常值 |
| 收入数据(美国2023年) | 均值约$83k(被富人拉高) | 中位数约$59k(典型工薪族) |
| 心算难易度 | 容易(加起来除以个数) | 需要先排序 |
| 是否受每个值影响 | 是 | 否(只有中间值重要) |
数据大致对称且没有极端异常值时使用均值:考试成绩、身高、温度。数据偏态或有异常值时使用中位数:收入、房价、财富或任何有长尾的数据。当新闻报道说"平均收入"时,核实他们说的是均值还是中位数——这很重要。
常见问题
为什么中位数收入低于均值收入?
收入分布是右偏的——大多数人收入适中,而少数高收入者大幅拉高了平均值。中位数更好地反映了典型人的收入,因为它忽略了顶端的亿万富翁。2023年,美国家庭平均收入(约$83k)显著高于中位家庭收入(约$59k),正是这个原因。
均值和中位数可以相等吗?
可以——在完全对称的分布中,例如正态(钟形曲线)分布,均值和中位数是相同的。如果你的数据集围绕中心值完全对称,两者也会一致。
均值和中位数哪个更好?
两者都不是普遍更好的——取决于数据和问题。对于没有异常值的对称数据,均值使用了所有信息,通常更受青睐。对于偏态数据或有异常值的数据,中位数能给出更有代表性的"典型"值。许多分析师会同时报告两者。