「平均」は「真ん中」ではない! 「平均」についてのよくある勘違い
「平均」の定義を知っていますか?
デジタル大辞泉によると、
いくつかの数や量の中間的な値を求めること。また、その数値。それらの和をその個数で割る相加平均をいうことが多いが、ほかに相乗平均・調和平均などがある。
(この記事では一般的な相加平均について話しています。)
みなさんは学校で算数の時間に「平均」という概念を学んで、計算問題も解いたので、
「すべての値を足し合わせて個数で割ったら平均になる」ということはなんとなく知っているかと思います。しかし、データの分析をするときによく言われることなのですが、
平均値はかなり「はずれ値」(中心からかなり離れた値)の影響を受けやすい指標なのです。
データ分析でよく使われる3つの代表値
中学や高校の数学でデータの分析を学んだ方は、
データ分析に3つの代表値があることを勉強したと思いますが、覚えていますか?
最も個数が多い値を表す「最頻値」、
値が小さいほうから数えていって真ん中に来る「中央値」、
そしてすべての値を足して個数で割った「平均値」の3つです。
そして、データの分布がある値を境に左右対称に並ぶようなことがなければ、
一般的には平均値がもっとも中心から遠ざかるのです。
例えば、次のような簡単な例を考えてみましょう。
5つの数、 があります。
最頻値は2回出現する
中央値は小さい方から3番目の
平均値は
平均値だけひどく離れているのがわかるでしょうか?
ちなみに、データの分布が偏っている場合、「最頻値、中央値、平均値」の順番に並ぶことが多いです(ピアソンの経験則)。
「平均値」は多くの場合、真ん中から最も遠いのです。
「平均」は「真ん中」ではない
おそらく「平均」という言葉が、「普通」とか「一般的」に近い意味で使われているからだと思いますが、
「平均」が「もっとも一般的」だという勘違いがよく起こります。
例えば、「日本の平均年収は440万円だ」と言ったら、
「年収440万円以下の人と以上の人が半々ぐらいいる」とか、
「街中で10人捕まえたら5人ぐらいは年収440万以上」とか、
こういうことにはなりません。
それは中央値には言えることです。
この場合、年収数億円のわずかな人たちなどが平均年収をつりあげているだけであって、
「みんなは440万円も稼げているんだ。俺なんて…」と勘違いして悩むのは的外れであるといえます。
年収が440万円以下の人は全体の半分以上いるのですからね。
なかなか普段は気にかけることのない内容ですが、
平均値だけではなく他の代表値も気にしながらデータを見たほうがいいと思います。
読んでくれてありがとうございました。
では