データの代表値|平均値、中央値、最頻値
母集団と標本(サンプル)
母集団とは、調査対象全ての集合であり、標本(サンプル)またはデータとは、母集団から抽出された部分集合です。基本的に母集団から標本を抽出する際、無作為に選ばます。つまり、母集団の全ての要素は等しく標本として選ばれる可能性があるということです。こういった標本を単純無作為標本(無作為標本)といいます。
統計学では、標本を用いて母集団を理解しようと試みます。これを統計的推測といいます。
代表値
代表値とは、データの性質を客観的に表す値です。例を挙げると、平均値、中央値、最頻値があります。本項では、これらを解説します。
あるデータを次の14個の観測値からなるとします。
9, 12, 12, 15, 15, 18, 20, 22, 23, 24, 26, 28, 31, 32
平均値とは、あるデータの観測値の総和を観測値で割った値です。このデータの場合、総和は287なので、観測値の数14で割ると、21となります。
中央値(中間値やメディアンとも呼ばれます)とは、データを大きさ順(昇順、降順は問わない)に並べたときの真ん中に位置する値です。上のデータでは、観測値の数は偶数ですので、真ん中に近い7番目と8番目の平均が中央値になります。7番目は20、8番目は22なので中央値は20.5となります。
最頻値とは、データの中で最も多く表れた値です。上のデータでは12と15が最頻値です。現れた数が最も多い値は一つとは限らないため、この代表値は複数個あることもあります。
世の中に出回っている統計では、なにかと平均が使われています。たとえば、就職・転職情報では、社員の平均年収が記載されますし、世代別での平均年収なんかもよく見ます。
特にお金については平均値がよく発表されます。
これらの代表値を理解すると平均が実情を正しく表しているとは限らないということがわかります。
例えば、みなほぼ一様な年収で、平均年収400万円で人口100人の村があるとします。
その村に年収4億円の富豪が引っ越した場合、統計の代表値はどうなるかというと、平均年収はおよそ2倍にはね上がります(より正確には792万円)。
では、この村の住人の生活は2倍豊かになったかというと、当然なっていません。
平均値だけ見れば非常に多く年収が増えたように見えますが一方、中央値や最頻値を見るとほとんど変化はないでしょう。
ある統計の分析結果を見せられてもその分析がデータの特徴を表しているとは限りません。特に、平均値を見せられて、短絡的に結論を出している場合は鵜呑みにせずに気を付けましょう。
中国の平均所得が増えているというデータがあります(実際に、前年比10%以上増加した年があります)。
中国では上海のような発展した都市の多い沿岸部と、何もない不毛な内陸では非常に大きな貧富の格差があります。平均所得が増加しているのは都市部の(中国からすれば一部の)所得の増加が結果的に全体の平均所得を引き上げていることになります。
このように、平均所得が増加していると発表されたからといって国全体が豊かになっているわけではないという実例があります。
平均値は統計の代表値としてよく使われていますが、データのバラツキが大きかったり、偏ったデータのときは中央値や最頻値を確認しましょう。
演習問題
以下のデータについて、次の問いに答えなさい。
10, 15, 15, 19, 26
問1.平均値を求めなさい。
問2.中央値を求めなさい。
問3.最頻値を求めなさい。
解答
問1.17
観測値の総和が85なので、これを観測値の数5で割る。
問2.15
観測値の数は5個、データの真ん中は3番目。
問3.15
観測値の現れた回数が最多の値。