マーケターの思索〜使えるマーケティング情報サイト〜

 

データの代表値|四分位数、パーセンタイル、分散、標準偏差

 

四分位数

小さい順に並べたデータを、4つのグループにデータの数が等しくなるように分けられる値を四分位数といいます。

 

データを4等分する点は3つあり、小さい方から順に第1四分位数、第2四分位数、第3四分位数と呼びます。

 

第1四分位数はデータの最小値から4分の1個目の値です。同様に、他の四分位数は4分の2個目が第2四分位数(ちょうど半分の値、つまり中央値)、4分の3個目が第3四分位数です。

 

そして、第3四分位数と第1四分位数の差を四分位範囲と呼びます。この四分位範囲の中にデータの半分が含まれており、四分位範囲はデータの散らばり具合を示します。四分位範囲が広ければ、データは広く散らばっていることになります。

 

また、四分位範囲を2で割った値を四分位偏差と呼び、四分位範囲と同じくデータの散らばり具合を示す目安です。

 

パーセンタイル

データを小さい順に並べ、ある値がP%目当たるとき、その値をPパーセンタイルと言います。

 

百分率の「パーセント」と誤解されることがあるようですが、「パーセンタイル」は一般に使われる割合とは異なります。

 

例えば、あなたがあるテストを受けたとします。テスト結果が返ってきて、あなたの点数は85パーセンタイルと判定されたら、あなたの成績は上位15%である(あなたの下に85%存在する)ということです。

 

Pパーセンタイルの位置は、データの数をnとすると、(n+1)P/100で与えられます。

 

上で述べた、第1四分位数とは25パーセンタイル、第3四分位数は75パーセンタイルと同じになります。

 

ちなみに、四分位数やパーセンタイルの計算方法は上で挙げた以外にも色々あります。計算方法は書籍や計算ソフトによってまちまちなのですが、データが多数ある場合、データの分布を調べる目的においては全く問題ありません。

 

---------------------------------------------------------------------------------------

 

例1.以下のデータの60パーセンタイルを求めよ。

 

  16, 19, 24, 31, 40

 

データの数は5個なので

 

  (5+1)60/100=3.6

 

60パーセンタイルはデータの3.6番目の値である。

 

3.6は、3番目24と4番目31との間の0.6番目の値は

 

  0.6(31-24)=4.2

 

と計算できます(※後述)。

 

よって、60パーセンタイルは

 

  24+4.2=28.2

 

28.2となります。

 

パーセンタイルを計算すると小数番目となることがあります。求めたいパーセンタイルがk番目とk+1番目との間にある場合、以下のように計算します。

 

  k 番目の値 + 小数部分 ( k + 1 番目の値 - k 番目の値)

 

例えば、40パーセンタイルが、あるデータの3.2番目であり、3番目が15、4番目が20のとき、40パーセンタイルは

 

  15+0.2(20-15)=16

 

より、16となります。

 

---------------------------------------------------------------------------------------

分散

四分位範囲はデータのバラツキや散らばりを測るための指標ですが、他にもいくつか同様の目的の尺度があります。範囲もその一つで、範囲とはデータの最大値と最小値の差です。

 

範囲も四分位範囲もデータがどれくらいの広さで散らばっているかを図る尺度でしかなく、データのバラツキを図る尺度としてもっと有用なものがあります。分散がその一つです。

 

分散の定義は観測値と平均値の差(これを偏差という)を2乗し、平均した値です。

 

観測値Xiを(i=1,2,...,n)、平均値をXとすると、分散s^2は

 

  s^2=Σ(Xi-X)^2/n

 

と表せます。

 

分散にはいくつか種類があり、上の式は標本分散と呼ばれ、母集団から抽出した標本のデータの分散を求める式です。通常、標本分散はs^2で表され、母集団の分散、すなわち母集団分散はσ^2(シグマ2乗)で表されます。

 

一般的に、標本分散は母集団分散より低くなります。そこで、標本分散を母集団分散に近づけるために、分母をn-1に変えた不偏分散という代表値が存在します。不偏分散は以下のように表せます。

 

  s^2=Σ(Xi-X)^2/(n-1)

 

テキストによっては、不偏分散が標本分散と紹介されることもあるので、注意してください。

 

データの数が多くなると、不偏分散と標本分散は等しくなりますが、計算するときは、母集団に近くなるように処理された不偏分散を使用することが多いです。

 

標準偏差

標準偏差とは、分散の平方根です。

 

分散の平方根を計算する理由は、分散とは平均値からのズレを2乗して合計した値ですが、分散の平方根を取ると、元のデータと単位が同じになるため、データのバラツキをより容易く把握することができます。

 

ちなみに母集団標準偏差をσで表しますが、ビジネスの品質管理で使われるシックスシグマとは標準偏差を表す、このシグマに由来しています。

 

その意味は、不良品の発生をシックスシグマに抑えること。すなわち、不良品を100万分の3.4個に抑えるという意味になります。しかし、実際のシックスシグマ(6σ)とは確率が異なります。

演習問題

 

問1.以下のデータについて次の問いに答えなさい。

 

  6, 8, 11, 11, 15, 16, 16, 16, 19, 23

 

データは全部で10個ある。

 

(1)第1四分位数(25パーセンタイル)を求めなさい。

 

(2)第3四分位数(75パーセンタイル)を求めなさい。

 

(3)四分位範囲を求めなさい。

 

問2.以下のデータについて次の問いに答えなさい。

 

  6, 8, 11, 11, 15, 16, 16, 16, 19, 23, 24, 26, 30, 31, 33

 

データは全部で15個ある。

 

(1)不偏分散を求めなさい。

 

(2)標準偏差を求めなさい。

解答

 

問1

 

(1)10.25
(n+1)P/100に、n=10、P=25を代入すると、2.75番目となる。これは、8と11の間なので、
  8+0.75(11-8)=10.25
 となる。

 

(2)16.75
導出方法は(1)と同じ。

 

(3)6.5
(2)の解答から(1)の解答を引く。

 

問2

 

(1)72.29
データの合計は285。データ数は15なので、合計を15で割ると平均は19。各観測値から平均値を引き、2乗してから合計を取ると1012となる。1012をデータ数15から1を引いた14で割る。小数は第三位を四捨五入した。

 

(2)8.5
(1)で求めた分散の平方根。同じく、小数は第三位を四捨五入した。

データの代表値|四分位点、パーセンタイル、分散、標準偏差 関連ページ

データの代表値|平均値、中央値、最頻値
「平均」にも色々ある

トップページ はじめに お問い合わせ ブログ