【統計】様々な中央値について【R】

Pocket

こんにちは、まんぼうです。

今回は統計で扱う様々な中心値についての記事です。



はじめに

中心値とは何かというと、簡単に言うと真ん中らへんの数値です。

ちなみに中央値とはまた別なので(中央値も中心値の1つですが)要注意です。

あ、あと今回はdataという変数に標本が入っていると言うていで書いていきます。

最頻値(mode)

最も高い頻度で起こっているデータ値のこと

モードとも言います。

分かりやすいのがヒストグラム(棒線グラフみたいなのです)

hist(data)

Rではこれだけでヒストグラムを得ることができ、これによって簡単に最頻値を求めることが出来ます。(一番長い部分が最頻値です)

平均(mean)(算術平均)

一般的に言う平均のことです。

一番身近な中心値だと思います。

計算式としては

\overline{y}=\frac{\sum_{i=1}^{n}y}{n}

この数式はLaTeX記法で書こうとしたんですがかけなくてよく分からなかったので別のところで書いた画像です。

LaTeX記法で書くと \overline{y}=\frac{\sum_{i=1}^{n}y}{n} です。

で、Rで求める時には

mead(data)

これで求められます。

平均値を普通に計算する場合

分子(要素の合計)

{\sum_{i=1}^{n}y}

これも画像です。LaTeX記法で書くと、{\sum_{i=1}^{n}y}です。

これはRを使うと

sum(data)

で求められる。

分母(要素数)

n

length(data)

要素数は何かと計算に使うためRで解析をするなら必要になることもあると考えられるので覚えておいた方が良いかもです。

普通に計算して求めたい場合は以上で求めた分子を分母で割ればいいわけです。

中央値(median)

データの真ん中の値

平均値は1つ特異点があると大きくずれる可能性があるためその場合は中央値を使うことがある。

Rでは

median(data)

で求められる。

中央値がどうやって計算されているかを考える。

まずはデータを大きさの順番通りに並べるソートという作業が必要になる。

sort(data)

これで順番通りに並ぶ。

中央値を求める時にはデータ数が奇数か偶数かで求め方が異なってくる。

奇数の場合

length(data)/2

奇数の場合はちょうど真ん中のデータがあるのでそのデータを取ればよい。

しかし上の式だとlength(data)は奇数であるためlength/2は少数になる。例えば5個のデータがある時に中央値は3つ目のデータになるがこの式だと2.5となる。

これを解決するためにはceiling(x)関数を用いる。これはx以上の最小の整数を求めてくれる関数。

つまり奇数の場合の中央値は

ceiling(length(data)/2)

となる。

ちなみにソートするのも含めて1行にまとめると、

sort(data)[ceiling(length(data)/2)]

こうなる。

たぶん変数を使った方が良い気がする。

偶数の場合

偶数の場合はちょうど真ん中の数字がないので、真ん中2つの値の平均の値を取る。

例えばデータ数が6の場合は3番目と4番目の平均を取ることになる。

この例の場合3番目のデータは

length(data)/2

で求められる。

つまり4番目のデータは

1+length(data)/2

で求めることが出来る。

そのため中央値はこの平均、つまり

((lenght(data)/2)+(1+length(data)/2))/2

で求めることが出来る。

奇数か偶数かを求める方法

上の計算を行う前に、そのデータ数が奇数か偶数かを判断する必要がある。

これはデータ数を2で割ったときの余りの有無で判断できる。

2で割ったときの余りが0の場合⇒偶数

2で割ったときの余りが1の場合⇒奇数

至極当然の話だけど

求め方は

length(data)%%2

%%は余りを求める演算子

以上を1つの関数にすると

med <- function(data) {
     odd.even <- length(data)%%2
     if (odd.even == 0)
         (sort(data)[length(data)/2] +sort(data)[1+length(data)/2]/2
     else sort(data)[ciling(length(data)/2)]
} 

ということ。

幾何平均

これも画像です。

ちなみにnがかけられているように見えますが本当はn乗根です。

上の数式は \hat{y}=n\sqrt{\prod_{i=1}^{n}y}とLaTeX記法で書きましたが、

本当は \hat{y}=\sqrt[n]{\prod_{i=1}^{n}y}$$ こう書くとn乗根みたいに書けるはず

nこのデータ全てを掛け合わせてそのデータ数個の平方根を取るのが幾何平均。相乗平均ともいう。大学入試で出てくる相加相乗平均の相乗平均と同じ。

正直今のところ何に使うのかよく分からないけど割合とかの平均を求める時には相加平均じゃなくて相乗平均を使うらしいです。