【統計】統計用語まとめ【備忘録】

Pocket

こんにちは、まんぼうです。

最近大学の研究で使うために統計を学び始めたので、備忘録も兼ねて統計に関する記事を書こうと思います

今回は統計で必要になってくるいくつかの用語について書いていきます。

後々、必要だと思ったら書き足すかもしれません。



変数

変数は大きく、目的変数と説明変数の二つに分けられる。

目的変数は作業の対象の変数。グラフで言えばy軸。

説明変数は目的変数を説明するための変数。グラフで言えばx軸。

これらの変数はさらにカテゴリカル変数、連続型の変数に2分される。

カテゴリカル変数は2水準以上の値を取るもの。
例えば一週間は7つの水準(日曜、月曜、火曜、水曜、木曜、金曜、土曜)など

連続型の変数は任意の実数値を取れるような変数。
例えば人の身長、体重など。

帰無仮説

帰無仮説とは何も特別なことは起こっていないということ。

例えば、2つのデータを比較してその平均が同じであるということ。

有意

同じ実験でも場所や時間が異なればそれ以外を同じように測定したとしても異なる結果が得られる。

そういった偶然によって期待される変動よりも大きなものが測定されたときに、その結果は統計的に有意であるという。

一方、偶然のみによって合理的に予測できる変動しか測定できなかった場合、それは統計的に有意でないという。

有意であるということは、その結果は偶然起こっているわけではないということ。

「帰無仮説が正しいなら起こるようなものではない」→ 何か特別なことが起こっている、ということ

p値

p値とは帰無仮説が正しい時に、ある観測された結果以上に極端なものが偶然により得られる確率のこと。

一言で表すなら帰無仮説の信憑性を測る物差し。

確率で言えば起こりそうもないことが起こっているとき、P値が小さい値の時に統計的に有意であると言える。
⇒小さいp値 → その帰無仮説が正しくなさそう →その違いが統計的に有意

p値が大きいのは「帰無仮説を棄却しない」ということ。(帰無仮説が正しいというのとは異なる)

最大尤度

尤:もっともらしい
尤度:もっともらしさ

最尤推定:与えられたデータからそれが従う確率分布の母数を点推定する方法

最大尤度:データへのモデルの最良のあてはめ

尤度関数:観察結果から見て前提条件が~であったと推測する数値を、~を変数とする関数として捉えたもの
→~が前提条件。前提条件を変数としてとらえたもの

反復

反復は母数の推定値の信頼度を増すためにある。

加えて、同じ処理内に存在する変動を見積もるためでもある。

反復と認められるためには、繰り返し測定されたものが独立でなくてはならない。
例えば時系列からの1部のデータではそのデータに独立性はない。

ちなみにどのくらいの反復が必要かというと、一般的には30が基準とされる。

無作為化

言葉の通り、データの中から無作為にいくつかのデータ選択すること。

例)
森の中から無作為に一本の木を選択する。という場合、森の中の適当な座標を指定し、そこに最も近い木を選ぶというのは一件無作為に見える。

しかし森の中にも木の密度があるため全ての木が選ばれる確率は同様に確からしくない。

この場合無作為にするためには、全ての木に番号を付けその番号内の適当な数字を選ぶこと。

自由度

自由にデータを取れるデータ数のこと。

サンプルサイズnの標本の自由度はnであり、基本的にはサンプルサイズがそのまま自由度となる。

直交計画と非直交観測データ

処理の組み合わせのすべてが等しく扱われ、事故を避けるように計画されるため欠損値が現れないデータを”直交的”という。

一方観測に基づく研究ではデータを取る対象数や、観測環境の組み合わせにおいて管理できない場合が多い。

説明変数の多くは目的変数とだけでなく説明変数同士でも関連し合うことが多く、この様なデータは非直交的と言われる。

直交計画においては個々の要因によって説明できる変動は定まっており、モデルから要因を除くときの順序に関係しないが、非直交的な研究においてはある要因を最大モデル(全ての要因とそれらが交絡するときの交互作用項とを含んだモデル)から取り除こうとするときに、その要因の優位性の判断には十分な注意を払う必要がある。非直交データには順序の問題がある。

最後に

自分の備忘録も兼ねているので、勉強している中で、これも大切そうだな―、と思ったら書き足そうと思います。

何か間違いや勘違いしているところがあればご指摘いただけるとありがたいです。