統計学「分散」

Step:02[1変数データ]

分散 = 偏差平方和 / データ数

こんにちは、徳です。

デジタルDIYができるようコーディング・プログラミング・画像加工・動画編集などを本やYouTubeで勉強しています。

現在は、初心者なので、とにかくゆっくり進んでいくと思います。

また、「間違っていること」や「こうした方が良いよ」などがあれば、コメントなどしていただけたら幸いです。

では、いきましょう!


統計学

今回は、

分散

について勉強していこうと思います。

たくさんのデータから傾向を調べるときに使用するものの一つに平均値があります。

しかし、

  • 平均値が同じだから同じような傾向のデータ
  • 平均値が全然違うから全く傾向が違うデータ

とは言い切れません。

そんなときに使用する指標の一つが分散です。

それではよろしくお願いします。


分散

分散とは

分散とは、

データの散らばり具合の平均

です。

計算式のように書くと、

分散 = 偏差平方和 / データ数

ということです。

徳

偏差平方和が各データの散らばり具合の合計です。

分散は、その合計をデータ数で割ったものです。

つまり、平均ですね。

散らばりの平均が出せるため、

  • 分散が大きいほど、各データがバラけている
  • 分散が小さいほど、各データがバラけておらず、平均付近のデータが多い

ことがわかります。

求め方

求め方は、

です。

このが分散です。

後ろの部分は

そのまま偏差平方和です。

その偏差平方和をデータの数nで割ったのみです。

特徴

平均値などの違いではみられない違いがわかることもある

偏差平方和と同じように、平均値・中央値・最頻値がどれも同じでも、全く違うヒストグラムになる事がよくあります。

平均からの散らばりから違いを考えてみましょう

分散から他の値を求められる

分散も統計学で使われる値の一つです。

しかし、分散のみで傾向を見るのではなく、

標準偏差

があります。

桁が大きくなる

偏差平方和を求める時点で、散らばりの距離の合計を出すために、散らばりを二乗しました。

そのため、分散で出た散らばりの平均も二乗した数値となっています。

なので、散らばり具合が大きいほど桁が大きくなってしまいます。

注意点

偏差平方和の大きさだけで判断してはいけない

理由:偏差平方和の時点で散らばり具合を二乗しているため

分散は、散らばりの平均です。

ここで、

Aくん
Aくん

分散が25なら、散らばりの平均が25である。

つまり、データは大体±25のあたりに多いんだな。

と考えてしまってはいけません。

これは間違いです。

なぜなら、偏差平方の和の時点で散らばりを二乗しているからです。

つまり、分散の値が実際のデータからの散らばり具合ではなく、その二乗した値になります。

そのため、分散の数値だけを見てその値分散らばっていると勘違いしないようにしましょう。

まとめ

今回は、分散について紹介させていただきました。

この値は、散らばりの平均です。

平均は、

合計 / データ数

です。

そのため分散は、

散らばりの合計 (偏差平方和) / データ数

で求められます。

平均値・中央値・最頻値ではわからない傾向を掴むのに重要になる値です。

また、特徴にも書きましたが、この値から

標準偏差

などの統計学でもっと使われる値を求めます。

そちらを理解するためにも重要な値になります。

求め方や特徴を理解し、データの一つとして求めてみましょう。

また注意すべき点は、偏差平方和の時点で

散らばりは二乗されている

ということです。

つまり、そのままの値が散らばりの平均として当てはまるわけではありません。

最後まで読んでいただきありがとうございました。

コメント

タイトルとURLをコピーしました