統計学「データの真ん中を表すさまざまな値」

Step:02[1変数データ]

平均:中間・中央値:真ん中・最頻値:多い

こんにちは、徳です。

デジタルDIYができるようコーディング・プログラミング・画像加工・動画編集などを本やYouTubeで勉強しています。

現在は、初心者なので、とにかくゆっくり進んでいくと思います。

また、「間違っていること」や「こうした方が良いよ」などがあれば、コメントなどしていただけたら幸いです。

では、いきましょう!


統計学

ABCDEFG
5338637

こちらの表を見て「真ん中」を意味する値は何になるでしょうか?

「真ん中」の値の代表値としては、平均値があります。

徳

確かに平均値も真ん中を意味します。

しかし、”真ん中 = 平均値”と考えていては危険もあります。

そのため、統計学でよく使用する代表的な「真ん中の値」について学びましょう。

徳

代表的な3つの値について紹介します。


データの真ん中を表すさまざまな値

種類

「真ん中」を表す値としては、

平均値

中央値

最頻値

の3つなどがあります。

平均値

平均値とは
徳

平均身長・平均年齢などよく使われていますね。

平均値とは、

特に大きくも小さくもない中間感的な数値

出典:ゼロからはじめる! 統計学見るだけノートより

です。

求め方

求め方は、

平均値 = データの数値の合計 / データの個数

です。

徳

全部のデータを足して、数で割りましょう

特徴
データ全体の特徴を見つけやすい

平均値は、全部のデータを使って求めるため、データ全体の特徴を見つけるのに役立ちます。

例えば
ABCDEFG
5338637

というデータがあった場合、

データの数値の合計 = 5 + 3 + 3 + 8 + 6 + 3 + 7 = 35

データの個数 = 7つ

平均値 = 35 / 7 = 5

徳

大体、5付近の数値なんだなぁ

極端な値に弱い

平均値は、

平均値は、極端な値に弱い

です。

たった一つでも極端に大きいまたは小さい数値がデータにあると平均値は一気に動いてしまいます

例えば

先程の例に一つ直単に大きなデータを加えると

ABCDEFGH
5338637100

データの数値の合計 = 5 + 3 + 3 + 8 + 6 + 3 + 7 + 100 = 135

データの個数 = 8つ

平均値 = 135 / 8 = 16.875

徳

本当にどのデータも16~17付近の数値かな?

このように、たった一つでも極端なデータがあると平均値は使いづらくなってしまいます。

そのため、平均値から何かを知りたい場合、極端な値がないかを先に見る必要があります

もしなければ良いですが、あった場合、

「その極端な数値をなくして平均を求める」 or 「平均値以外から調べる」

ようにしましょう。

中央値

中央値とは

中央値とは、

データの真ん中の値

です。

徳

データの数値は関係なく、ただ真ん中の数値です。

求め方

中央値は、データの個数が奇数か偶数かで求め方は変わります

データが奇数の場合、

データを大きさで並べた真ん中の値

が中央値になります。

例えば
ABCDEFG
5338637

並べると、

3 3 3 5 6 7 8

となります。

よって中央値は、

3 3 3 5 6 7 8

になります。

データが偶数の場合、

データを大きさで並べた真ん中二つの足して2で割った値

が中央値になります。

例えば
ABCDEFGH
5338637100

並べると、

3 3 3 5 6 7 8 100

となります。

よって中央値は、

3 3 3 5 6 7 8 100

( 5 + 6 ) / 2 = 5.5

となります。

特徴
極端な値に影響されない

中央値は平均と違い、ただ真ん中の値になるため、極端な数値に左右されません。

徳

極端に大きい値や極端に小さい値が真ん中に来ることはないですよね。

データの変化・比較には向いていない

中央値は、真ん中のデータであるため、それ以外の数字が変化しても、中央値が変わらなければ値は変わりません。

例えば
ABCDEFG
年収(万円)100200200400500600800

この場合、年収の中央値は400万円です。

しかし、

ABCDEFG
年収(万円)505050400420420430

こちらも、年収の中央値は400万円です。

徳

この二つの表が似ているとは言えませんよね。

そのため、データの変化や比較は中央値は向いていません

中央値が求め方がもう一つある

また、中央値にはもう一つ求め方があり、

累積相対度数が0.5を超える時の階級値

を中央値とすることもあります。

例えば
ABCDEFG
5338637

累積相対度数を求めると

階級2345678
個数0301111
累積相対度数0/73/73/74/75/76/77/7

0.5超える階級は5です。

そのため、中央値は5となります。

この解き方の場合、中央値はデータの値でなく階級値になることに注意してください。

今の例のようにデータの値 = 階級値なら変化はありませんが、データの数が増え、データの値≠階級値なら中央値も変化します。

最頻値

最頻値とは

最頻値とは、

度数が最も大きい値

です。

つまり、一番回数が出ている値が最頻値です。

徳

ヒストグラムで一番縦に長い値ですね。

求め方

全てのデータの度数を数えましょう。

その中で度数が多い値が最頻値です。

例えば
ABCDEFG
5338637

度数を数えると

データ2345678
度数0301111

表のように3が一番度数が多いため、最頻値は3です。

特徴
極端な値に影響しない

最頻値は値の大きさでなく、度数によって決まるため、中央値と一緒で極端な値に影響しません。

徳

数多く出ている値が選ばれるため、

その値は極端な値ではありません。

数が少ない場合は使わない方が良い

先ほども書きましたが、最頻値は度数が影響します。

そのため、その度数が少ない場合、あまり正確な値が出せません。

よって、度数が少ない時は他の値を使いましょう

最頻値がデータの真ん中の値というわけではない

最頻値はあくまで一番回数出ている値です。

そのため、データの一番真ん中の値というわけではありません。

例えば
ABCDEFG
5328687

このような場合、最頻値は8になり、データとしては一番大きい値になります。

まとめ

今回は、

統計学でよく使う「真ん中」の値

について紹介させていただきました。

この記事では、

平均値

中央値

最頻値

の3つを紹介しました。

この3つの値は、統計学でよく使われる値です。

特に平均値は皆さん聞いたことあると思います。

複数の値から「真ん中」の値を調べて傾向を見たいときは、どの値を使用した方が良いかを考えるようにしましょう。

最後まで読んでいただき、ありがとうございました。

コメント

タイトルとURLをコピーしました