【統計学：要約統計量】データ特性を表現する「代表値」と「散布度」

データサイエンスの領域において、基本中の基本でありながら、どこまでいっても重要となるのが「要約統計量」です。

各指標の特徴を理解することで、データの特性や、複数データ間の違いをおさえることができます。

本記事では、この「要約統計量」について説明します。

Contents

「要約統計量」によるデータ特性理解
要約統計量とは
代表値
散布度
まとめ

「要約統計量」によるデータ特性理解

いわゆる標本データというものは、データをそのまま並べただけではデータの特性理解が困難です。

例として、AとB、2クラスのテストの得点データを以下に示します。

クラスA	10	20	30	40	40	50	60	70	70	90
クラスB	40	40	40	40	50	50	50	60	60	60

上記のよう、このままでは、「どちらのクラスが優秀か」、「得点にばらつきがあるのか」などの把握が困難であるため、『要約統計量』を求めることで、容易にデータ特性理解を実現します。

上記のテストデータの『要約統計量』は以下のようになります（各指標の説明は後に行います）。

		クラスA	クラスB
代表値	平均値（AVERAGE）	51	49
	中央値（MEDIAN）	50	50
	最頻値（MODE）	50	40
散布度	分散（VAR.S）	499	77
	標準偏差（STDIV.S）	22	9
	範囲（MAX – MIN）	60	20

※表の（）内は、各指標を算出することができるExcelの関数です。
分散・標準偏差はそれぞれ「VAR.P」、「STDIV.P」で計算することもできますが、実用であまり意識する必要はありません。

上記の要約統計量により、平均値や中央値といった「代表値」は同等でるものの、分散や標準偏差といった「散布度」に大きな差が見られる、具体的には「クラスBの得点のばらつきがクラスAと比較して大きい」ことが判断できます。

なお、クラスAとBの2つの得点データをヒストグラム（度数分布）で表現すると、下記のようになりますので、上記の仮説が正しいことがわかります。

要約統計量とは

上記のように、データを要約した統計量を『要約統計量』といいます。

要約統計量には、代表値（データを1つの値で代表させたもの）と、散布度（データのばらつきを定量表現したもの）が存在します。

以下に、それぞれの指標を紹介します。

代表値

「代表値」は、データを1つの値で代表させたものです。

平均（AVERAGE）

「平均」は、全てのデータ値の総和を度数で割ったものです。

いうまでもなく、代表値の中でも最もよく使われるものとなります。

中央値（MEDIAN）

「中央値」は、データの値を大きさの順に並べた場合に、中央に位置する値です（例えば、11つのデータの場合、6番目の値）。

中央値は、データに外れ値がある場合に用いられることが多いです。

例として、「30代の方の貯金額」のデータを見ると、平均値が約500万円であるのに対して中央値が約250万円と言われています。
極一部のお金持ちが数億円の資産を所有している（外れ値がある）だけで、簡単に平均値が変わってしまうためです。
そのため、このような場合では、中央値を代表値として用いたほうが適しているといえます。