Rで学ぶ統計学(数値要約)
Rを用いて統計学を解説します!
今回は記述統計のなかでも、数値要約と呼ばれるものについて解説し、Rでの実践方法もお伝えします。
その他の記事はこちらから↓
統計の理論
数値要約とは
簡単に言うと、数値要約とはデータを一つの数値にまとめることです。これだけではなにをいっているのかわからないと思うので、もう少し詳しく書きます。
例えば、30人いるクラスで数学のテストを行ったとします。30人分のテストの得点を列挙しただけでは、そのクラスの数学の実力がどれくらいなのか、ということがわかりにくいでしょう。30人のうち、一番得点の高い人は何点か(最大値)、平均は何点か(平均値)、一番得点が低かった人は何点か(最小値)、などを計算するでしょう。
このように、データの持つ特徴を把握するために、その特徴がわかる一つの数値にまとめることを数値要約というのです。
数値要約といっても、色々な数値があります。平均値・分散・四分位数などもその一つです。わかりにくい四分位数については以下で解説します!
四分位数とは
四分位数とは大きさ順に並べたデータを4つに分割するときに、分割の起点となる3つの数値のことです。
小さいものから、
- 第1四分位数
- 中央値(第2四分位数)
- 第3四分位数
の3つがあります。
まず一番わかり易いのは中央値です。
中央値とは大きさ順に並べたデータのうち、真ん中にあるデータの値のことです。
これは、第2四分位数とも呼ばれます。
第1四分位数とは、中央値の前後で2分したデータのうち、下位のデータの中央値のこと。つまり、25パーセント点のことです。
第3四分位数とは、中央値の前後で2分したデータのうち、上位のデータの中央値のこと。つまり、75パーセント点のことです。
Rで実践
データの準備
まずは、今回使うデータを変数に代入しましょう。20人の数学のテストの点数のデータです。
> math_test = c(69, 54, 67, 65, 73, 59, 82, 59, 58, 78, 94, 94, 72, 59, 53, 80, 60, 93, 80, 71) > math_test [1] 69 54 67 65 73 59 82 59 58 78 94 94 72 59 53 80 60 93 80 71
Rで数値要約
R言語では、簡単に対象となるデータの数値要約をすることができます。summary関数を使ってみましょう。
> summary(math_test) Min. 1st Qu. Median Mean 3rd Qu. Max. 53 59 70 71 80 94
結果は2行出てきました。summary()は数値要約をして以下の6つを表示してくれます。
- 最小値(Min.)
- 第1四分位数(1st Qu. )
- 中央値(Median)
- 平均値(Mean)
- 第3四分位数(3rd Qu.)
- 最大値(Max.)
「平均値があると見にくい」という方は、四分位数を表示するquantile関数を使うと良いでしょう。
> quantile(math_test) 0% 25% 50% 75% 100% 53 59 70 80 94
summary()とほぼ同じですが、表記が違います。quantile()は数値要約をして、以下の5つを表示してくれます。
- 最小値(0%)
- 第1四分位数(25%)
- 中央値(50%)
- 第3四分位数(75%)
- 最大値(100%)
しかし、summary関数や、quantile関数は、散布度を表す数値は出力してくれません。散布度を表す数値は別に求める必要があります。
散布度というのはデータの散らばりを表すのでした。分散や標準偏差などが散布度を表す主な統計量です。
まだ読んでいない人はRで学ぶ統計学(平均・分散・標準偏差)を見てください!
次の記事はこちら↓
ディスカッション
コメント一覧
まだ、コメントがありません