EXCEL統計Ver.7.0の紹介(17)

 このブログでは、
  ・株式会社エスミの事業内容
  ・株式会社エスミが開発、販売するソフトの紹介
  ・事例の紹介
などをおこないます。

 今回は事例とソフトの紹介で、『EXCEL統計Ver.7.0』からいくつかピックアップします。
 今回はヒストグラムと箱ひげ図を紹介します。データは2014年のプロ野球選手の年俸です。今年ではなく、昨年のデータですのでご注意ください。
 ベースボールタイムズの選手名鑑から外国人選手と育成選手を除外した726人を、以下のようにExcelのC列に入力していきます。桁数が多いので、10000で割り算した値にしています。例えば、セルC2の久保裕也は5000万円であることを意味します。今回、A~B列は不要ですが、次回に使います。

 まずはヒストグラムです。ダイアログボックスを開き、以下のように指定します。範囲指定をするのはC列だけです。階級の幅の設定は、最小値が0で1000万円ごとにしました。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 OKボタンを押すと、以下のグラフが出力されます。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 『EXCEL統計Ver.7.0』で出力されるグラフを見やすく編集しましたので、実際の出力とは異なっています。また、ここでは横棒グラフで出力していますが、縦棒グラフにすることも可能です。
 横軸の各階級は「以上・未満」で、例えば、上から2つ目の「1000~2000」は「1000万円以上2000万円未満」であることを意味します。
 ヒストグラムだけでなく、数表も出力され、
  ・平均値は3601.58万円で標準偏差は6022.281万円
  ・「1000万円未満」は240人で33.1%
  ・最大は「6億円以上6.1億円未満」
  ・1億円以上は62人で8.5%、2億円以上は23人で3.2%、
などがわかります。
 稼いでいる選手とそうでない選手の差が大きく、3601.58万円という平均値(グラフ内の赤い線)がデータの特徴を表す値として相応しくないようです。3600万円以下の選手は556人(76.6%)もいます。

 ここでは階級幅を1000万円としましたが、これをいくつにするかは難しいです。
 小さく設定すれば階級の個数が多くなりますし、大きく設定すれば階級の個数が少なくなり、同じデータから作ったグラフでも見た目が変わるので印象も変わってきます。1000万円ごとでも階級が61個にもなり、グラフが縦長で見づらいと思います。特に、2億円以上は人数が少ないので5000万円ごとの階級幅にした方が見やすそうです。
 また、1000万円ごとだと、「1000万円未満」が1つにまとめられてしまうという欠点があります。最小値は440万円ですが、440万円と990万円が「1000万円未満」という1つのグループにまとめられてしまうのです。だからといって、500万円や100万円ごとの階級幅にすると、階級の個数が2倍や10倍になってしまい、ますますグラフが縦長になってしまいます。
 同じグラフの中で階級幅を変える場合はその階級の太さを変えなければいけないというルールがあります。例えば、1億円以上を2000万円ずつの階級にする場合には2倍、5000万円ずつにする場合は5倍の太さにしなければなりません。しかし、Excelのグラフ機能では同じ太さの棒グラフしか描画できません。これについては別の機会に紹介します。

 続いて箱ひげ図です。ダイアログボックスを開き、以下のように指定します。範囲指定をするのはC列だけです。

 OKボタンを押すと、以下のグラフが出力されます。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 『EXCEL統計Ver.7.0』で出力されるグラフを見やすく編集しましたので、実際の出力とは異なっています。また、ここでは横方向のグラフで出力していますが、縦方向のグラフにすることも可能です。
 紺色の点が外れ値で、7500万円以上の79人(10.9%)が該当します。中央値は1500万円で、平均値の3601.58万円と大きく離れていることがわかります。

 次回は球団別に描画した箱ひげ図を紹介します。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

*

次のHTML タグと属性が使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>