EXCEL統計Ver.7.0の紹介(20)

 このブログでは、
  ・株式会社エスミの事業内容
  ・株式会社エスミが開発、販売するソフトの紹介
  ・事例の紹介
などをおこないます。

 今回は事例とソフトの紹介で、『EXCEL統計Ver.7.0』から箱ひげ図を紹介します。
 箱ひげ図は2015年9月10月の記事でプロ野球選手の年俸(2014年)を例に描画しました。
 2016年10月に、Excel2016に対応した更新プログラムを公開しました。新しいプログラムでは以下のようにグラフ内に平均値(赤い×)を追加しました。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 どの球団も平均値は75%点に近く、中央値とは離れていることから、一部の高給取りの存在が平均値を押し上げていると言えます。あと10日ほどで今年の選手名鑑が本屋に揃いますので、機会があれば2017年の年俸データの箱ひげ図も紹介したいと思います。

 Excel2016では箱ひげ図が描画できるようになりました。データを範囲指定して描画させると、以下のようになります。上ヒンジが一致していない球団もありますが、それ以外ではEXCEL統計と同じです。平均値も×で表示されています。ただし、Excelで描画する箱ひげ図は縦と横の向きを逆にすることはできないのでご注意ください。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 Excel2016で作成した箱ひげ図をExcel2013以前で開くと、以下のように表示されますので、Excel2016がインストールされていない方にExcelファイルを送る(渡す)には図として貼り付ける(ただし、グラフの編集ができなくなります)必要があります。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 Excelの操作法については「Excel2016箱ひげ図」で検索してみてください。

デジタル教材の紹介(2)

 このブログでは、
  ・株式会社エスミの事業内容
  ・株式会社エスミが開発、販売するソフトの紹介
  ・事例の紹介
などをおこないます。

 「理科ねっとわーく」というサイトについて以前に紹介しました。
 4月末からメンテナンス中となっていましたが、2週間ぐらい前に開くと「理科ねっとわーくシステム提供終了のお知らせ」に変わっており、公開が終了されてしまいました。
 コストがかかるとのことですが、非常に残念です。

ブラッドリーテリーモデル

 このブログでは、
  ・株式会社エスミの事業内容
  ・株式会社エスミが開発、販売するソフトの紹介
  ・事例の紹介
などをおこないます。

 今回は事例の紹介です。
 2015年のプロ野球のデータを取り上げます。できるだけ公式記録集などに載らないような記録に着目していきます。

 プロ野球のデータ分析を扱った『スポーツの数理科学 -もっと楽しむための数字の読み方-』(共立出版)という本があります。かなり古い本(1988年4月発行)になりますが、プロ野球や大相撲のデータを使っていろいろな角度から分析がおこなわれています。ただし、簡単に読めるような内容ではなく、一般化された数式が数多く載っており、数学が相当に得意な方でないと読みこなせないと思います。
 筆者が大学3年生の時に、大学の図書館から借りましたが、ほとんど理解できませんでした。一般化された数式の意味がわからなくても、実際のデータを使った計算手順が示されていれば少しはわかったかもしれませんが、途中過程がほとんど載っておらず、最終的な答えがあるだけでした。本を借りた目的がExcelに数式を入れて数字遊びをすること、あわよくば卒業論文の題材にすることでしたが、そんなに簡単なことではありませんでした。

 1988年当時、パソコンはまだ高価で各家庭には普及していません。数式を理解できて、プログラム化できる環境があった方というのはかなり少なかったのではないでしょうか。そういう意味ではハードルの高い本と言えるでしょう。
 6年ほど前に古本屋で購入して久しぶりに読みましたが、やはり理解できませんでした。しかし、筆者が理解できなくてもエスミには理解できる人がいます。今回は筆者が興味を抱いた、第2章の「強さ」をはかるで紹介されているブラッドリーテリーモデル(BTモデル)を紹介します。

 下表は1986年ペナントレースの対戦成績(引分は除外)です。1988年発行ですので、載っている事例もその時代のものになっています。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 ペナントレースでは勝率で順位が決まりますので、この表の上から1位、2位、・・・6位となっています。順位がついているのだから強さもこの順番だと思われるかもしれませんが、チーム間の相性(カモと苦手)も考慮する必要があります。本では難しいことがいろいろと書かれていますが、それらを全て飛ばして計算結果をお見せします。
 下表をご覧ください。BTモデルで求めるのは強さを表す「π i」です。各球団に50(合計300)を与え、強さの平均が50になるようにしています。強いチームほど50より大きく、弱いチームほど50より小さくなります。π iの合計は300になります。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 セ・リーグは実際の順位とπ iは一致していますが、パ・リーグは4位と5位が入れ替わりました。本には「日本ハムと上位チームとの引分を除いた対戦数がロッテよりも多かったためと考えられる」と書かれています。

 続いて、カモと苦手の関係です。下表でプラスが大きいほどカモ、マイナスが小さいほど苦手を意味します。わかりやすくするために、絶対値が0.6以上に色をつけました。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 広島とヤクルトの関係に違和感があるかもしれません。対戦成績は広島から見て14勝12敗で勝ち越しているのに、ヤクルトが苦手になっているからです。
 ここでのカモと苦手というのは単純な勝敗成績で決まるのではありません。全体の対戦成績から個々の対戦成績の期待値を算出し、その差の大小から計算しています。
 下表をご覧ください。これは期待値と差で、本には載っていません。期待値というのはカイ2乗検定で知られる独立性の検定適合度の検定で出てくる期待値と同じです。横に合計すると、実際の勝数に一致します。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 広島とヤクルトの期待値見ると、広島から見て17.76勝8.24敗となっています。広島の成績を考えると、ヤクルトには17~18勝しているべきで、実際の14勝だと期待に満たない→誤差よりも大きい→ヤクルトが苦手と判定されます。一方、ヤクルトから見れば、この弱さの割に広島に善戦したと言えます。
 このような関係を見ることができるのがBTモデルの良い点です。

 対戦成績から順序をつける手法として、サーストンの方法があります。サーストンは『EXCELアンケート太閤』『EXCEL官能評価』に搭載されています。しかし、サーストンは対戦数が等しくなければいけないという制約があります。そこで、引分を0.5勝0.5敗として対戦成績に組み込むと対戦数を揃えることができます。

 BTモデルでは対戦数が等しくなくても計算することができます。30年前と違って現在は交流戦がありますので、12球団の強さを同時に算出することができます。
 下表は2015年ペナントレースの対戦成績で、引分も含めています。特に、交流戦は3戦しかないので、引分を除外するのは勿体ないように思います。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 π iを見ると、平均50を超えたのはパ・リーグの上位4球団だけで、セ・リーグにはありませんでした。特に、ソフトバンクは90.83と圧倒しています。 π iの順位を見ると、ヤクルトと巨人は5位と6位、阪神はオリックスの下となる8位でした。セ・リーグにとって交流戦の対戦成績(負け越し)が響いていると言えそうです。

 続いて、カモと苦手の関係です。先ほどよりも基準を緩くして、絶対値が0.7以上に色をつけました。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 ソフトバンクのような強いチームだと、広島との1勝2敗で苦手と判定されてしまいます。中日やDeNAには2勝1敗と勝ち越していても、-0.6~-0.7になってしまうのです。機会があれば、2005年の交流戦実施以降のデータで12球団の順位付けとカモ・苦手を紹介したいと思います。

 最後に、今年のペナントレースの対戦成績です。ちょうど交流戦が終わったところですので、ここまでの順位とカモと苦手の関係です。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 昨年と同様、ソフトバンクの強さが際立ち、π iは101.94です。セ・リーグでπ iが50を超えているのは広島だけ、30台が3チームもあり、今年も交流戦で苦戦したことが数字に表れています。

P/PAという指標(11)&EXCEL統計Ver.7.0の紹介(19)

 このブログでは、
  ・株式会社エスミの事業内容
  ・株式会社エスミが開発、販売するソフトの紹介
  ・事例の紹介
などをおこないます。

 今回は事例の紹介です。
 2015年のプロ野球のデータを取り上げます。できるだけ公式記録集などに載らないような記録に着目していきます。

 前回はセ・リーグの各打者のP/PAを紹介しました。今回は全打者を合計した全体の傾向を紹介します。ヤフースポーツ、サンケイスポーツのサイトを参考にしました。858試合(64918打席)を手作業でおこなったため、正確性の保証はできないことをご了承ください。また、前々回で述べたように、ヤフースポーツとサンケイスポーツで一致していないところはサンケイスポーツの結果を採用しています。

 下記のグラフは、球数ごとの分布で、横軸は球数、縦軸は打席数(頻度)です。1球目で終わったのが7639打席、2球目で終わったのが9689打席、・・・(中略)、16球目で終わったのが2打席あったことを意味します。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 上記のグラフを%にしたのが下記のグラフです。実際の値よりも%の方がイメージしやすいと思います。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 下記のグラフは、2014年の分布ですが、今年も昨年も大きく違いはないようです。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 P/PAは2014年が3.908で、2015年が3.930でした。しかし、2014年のP/PAでも紹介したように、「球をよく見る打者」「粘り強い打者」ということを知りたいのであれば、全打席からP/PAを計算するのではなく、バントや死球といった打者のタイプと関係しないものは除く必要があります。
 下記のグラフは、バント作戦時の球数の分布です。バント作戦というのは、バント安打、送りバント成功(犠打)、バント失敗のことです。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 バント作戦は64918打席のうち1930打席(3.0%)でした。そのうちの約半数が1球目に集中しています。累積していくと3球目までで90.2%です。バントを企図する場合、2ストライクに追い込まれる前に決めないといけないので、当然の結果と言えます。
 バント作戦に限定するとP/PAは1.914ですので、バントが多い打者ほどP/PAは小さくなります

 先ほど、バント作戦の定義をバント安打、送りバント成功(犠打)、バント失敗の3つを列挙しましたが、実はもう1つあります。それはキャッチャーへの守備妨害です。「エキサイトベースボール」では「捕守妨」と表記されています。捕守妨の多くが、バント飛球を追った捕手と打者が交錯したことによるものです。2015年は以下の3つが該当します。
 (1)4月28日 ロッテvs西武 1回裏 打者:鈴木大地
 (2)8月22日 西武vsロッテ 1回裏 打者:渡辺直人
 (3)9月5日 ロッテvs西武 4回表 打者:炭谷銀仁朗

 いずれもロッテと西武の試合というのが面白いところで、無死1塁からの犠打に失敗しています。
 4月1日のロッテvs日本ハムの6回裏に今江敏晃が守備妨害でアウトになっていますが、これは捕手の送球を妨げたことによるアウトで、「エキサイトベースボール」では「違反」と表記されています。
 機械的に打撃成績を拾っていくとウッカリ見落としてしまいますので注意が必要です。実は2014年のデータ集計では「捕守妨」を含めていませんでした。2014年は以下の2つが該当します。いずれもオリックスの試合です。
 (1)4月4日 オリックスvs西武 4回裏 打者:安達了一
 (2)6月18日 巨人vsオリックス 3回表 打者:平野恵一

 本来であれば、この2つもP/PAから除外するべきでした。
 4月4日の中日vs巨人の9回表に長野久義が守備妨害でアウトになっていますが、これはキャッチャー前のゴロを追った谷繁元信と交錯したことによるものですので、これは除外しません。

 下記のグラフは、死球の球数の分布です。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 昨年と同様、1~2球目に集中しており、累積で46.8%になります。
 柳田悠岐(ソフトバンク)は年間14死球のうち、13死球が1~2球目で喰らったもので、これは12球団で最多です。次に多いのが6死球(中島裕之、李大浩、阿部慎之助、藤田一也)ですので、柳田の多さがわかります。
 死球に限定するとP/PAは3.037ですので、早いカウントで死球が多い打者ほどP/PAは小さくなります

 下記のグラフは、バント作戦と死球を除外した球数の分布です。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 昨年と同様、敬遠と敬遠気味の四球は除外していません。また、昨年は1回もなかった打撃妨害は、今年は3回ありましたので、これも除外しています。それが62416打席で、P/PAは4.000でした。

 最後に、『EXCEL統計Ver.7.0』を実行した結果をご覧ください。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 一度に200列まで指定できます。前回紹介した全選手だと451列(451人)ですので、2回実行すれば数秒で上記の表が出力されます。平均値(P/PA)だけでなく、打席数、合計の球数(被投球数)、標準偏差、中央値、モード(最頻値)も出力されます。前回の表というのは、『EXCEL統計Ver.7.0』の出力結果から、打席数(n)、合計(被投球数)、平均値(P/PA)、モード(最頻値)を抜粋して作成しています。

 次回は、バント作戦と死球を除外したP/PAのランキングを紹介します。

デジタル教材の紹介

 このブログでは、
  ・株式会社エスミの事業内容
  ・株式会社エスミが開発、販売するソフトの紹介
  ・事例の紹介
などをおこないます。

 今回は株式会社エスミの事業内容を紹介します。
 6年ほど前になりますが、小学生・中学生・高校生向けのデジタル教材『科学の道具箱』を作成しました。下記のURLをクリックすると、別ウィンドウでページが開きます。
http://rikanet2.jst.go.jp/contents/cp0530/start.html

 「理科ねっとわーく」というサイトの中の一つで、他にも理科に関するデジタル教材がたくさんあります。トップページに記載されている言葉は「統計学」ではなく「データ分析」となっています。さらに、理科のサイトなのに、堂々と「算数・数学」と記載されており、厳密に理科の科目だけを扱っているわけではないようです。
 上記ページ内の「クレジット」を開くと、弊社だけでなくたくさんの方々によって作られたことがわかります。
 「コンテンツ」を開くと、いろいろな題材へのリンクがあり、データ分析について学ぶことができます。子供向けの内容だとバカにしてはいけません。小学生~高校生の時代に統計学を履修していない方だと、戸惑うことも多いのではないでしょうか。

 ところで、小学生~高校生向けの教材なのに、「コンテンツ」「サムネール」「クレジット」といった英語のカタカナ表記に違和感を持たれた方も多いと思います。作成当時、筆者も疑問に思い、「この表現で良いのですか?」と質問しましたが、このように表記することが決まっているのだそうです。他の教材も開くと同じようになっています。

 弊社が関わったのは「統計グラフソフトを使おう」からリンクしている下記のページです。URLをクリックすると、別ウィンドウでページが開きます。
http://rikanet2.jst.go.jp/contents/cp0530/contents/05.html

 Excelで動作するグラフ描画ソフトで、左下の「グラフソフトダウンロード」からダウンロードすることができます。利用についての申し込みや登録などは必要なく、誰でもダウンロードできるようになっています。「小学生向け」と「中・高生向け」の2つに分けられており、Zip形式で圧縮されています。
 ただし、この教材の公開が2009年末のため、Windows版のExcel2003とExcel2007でしか動作しないのでご注意ください。Excel2010以降だと、動作させるたびにエラーメッセージが出ます。エラーは出ても動作(描画)はしているようですが、全ては確認しておりません。また、学校の授業で使うことを想定していたため、Macintosh版のExcelでは動作しません。
 なお、「このエラーメッセージは何ですか?」「操作方法を教えてほしい」「最新のExcelでも動作するようにしてほしい」といったサポートはおこなっておりませんのでご了承ください。

 『統計グラフソフト』にあるグラフ機能の多くは『EXCEL統計Ver.6.0』から流用したものですが、監修になっている大学の先生の方々からの要望により、手が加えられたグラフや新たに作成したグラフもあります。その中の一つが異なる階級幅が混在するヒストグラムです。
 『統計グラフソフト』では予めソフト内で用意されたデータだけでなく、皆様がお持ちのデータを読み込ませて描画することができますので、前回までで紹介した2014年のプロ野球選手の年俸を使用します。ただし、全員のデータを使うと階級の個数が多くて見づらくなりますので、5000万円未満の選手(597人)に絞って説明します。
 前回までは1000万円未満を1つの階級にしていましたが、下表のように100万円刻みにしました。

 まず、400万円以上1000万円未満を100万円ごとに階級を作り、度数を求めます。
 続いて、1000万円以上2000万円未満は200万円ごとに階級を作り、度数を求めます。
 さらに、2000万円以上3000万円未満は500万円ごとに階級を作り、度数を求めます。
 最後に、3000万円以上5000万円未満を1つの階級にして、度数を求めます。
 通常であれば、A(度数)かA÷597(割合)を使って、以下のようなグラフを描くと思います。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 前回までは割合で描画していましたが、今回は度数で描画しています。14個の階級がありますので、14本の棒によって度数を表現しています。
 人数を見ると、最も多いのは「3000~5000」の92人、次に多いのは「1000~1200」の58人です。3000万円未満では前回よりも細かく分けていますので、各階級の度数の違いがわかりやすくなっています。
 しかし、棒の間隔を空けて棒グラフとして描画するならこれで問題ありませんが、ヒストグラムとして描画するなら正しくありません。階級幅の違いが表現されていないからです。
 そこで、階級幅の違いを表現するために、先ほどの度数分布表に戻って新たに表を作成します。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 まず、各階級の階級幅を求めます。それがBです。
 次に、棒の広さをB÷100で求めます。それがCです。100というのは階級幅の最小値のことです。
 続いて、棒の高さをA÷Cで求めます。それがDで、階級幅が100のところはそのまま、200のところは高さが半分に、2000のところは高さが0.05倍にします。つまり、棒の広さを広げた分、高さを縮めるわけです。
 このDをグラフ化したのが以下のグラフです。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 通常のExcelの操作では描画できませんので、かなり強引に表現しています。ヒストグラムの表現方法としては正しいのかもしれませんが、一見しただけでは人数が把握できないので、実際に使ってみようと思われた方は少ないのではないでしょうか。初めての方は、こういう描き方があるというのを知っておくだけで充分です。
 これを初めて見て、階級ごとに 広さ×高さ=度数 の関係になっていることに気づいた方は鋭いです。面積=度数ということになります。普通の棒グラフしか知らないと、このグラフを見ても、「3000~5000」の度数(人数)が一番多いことを読み取ることはできるかもしれませんが、それが92人であることはなかなかわからないのではないでしょうか。

 この例では上限(最大値)が5000万円未満であることがわかっています。もし、最大値が遥かに大きいデータではどのように描画すれば良いでしょうか。
 総務省統計局のページに貯蓄額をヒストグラムにしたものがありました。下記の1つ目のURLで示したページの中に、2つ目のURLで示した画像があります。それぞれのURLをクリックすると、別ウィンドウでページが開きます。
http://www.stat.go.jp/teacher/c2kakei.htm
http://www.stat.go.jp/teacher/img/c2/c2kaikei/img_02i.jpg

 貯蓄額の文字サイズが小さいのでわかりづらいですが、階級幅が異なっていることはわかると思います。ポイントは一番右にある「4000万円以上」で、省略を示す斜めの線が引かれています。億単位以上の貯蓄額の人がいたとしてもごく少数ですので、「4000万円以上」としてまとめているのだと思います。階級幅を正確に表現しようとすると、横幅をどんどん広げなければいけないので、省略線が引かれています。
 これをExcelで表現するためには、図形を挿入してオブジェクトを作り、それをグラフの上にコピーする必要があります。1枚のグラフを作るのに、そこまで時間を掛けようという気は起こらないのではないでしょうか。

 他にも様々なグラフ機能がありますので、皆様がお持ちのデータでいろいろ試してみてください。

EXCEL統計Ver.7.0の紹介(18)

 このブログでは、
  ・株式会社エスミの事業内容
  ・株式会社エスミが開発、販売するソフトの紹介
  ・事例の紹介
などをおこないます。

 今回は事例とソフトの紹介で、『EXCEL統計Ver.7.0』からいくつかピックアップします。
 今回は引き続き箱ひげ図を紹介します。データは2014年のプロ野球選手の年俸です。今年ではなく、昨年のデータですのでご注意ください。
 前回でも述べたように、ベースボールタイムズの選手名鑑から外国人選手と育成選手を除外した726人を、以下のようにExcelのC列に入力していきます。

 まずは「データ加工」の「生データからカテゴリーベースへ」のダイアログボックスを開き、以下のようにA列とC列をそれぞれ指定します。

 OKボタンを押すと、以下の数表が出力されます。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 E~P列に球団ごとに縦にまとめられたデータ(年俸)が出力されますので、箱ひげ図のダイアログボックスを開き、以下のように指定します。

 OKボタンを押すと、以下のグラフが出力されます。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 『EXCEL統計Ver.7.0』で出力されるグラフを見やすく編集しましたので、実際の出力とは異なっています。
 紺色の点が外れ値で、球団ごとに外れ値が違っていることがわかります。
 また、以下のような数表も出力され、球団ごとの平均値と中央値などがわかります。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 平均値を見ると、1位は巨人の6866.36万円、2位はソフトバンクの4949.65万円で、中央値は両球団とも2000万円です。ヤクルトは平均値だと10位ですが、中央値だと3位になっています。
 外れ値を見ると、巨人は1.6億円以上なのに対して、広島は6000万円以上、DeNAと西武が6500万円以上で、大きな外れ値の存在が平均値に影響を与えています。
 この数表ではわかりませんが、各球団の外れ値の人数は、日本ハムが12人、巨人が9人、広島が8人、中日・楽天・西武・ソフトバンク・オリックスが7人、阪神・ロッテが6人、DeNAとヤクルトが4人でした。日本ハムは平均値が6位、中央値が8位、外れ値の最小値が6800万円で小さい方から数えて4位であることを考えると、外れ値の人数が12人というのは意外です。

  今回も選手名の情報は使いませんでしたが、選手名があればローデータに戻って年俸と選手の紐付けが簡単にできます。例えば、巨人には6億円、5億円、4億円の選手がいますが、選手名が入力されていなければ、いちいち選手名鑑を開いて探さなければいけません。選手名が入力されていればすぐにわかりますし、入力した数値に間違いがないかどうかの確認もしやすいので、年俸と一緒に選手名も入力しておくことをお勧めします。

 なお、Excel2016からExcelのグラフ機能に箱ひげ図が追加されました。
 A列の選手名とC列の年俸の2列を指定すれば、箱ひげ図を描画することができます。

 次回は階級幅の異なる場合のヒストグラムを紹介します。

EXCEL統計Ver.7.0の紹介(17)

 このブログでは、
  ・株式会社エスミの事業内容
  ・株式会社エスミが開発、販売するソフトの紹介
  ・事例の紹介
などをおこないます。

 今回は事例とソフトの紹介で、『EXCEL統計Ver.7.0』からいくつかピックアップします。
 今回はヒストグラムと箱ひげ図を紹介します。データは2014年のプロ野球選手の年俸です。今年ではなく、昨年のデータですのでご注意ください。
 ベースボールタイムズの選手名鑑から外国人選手と育成選手を除外した726人を、以下のようにExcelのC列に入力していきます。桁数が多いので、10000で割り算した値にしています。例えば、セルC2の久保裕也は5000万円であることを意味します。今回、A~B列は不要ですが、次回に使います。

 まずはヒストグラムです。ダイアログボックスを開き、以下のように指定します。範囲指定をするのはC列だけです。階級の幅の設定は、最小値が0で1000万円ごとにしました。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 OKボタンを押すと、以下のグラフが出力されます。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 『EXCEL統計Ver.7.0』で出力されるグラフを見やすく編集しましたので、実際の出力とは異なっています。また、ここでは横棒グラフで出力していますが、縦棒グラフにすることも可能です。
 横軸の各階級は「以上・未満」で、例えば、上から2つ目の「1000~2000」は「1000万円以上2000万円未満」であることを意味します。
 ヒストグラムだけでなく、数表も出力され、
  ・平均値は3601.58万円で標準偏差は6022.281万円
  ・「1000万円未満」は240人で33.1%
  ・最大は「6億円以上6.1億円未満」
  ・1億円以上は62人で8.5%、2億円以上は23人で3.2%、
などがわかります。
 稼いでいる選手とそうでない選手の差が大きく、3601.58万円という平均値(グラフ内の赤い線)がデータの特徴を表す値として相応しくないようです。3600万円以下の選手は556人(76.6%)もいます。

 ここでは階級幅を1000万円としましたが、これをいくつにするかは難しいです。
 小さく設定すれば階級の個数が多くなりますし、大きく設定すれば階級の個数が少なくなり、同じデータから作ったグラフでも見た目が変わるので印象も変わってきます。1000万円ごとでも階級が61個にもなり、グラフが縦長で見づらいと思います。特に、2億円以上は人数が少ないので5000万円ごとの階級幅にした方が見やすそうです。
 また、1000万円ごとだと、「1000万円未満」が1つにまとめられてしまうという欠点があります。最小値は440万円ですが、440万円と990万円が「1000万円未満」という1つのグループにまとめられてしまうのです。だからといって、500万円や100万円ごとの階級幅にすると、階級の個数が2倍や10倍になってしまい、ますますグラフが縦長になってしまいます。
 同じグラフの中で階級幅を変える場合はその階級の太さを変えなければいけないというルールがあります。例えば、1億円以上を2000万円ずつの階級にする場合には2倍、5000万円ずつにする場合は5倍の太さにしなければなりません。しかし、Excelのグラフ機能では同じ太さの棒グラフしか描画できません。これについては別の機会に紹介します。

 続いて箱ひげ図です。ダイアログボックスを開き、以下のように指定します。範囲指定をするのはC列だけです。

 OKボタンを押すと、以下のグラフが出力されます。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 『EXCEL統計Ver.7.0』で出力されるグラフを見やすく編集しましたので、実際の出力とは異なっています。また、ここでは横方向のグラフで出力していますが、縦方向のグラフにすることも可能です。
 紺色の点が外れ値で、7500万円以上の79人(10.9%)が該当します。中央値は1500万円で、平均値の3601.58万円と大きく離れていることがわかります。

 次回は球団別に描画した箱ひげ図を紹介します。

P/PAという指標(1)&EXCEL統計Ver.7.0の紹介(16)

 このブログでは、
  ・株式会社エスミの事業内容
  ・株式会社エスミが開発、販売するソフトの紹介
  ・事例の紹介
などをおこないます。

 今回は事例の紹介です。
 2014年のプロ野球のデータを取り上げます。できるだけ公式記録集などに載らないような記録に着目していきます。

 1打席あたりの平均投球数を表すP/PAという指標があります。打者から見た指標ですので、「投球数」ではなく「投球数」という言い方が正しいかもしれません。
 Pitch per Plate Appearances の略で、文字通り、被投球数÷打席数で計算することができます。
 投手の投球数(合計)は登板試合ごとに記録に残りますが、打者ごとへの投球数は全く記録に残りません。そこで、2014年の全試合(ペナントレースのみ)について、全打席の球数を記録しました。ヤフースポーツ、サンケイスポーツ、読売ジャイアンツのサイトを参照しました。864試合(66142打席)を手作業でおこなったため、正確性の保証はできないことをご了承ください。

 打者ごとのP/PAはいろいろなページで紹介されています。同じことをやっても面白くありませんので、このページでは打者同士を比較する前に、全体の傾向を見るところから始めます。
 下記のグラフは、球数ごとの分布で、横軸は球数、縦軸は打席数(頻度)です。1球目で終わったのが7905打席、2球目で終わったのが10007打席、・・・(中略)、16球目で終わったのが2打席あったことを意味します。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 

 グラフを見ると、1球目からどんどん打席数が増えて4球目で最大になり、5球目からどんどん減っていることがわかります。割ときれいな分布と言えるのではないでしょうか。
 上記のグラフを%にしたのが下記のグラフです。実際の値よりも%の方がイメージしやすいと思います。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 

 最も多い4球目は19.1%なので、だいたい5打席に1回の割合です。1球目は12.0%なので、だいたい8打席に1回の割合です。また、10球目以上を累積すると0.68%なので、だいたい150打席に1回の割合です。1試合での両チームの打席数がだいたい75打席ですので、2試合に1打席あるかどうかです。

 データからすぐに平均値(P/PA)を求める前に、グラフを描いて分布を確認することが重要で、球数ごとの頻度(打席数)と割合、最頻値(モード)、データの最大値と最小値などがわかります。平均値は最も使われる指標ですが、平均値というただ1つの情報だけだと、それ以外の情報(標準偏差、中央値、最頻値、最大値、最小値など)を捨ててしまっており勿体ないのです。分布の状況によっては、平均値がそのデータの特徴を表す値として相応しくない場合もあります。

 『EXCEL統計Ver.7.0』では、度数分布表から平均値などを求めることができます。これまでのグラフは以下のB~C列を参照して描画しました。『EXCEL統計Ver.7.0』でB~C列を範囲指定して実行すると、E~F列のものが出力されます。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 ここからは出力結果の説明をします。
 セルF4の「n」というのは打席数のことです。12球団全てで66142打席ありました。
 セルF5の「合計」というのは球数の合計のことです。打者に投じられた球数は258508球でした。なお、この球数というのは打席が完了した場合を対象にしています。打席途中で盗塁死、牽制死などでチェンジになった場合はそれまでの球数は対象にしていません。例えば、2死1塁で打席に立ったA選手への初球に、1塁走者のB選手が盗塁を試みて捕手からの送球により2塁でアウトになった場合、A選手へ投じた1球はカウントされないということです。投手の投球数はこの1球もカウントされていますので、投手の投球数を合計すると、258508球よりも多くなる点にご注意ください。
 セルF6の「平均」というのは今回のメインであるP/PAのことです。平均値は3.9084でした。最頻値が4ですので、ほぼ同じと言って良いでしょう。
 セルF8の「標準偏差 n-1」というのは文字通り標準偏差のことで、1.9586でした。
 セルF13の「メディアン(中央値)」というのは文字通り中央値のことで、3.8358でした。Excelのmedian関数を使うと4になりますが、度数分布表から比例配分させて算出しています。median関数だと3.5、4.0、4.5といった0.5刻みの値しか出ませんが、比例配分だと細かな桁数まで出るのが利点です。この比例配分による中央値はローデータから求めることはできず、度数分布表にする必要があります。
 このデータでは、平均値と中央値と最頻値がほぼ同じですので、平均値の3.9084を採用します。

 一般的に、P/PAの数値が高ければ「球をよく見る打者」「粘り強い打者」、低ければ「積極的に打ちに行く打者」「四球を選べない打者」などの評価をされることが多いですが、必ずしもそうとは限りません。むしろ、この評価が当てはまる打者は少ないのではないかという印象を受けました。
 次回以降、その理由を詳しく述べます。

EXCEL統計Ver.7.0の紹介(15)

 このブログでは、
  ・株式会社エスミの事業内容
  ・株式会社エスミが開発、販売するソフトの紹介
  ・事例の紹介
などをおこないます。

 今回はソフトの紹介で、『EXCEL統計Ver.7.0』からいくつかピックアップします。
 これまではp値が出る統計手法を紹介しましたが、今回は「度数分布表の作成」を紹介します。

 以下の例題をご覧ください。
 A列にはあるのは35人の年齢です。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 通常、度数分布表といえば、5歳刻みや10歳刻みで分けて、階級ごとの人数をまとめた数表のことを指します。それがC~G列にある出力結果です。ダイアログボックスで、下限値からいくつごとに刻むのかを設定します。ここでは、赤囲みにあるように、20歳から10歳刻みという設定をしました。
 これはVer.6.0以前からあった機能です。Ver.7.0では「階級を設定しない」というオプションを追加しました。

 3つ目の「設定しない(単純集計)」を選択すると、I~L列のものが出力されます。これは範囲指定したデータの中に、「□歳という回答が何個あるか」をまとめた数表です。
 一番下にあるオプションで、「度数の昇順」を選択すると人数の少ない順に出力されます。この例だと、度数1の年齢、度数2の年齢、度数3の年齢の順で出力されます。「度数の降順」を選択すると人数の多い順に出力されます。「データの昇順」を選択するとデータの並び順に出力されます。この例だと、年齢の小さい順で出力されます。「データの降順」を選択すると年齢の大きい順で出力されます。

 年齢のような幅のある連続尺度をそのまま出力することはあまりないと思います。アンケートの選択肢が多くない質問(順序尺度、名義尺度)の集計に向いている機能かもしれません。また、自由回答(フリーアンサー)の集計にも使うことができます。文章を書かせる設問だと度数1の回答が並ぶのであまり意味はありませんが、単語や短い文を書かせる設問だと回答状況を把握することができます。『EXCELアンケート太閤』をお持ちの方にもお勧めできる機能です。

 Excelに付属しているピボットテーブルにもある機能ですが、ピボットテーブルだと設問を1つずつフィールドにドラッグしなければいけません。『EXCEL統計』では複数列の範囲指定が可能ですので、自由回答の設問だけを抜粋すれば、設問ごとの単純集計結果が一度に出力されます。

EXCEL統計Ver.7.0の紹介(14)

  このブログでは、
  ・株式会社エスミの事業内容
  ・株式会社エスミが開発、販売するソフトの紹介
  ・事例の紹介
などをおこないます。

 今回はソフトの紹介で、『EXCEL統計Ver.7.0』からいくつかピックアップします。
 前回から時間が経ってしまいましたが、今回は「二元配置分散分析」と「フリードマン検定」です。
 以前はダイアログボックスだけでしたので、ここでは出力結果を紹介します。

 以下の例題をご覧ください。
 被験者10人に対して薬剤を投与して、1時間ごとに体温を測定したデータです。前回と同じデータです。
 セルA1からD11を範囲指定して実行すると、F列以降のものが出力されます。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 上記は「行因子はブロック因子(回答者、実験日など)→行因子の検定はおこなわない」のチェックを外した時の出力です。
 つまり、二元配置分散分析の結果です。2つ目の分散分析で行因子と列因子の検定がおこなわれ、3つ目の母平均の差の検定で多重比較(全組み合わせ)がおこなわれています。
 列因子は3個ありますので、3通りの組み合わせがあります。
 行因子は10個ありますので、45通りの組み合わせがあります。説明の都合上、Excelの31~72行目を非表示にしていますが、実際には全て表示された状態で出力されます。

 「行因子はブロック因子(回答者、実験日など)→行因子の検定はおこなわない」のチェックを入れると、二元配置分散分析とフリードマン検定から選択できます。
 二元配置分散分析を実行すると、行因子の多重比較はおこなわれません。Ver.6.0ではこのオプションがなかったため、100行までという制限がありました。しかし、このような個人ごとに時間を追うデータでは100人を超えることも多いです。また、このようなデータでは被験者同士の違いに関心はありません。仮に、100人で多重比較をおこなうと4950通りにもなり、計算が終わるまで時間が掛かってしまいます。
 そこで、Ver.7.0では「行因子の検定はおこなわない」のオプションを追加して、行数が多い場合にも対応しました。計算時間などの制限がありますので、行数×列数<10000となっています。
 この時の二元配置分散分析のことを「対応のある一元配置分散分析」や「対応のある1因子実験」ということもあります。

 フリードマン検定を実行すると、下記のものが出力されます。
 フリードマン検定でおこなわれるのは列因子の検定だけです。現バージョンでは多重比較は出力されないので、今後の検討課題といたします。