EXCEL統計Ver.7.0の紹介(20)

 このブログでは、
  ・株式会社エスミの事業内容
  ・株式会社エスミが開発、販売するソフトの紹介
  ・事例の紹介
などをおこないます。

 今回は事例とソフトの紹介で、『EXCEL統計Ver.7.0』から箱ひげ図を紹介します。
 箱ひげ図は2015年9月10月の記事でプロ野球選手の年俸(2014年)を例に描画しました。
 2016年10月に、Excel2016に対応した更新プログラムを公開しました。新しいプログラムでは以下のようにグラフ内に平均値(赤い×)を追加しました。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 どの球団も平均値は75%点に近く、中央値とは離れていることから、一部の高給取りの存在が平均値を押し上げていると言えます。あと10日ほどで今年の選手名鑑が本屋に揃いますので、機会があれば2017年の年俸データの箱ひげ図も紹介したいと思います。

 Excel2016では箱ひげ図が描画できるようになりました。データを範囲指定して描画させると、以下のようになります。上ヒンジが一致していない球団もありますが、それ以外ではEXCEL統計と同じです。平均値も×で表示されています。ただし、Excelで描画する箱ひげ図は縦と横の向きを逆にすることはできないのでご注意ください。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 Excel2016で作成した箱ひげ図をExcel2013以前で開くと、以下のように表示されますので、Excel2016がインストールされていない方にExcelファイルを送る(渡す)には図として貼り付ける(ただし、グラフの編集ができなくなります)必要があります。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 Excelの操作法については「Excel2016箱ひげ図」で検索してみてください。

P/PAという指標(11)&EXCEL統計Ver.7.0の紹介(19)

 このブログでは、
  ・株式会社エスミの事業内容
  ・株式会社エスミが開発、販売するソフトの紹介
  ・事例の紹介
などをおこないます。

 今回は事例の紹介です。
 2015年のプロ野球のデータを取り上げます。できるだけ公式記録集などに載らないような記録に着目していきます。

 前回はセ・リーグの各打者のP/PAを紹介しました。今回は全打者を合計した全体の傾向を紹介します。ヤフースポーツ、サンケイスポーツのサイトを参考にしました。858試合(64918打席)を手作業でおこなったため、正確性の保証はできないことをご了承ください。また、前々回で述べたように、ヤフースポーツとサンケイスポーツで一致していないところはサンケイスポーツの結果を採用しています。

 下記のグラフは、球数ごとの分布で、横軸は球数、縦軸は打席数(頻度)です。1球目で終わったのが7639打席、2球目で終わったのが9689打席、・・・(中略)、16球目で終わったのが2打席あったことを意味します。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 上記のグラフを%にしたのが下記のグラフです。実際の値よりも%の方がイメージしやすいと思います。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 下記のグラフは、2014年の分布ですが、今年も昨年も大きく違いはないようです。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 P/PAは2014年が3.908で、2015年が3.930でした。しかし、2014年のP/PAでも紹介したように、「球をよく見る打者」「粘り強い打者」ということを知りたいのであれば、全打席からP/PAを計算するのではなく、バントや死球といった打者のタイプと関係しないものは除く必要があります。
 下記のグラフは、バント作戦時の球数の分布です。バント作戦というのは、バント安打、送りバント成功(犠打)、バント失敗のことです。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 バント作戦は64918打席のうち1930打席(3.0%)でした。そのうちの約半数が1球目に集中しています。累積していくと3球目までで90.2%です。バントを企図する場合、2ストライクに追い込まれる前に決めないといけないので、当然の結果と言えます。
 バント作戦に限定するとP/PAは1.914ですので、バントが多い打者ほどP/PAは小さくなります

 先ほど、バント作戦の定義をバント安打、送りバント成功(犠打)、バント失敗の3つを列挙しましたが、実はもう1つあります。それはキャッチャーへの守備妨害です。「エキサイトベースボール」では「捕守妨」と表記されています。捕守妨の多くが、バント飛球を追った捕手と打者が交錯したことによるものです。2015年は以下の3つが該当します。
 (1)4月28日 ロッテvs西武 1回裏 打者:鈴木大地
 (2)8月22日 西武vsロッテ 1回裏 打者:渡辺直人
 (3)9月5日 ロッテvs西武 4回表 打者:炭谷銀仁朗

 いずれもロッテと西武の試合というのが面白いところで、無死1塁からの犠打に失敗しています。
 4月1日のロッテvs日本ハムの6回裏に今江敏晃が守備妨害でアウトになっていますが、これは捕手の送球を妨げたことによるアウトで、「エキサイトベースボール」では「違反」と表記されています。
 機械的に打撃成績を拾っていくとウッカリ見落としてしまいますので注意が必要です。実は2014年のデータ集計では「捕守妨」を含めていませんでした。2014年は以下の2つが該当します。いずれもオリックスの試合です。
 (1)4月4日 オリックスvs西武 4回裏 打者:安達了一
 (2)6月18日 巨人vsオリックス 3回表 打者:平野恵一

 本来であれば、この2つもP/PAから除外するべきでした。
 4月4日の中日vs巨人の9回表に長野久義が守備妨害でアウトになっていますが、これはキャッチャー前のゴロを追った谷繁元信と交錯したことによるものですので、これは除外しません。

 下記のグラフは、死球の球数の分布です。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 昨年と同様、1~2球目に集中しており、累積で46.8%になります。
 柳田悠岐(ソフトバンク)は年間14死球のうち、13死球が1~2球目で喰らったもので、これは12球団で最多です。次に多いのが6死球(中島裕之、李大浩、阿部慎之助、藤田一也)ですので、柳田の多さがわかります。
 死球に限定するとP/PAは3.037ですので、早いカウントで死球が多い打者ほどP/PAは小さくなります

 下記のグラフは、バント作戦と死球を除外した球数の分布です。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 昨年と同様、敬遠と敬遠気味の四球は除外していません。また、昨年は1回もなかった打撃妨害は、今年は3回ありましたので、これも除外しています。それが62416打席で、P/PAは4.000でした。

 最後に、『EXCEL統計Ver.7.0』を実行した結果をご覧ください。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 一度に200列まで指定できます。前回紹介した全選手だと451列(451人)ですので、2回実行すれば数秒で上記の表が出力されます。平均値(P/PA)だけでなく、打席数、合計の球数(被投球数)、標準偏差、中央値、モード(最頻値)も出力されます。前回の表というのは、『EXCEL統計Ver.7.0』の出力結果から、打席数(n)、合計(被投球数)、平均値(P/PA)、モード(最頻値)を抜粋して作成しています。

 次回は、バント作戦と死球を除外したP/PAのランキングを紹介します。

EXCEL統計Ver.7.0の紹介(18)

 このブログでは、
  ・株式会社エスミの事業内容
  ・株式会社エスミが開発、販売するソフトの紹介
  ・事例の紹介
などをおこないます。

 今回は事例とソフトの紹介で、『EXCEL統計Ver.7.0』からいくつかピックアップします。
 今回は引き続き箱ひげ図を紹介します。データは2014年のプロ野球選手の年俸です。今年ではなく、昨年のデータですのでご注意ください。
 前回でも述べたように、ベースボールタイムズの選手名鑑から外国人選手と育成選手を除外した726人を、以下のようにExcelのC列に入力していきます。

 まずは「データ加工」の「生データからカテゴリーベースへ」のダイアログボックスを開き、以下のようにA列とC列をそれぞれ指定します。

 OKボタンを押すと、以下の数表が出力されます。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 E~P列に球団ごとに縦にまとめられたデータ(年俸)が出力されますので、箱ひげ図のダイアログボックスを開き、以下のように指定します。

 OKボタンを押すと、以下のグラフが出力されます。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 『EXCEL統計Ver.7.0』で出力されるグラフを見やすく編集しましたので、実際の出力とは異なっています。
 紺色の点が外れ値で、球団ごとに外れ値が違っていることがわかります。
 また、以下のような数表も出力され、球団ごとの平均値と中央値などがわかります。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 平均値を見ると、1位は巨人の6866.36万円、2位はソフトバンクの4949.65万円で、中央値は両球団とも2000万円です。ヤクルトは平均値だと10位ですが、中央値だと3位になっています。
 外れ値を見ると、巨人は1.6億円以上なのに対して、広島は6000万円以上、DeNAと西武が6500万円以上で、大きな外れ値の存在が平均値に影響を与えています。
 この数表ではわかりませんが、各球団の外れ値の人数は、日本ハムが12人、巨人が9人、広島が8人、中日・楽天・西武・ソフトバンク・オリックスが7人、阪神・ロッテが6人、DeNAとヤクルトが4人でした。日本ハムは平均値が6位、中央値が8位、外れ値の最小値が6800万円で小さい方から数えて4位であることを考えると、外れ値の人数が12人というのは意外です。

  今回も選手名の情報は使いませんでしたが、選手名があればローデータに戻って年俸と選手の紐付けが簡単にできます。例えば、巨人には6億円、5億円、4億円の選手がいますが、選手名が入力されていなければ、いちいち選手名鑑を開いて探さなければいけません。選手名が入力されていればすぐにわかりますし、入力した数値に間違いがないかどうかの確認もしやすいので、年俸と一緒に選手名も入力しておくことをお勧めします。

 なお、Excel2016からExcelのグラフ機能に箱ひげ図が追加されました。
 A列の選手名とC列の年俸の2列を指定すれば、箱ひげ図を描画することができます。

 次回は階級幅の異なる場合のヒストグラムを紹介します。

EXCEL統計Ver.7.0の紹介(17)

 このブログでは、
  ・株式会社エスミの事業内容
  ・株式会社エスミが開発、販売するソフトの紹介
  ・事例の紹介
などをおこないます。

 今回は事例とソフトの紹介で、『EXCEL統計Ver.7.0』からいくつかピックアップします。
 今回はヒストグラムと箱ひげ図を紹介します。データは2014年のプロ野球選手の年俸です。今年ではなく、昨年のデータですのでご注意ください。
 ベースボールタイムズの選手名鑑から外国人選手と育成選手を除外した726人を、以下のようにExcelのC列に入力していきます。桁数が多いので、10000で割り算した値にしています。例えば、セルC2の久保裕也は5000万円であることを意味します。今回、A~B列は不要ですが、次回に使います。

 まずはヒストグラムです。ダイアログボックスを開き、以下のように指定します。範囲指定をするのはC列だけです。階級の幅の設定は、最小値が0で1000万円ごとにしました。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 OKボタンを押すと、以下のグラフが出力されます。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 『EXCEL統計Ver.7.0』で出力されるグラフを見やすく編集しましたので、実際の出力とは異なっています。また、ここでは横棒グラフで出力していますが、縦棒グラフにすることも可能です。
 横軸の各階級は「以上・未満」で、例えば、上から2つ目の「1000~2000」は「1000万円以上2000万円未満」であることを意味します。
 ヒストグラムだけでなく、数表も出力され、
  ・平均値は3601.58万円で標準偏差は6022.281万円
  ・「1000万円未満」は240人で33.1%
  ・最大は「6億円以上6.1億円未満」
  ・1億円以上は62人で8.5%、2億円以上は23人で3.2%、
などがわかります。
 稼いでいる選手とそうでない選手の差が大きく、3601.58万円という平均値(グラフ内の赤い線)がデータの特徴を表す値として相応しくないようです。3600万円以下の選手は556人(76.6%)もいます。

 ここでは階級幅を1000万円としましたが、これをいくつにするかは難しいです。
 小さく設定すれば階級の個数が多くなりますし、大きく設定すれば階級の個数が少なくなり、同じデータから作ったグラフでも見た目が変わるので印象も変わってきます。1000万円ごとでも階級が61個にもなり、グラフが縦長で見づらいと思います。特に、2億円以上は人数が少ないので5000万円ごとの階級幅にした方が見やすそうです。
 また、1000万円ごとだと、「1000万円未満」が1つにまとめられてしまうという欠点があります。最小値は440万円ですが、440万円と990万円が「1000万円未満」という1つのグループにまとめられてしまうのです。だからといって、500万円や100万円ごとの階級幅にすると、階級の個数が2倍や10倍になってしまい、ますますグラフが縦長になってしまいます。
 同じグラフの中で階級幅を変える場合はその階級の太さを変えなければいけないというルールがあります。例えば、1億円以上を2000万円ずつの階級にする場合には2倍、5000万円ずつにする場合は5倍の太さにしなければなりません。しかし、Excelのグラフ機能では同じ太さの棒グラフしか描画できません。これについては別の機会に紹介します。

 続いて箱ひげ図です。ダイアログボックスを開き、以下のように指定します。範囲指定をするのはC列だけです。

 OKボタンを押すと、以下のグラフが出力されます。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 『EXCEL統計Ver.7.0』で出力されるグラフを見やすく編集しましたので、実際の出力とは異なっています。また、ここでは横方向のグラフで出力していますが、縦方向のグラフにすることも可能です。
 紺色の点が外れ値で、7500万円以上の79人(10.9%)が該当します。中央値は1500万円で、平均値の3601.58万円と大きく離れていることがわかります。

 次回は球団別に描画した箱ひげ図を紹介します。

P/PAという指標(1)&EXCEL統計Ver.7.0の紹介(16)

 このブログでは、
  ・株式会社エスミの事業内容
  ・株式会社エスミが開発、販売するソフトの紹介
  ・事例の紹介
などをおこないます。

 今回は事例の紹介です。
 2014年のプロ野球のデータを取り上げます。できるだけ公式記録集などに載らないような記録に着目していきます。

 1打席あたりの平均投球数を表すP/PAという指標があります。打者から見た指標ですので、「投球数」ではなく「投球数」という言い方が正しいかもしれません。
 Pitch per Plate Appearances の略で、文字通り、被投球数÷打席数で計算することができます。
 投手の投球数(合計)は登板試合ごとに記録に残りますが、打者ごとへの投球数は全く記録に残りません。そこで、2014年の全試合(ペナントレースのみ)について、全打席の球数を記録しました。ヤフースポーツ、サンケイスポーツ、読売ジャイアンツのサイトを参照しました。864試合(66142打席)を手作業でおこなったため、正確性の保証はできないことをご了承ください。

 打者ごとのP/PAはいろいろなページで紹介されています。同じことをやっても面白くありませんので、このページでは打者同士を比較する前に、全体の傾向を見るところから始めます。
 下記のグラフは、球数ごとの分布で、横軸は球数、縦軸は打席数(頻度)です。1球目で終わったのが7905打席、2球目で終わったのが10007打席、・・・(中略)、16球目で終わったのが2打席あったことを意味します。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 

 グラフを見ると、1球目からどんどん打席数が増えて4球目で最大になり、5球目からどんどん減っていることがわかります。割ときれいな分布と言えるのではないでしょうか。
 上記のグラフを%にしたのが下記のグラフです。実際の値よりも%の方がイメージしやすいと思います。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 

 最も多い4球目は19.1%なので、だいたい5打席に1回の割合です。1球目は12.0%なので、だいたい8打席に1回の割合です。また、10球目以上を累積すると0.68%なので、だいたい150打席に1回の割合です。1試合での両チームの打席数がだいたい75打席ですので、2試合に1打席あるかどうかです。

 データからすぐに平均値(P/PA)を求める前に、グラフを描いて分布を確認することが重要で、球数ごとの頻度(打席数)と割合、最頻値(モード)、データの最大値と最小値などがわかります。平均値は最も使われる指標ですが、平均値というただ1つの情報だけだと、それ以外の情報(標準偏差、中央値、最頻値、最大値、最小値など)を捨ててしまっており勿体ないのです。分布の状況によっては、平均値がそのデータの特徴を表す値として相応しくない場合もあります。

 『EXCEL統計Ver.7.0』では、度数分布表から平均値などを求めることができます。これまでのグラフは以下のB~C列を参照して描画しました。『EXCEL統計Ver.7.0』でB~C列を範囲指定して実行すると、E~F列のものが出力されます。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 ここからは出力結果の説明をします。
 セルF4の「n」というのは打席数のことです。12球団全てで66142打席ありました。
 セルF5の「合計」というのは球数の合計のことです。打者に投じられた球数は258508球でした。なお、この球数というのは打席が完了した場合を対象にしています。打席途中で盗塁死、牽制死などでチェンジになった場合はそれまでの球数は対象にしていません。例えば、2死1塁で打席に立ったA選手への初球に、1塁走者のB選手が盗塁を試みて捕手からの送球により2塁でアウトになった場合、A選手へ投じた1球はカウントされないということです。投手の投球数はこの1球もカウントされていますので、投手の投球数を合計すると、258508球よりも多くなる点にご注意ください。
 セルF6の「平均」というのは今回のメインであるP/PAのことです。平均値は3.9084でした。最頻値が4ですので、ほぼ同じと言って良いでしょう。
 セルF8の「標準偏差 n-1」というのは文字通り標準偏差のことで、1.9586でした。
 セルF13の「メディアン(中央値)」というのは文字通り中央値のことで、3.8358でした。Excelのmedian関数を使うと4になりますが、度数分布表から比例配分させて算出しています。median関数だと3.5、4.0、4.5といった0.5刻みの値しか出ませんが、比例配分だと細かな桁数まで出るのが利点です。この比例配分による中央値はローデータから求めることはできず、度数分布表にする必要があります。
 このデータでは、平均値と中央値と最頻値がほぼ同じですので、平均値の3.9084を採用します。

 一般的に、P/PAの数値が高ければ「球をよく見る打者」「粘り強い打者」、低ければ「積極的に打ちに行く打者」「四球を選べない打者」などの評価をされることが多いですが、必ずしもそうとは限りません。むしろ、この評価が当てはまる打者は少ないのではないかという印象を受けました。
 次回以降、その理由を詳しく述べます。

EXCEL統計Ver.7.0の紹介(15)

 このブログでは、
  ・株式会社エスミの事業内容
  ・株式会社エスミが開発、販売するソフトの紹介
  ・事例の紹介
などをおこないます。

 今回はソフトの紹介で、『EXCEL統計Ver.7.0』からいくつかピックアップします。
 これまではp値が出る統計手法を紹介しましたが、今回は「度数分布表の作成」を紹介します。

 以下の例題をご覧ください。
 A列にはあるのは35人の年齢です。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 通常、度数分布表といえば、5歳刻みや10歳刻みで分けて、階級ごとの人数をまとめた数表のことを指します。それがC~G列にある出力結果です。ダイアログボックスで、下限値からいくつごとに刻むのかを設定します。ここでは、赤囲みにあるように、20歳から10歳刻みという設定をしました。
 これはVer.6.0以前からあった機能です。Ver.7.0では「階級を設定しない」というオプションを追加しました。

 3つ目の「設定しない(単純集計)」を選択すると、I~L列のものが出力されます。これは範囲指定したデータの中に、「□歳という回答が何個あるか」をまとめた数表です。
 一番下にあるオプションで、「度数の昇順」を選択すると人数の少ない順に出力されます。この例だと、度数1の年齢、度数2の年齢、度数3の年齢の順で出力されます。「度数の降順」を選択すると人数の多い順に出力されます。「データの昇順」を選択するとデータの並び順に出力されます。この例だと、年齢の小さい順で出力されます。「データの降順」を選択すると年齢の大きい順で出力されます。

 年齢のような幅のある連続尺度をそのまま出力することはあまりないと思います。アンケートの選択肢が多くない質問(順序尺度、名義尺度)の集計に向いている機能かもしれません。また、自由回答(フリーアンサー)の集計にも使うことができます。文章を書かせる設問だと度数1の回答が並ぶのであまり意味はありませんが、単語や短い文を書かせる設問だと回答状況を把握することができます。『EXCELアンケート太閤』をお持ちの方にもお勧めできる機能です。

 Excelに付属しているピボットテーブルにもある機能ですが、ピボットテーブルだと設問を1つずつフィールドにドラッグしなければいけません。『EXCEL統計』では複数列の範囲指定が可能ですので、自由回答の設問だけを抜粋すれば、設問ごとの単純集計結果が一度に出力されます。

EXCEL統計Ver.7.0の紹介(14)

  このブログでは、
  ・株式会社エスミの事業内容
  ・株式会社エスミが開発、販売するソフトの紹介
  ・事例の紹介
などをおこないます。

 今回はソフトの紹介で、『EXCEL統計Ver.7.0』からいくつかピックアップします。
 前回から時間が経ってしまいましたが、今回は「二元配置分散分析」と「フリードマン検定」です。
 以前はダイアログボックスだけでしたので、ここでは出力結果を紹介します。

 以下の例題をご覧ください。
 被験者10人に対して薬剤を投与して、1時間ごとに体温を測定したデータです。前回と同じデータです。
 セルA1からD11を範囲指定して実行すると、F列以降のものが出力されます。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 上記は「行因子はブロック因子(回答者、実験日など)→行因子の検定はおこなわない」のチェックを外した時の出力です。
 つまり、二元配置分散分析の結果です。2つ目の分散分析で行因子と列因子の検定がおこなわれ、3つ目の母平均の差の検定で多重比較(全組み合わせ)がおこなわれています。
 列因子は3個ありますので、3通りの組み合わせがあります。
 行因子は10個ありますので、45通りの組み合わせがあります。説明の都合上、Excelの31~72行目を非表示にしていますが、実際には全て表示された状態で出力されます。

 「行因子はブロック因子(回答者、実験日など)→行因子の検定はおこなわない」のチェックを入れると、二元配置分散分析とフリードマン検定から選択できます。
 二元配置分散分析を実行すると、行因子の多重比較はおこなわれません。Ver.6.0ではこのオプションがなかったため、100行までという制限がありました。しかし、このような個人ごとに時間を追うデータでは100人を超えることも多いです。また、このようなデータでは被験者同士の違いに関心はありません。仮に、100人で多重比較をおこなうと4950通りにもなり、計算が終わるまで時間が掛かってしまいます。
 そこで、Ver.7.0では「行因子の検定はおこなわない」のオプションを追加して、行数が多い場合にも対応しました。計算時間などの制限がありますので、行数×列数<10000となっています。
 この時の二元配置分散分析のことを「対応のある一元配置分散分析」や「対応のある1因子実験」ということもあります。

 フリードマン検定を実行すると、下記のものが出力されます。
 フリードマン検定でおこなわれるのは列因子の検定だけです。現バージョンでは多重比較は出力されないので、今後の検討課題といたします。

EXCEL統計Ver.7.0の紹介(13)

 今回はソフトの紹介です。
 『EXCEL統計Ver.7.0』からいくつかピックアップします。

 今回は「母平均の差の検定」と「サインランク検定」で、これは「2列&対応のある&平均値または中央値の違いを検定する手法」です。
 以前はダイアログボックスだけでしたので、ここでは出力結果を紹介します。

 以下の例題をご覧ください。
 被験者10人に対して薬剤を投与して、1時間ごとに体温を測定したデータです。
 このデータは3時点なので「二元配置分散分析(対応のある一元配置分散分析)」か「フリードマン検定」を使うところですが、これは次回へ譲ります。 
 3時点以上のデータに対して、2時点同士で「母平均の差の検定」や「サインランク検定」をしたいこともあると思いますので、ここでは「母平均の差の検定」と「サインランク検定」を使います。 
 セルB1からD11を範囲指定して実行すると、F列以降のものが出力されます。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 上記は「正規性を仮定する(母平均の差の検定)」を選択した時の出力結果です。
 基本統計量、母平均の差の検定、差の信頼区間の3つが出力されます。
 3列以上のデータに対して実行すると、総当たり(全ての組み合わせ)で検定がおこなわれますので、4列の時は6通り、5列の時は10通りの検定結果が出力されます。
 Ver.6.0までは1列目と2列目を別々に範囲指定させていましたので、1回の分析につき1つの検定結果しか出ませんでしたが、Ver.7.0では一括で処理できるようにしました。

 下記は「正規性を問わない(サインランク検定)」を選択した時の出力結果です。
 基本統計量、サインランク検定の2つが出力されます。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 サインランク検定では2時点間で変化のないサンプルは分析から除外されますので、1時間後と2時間後の人数が8人になっている(被験者1と9を除外している)ことにご注意ください。
 Ver.7.0では正確検定を追加しました。30人まではZによるp値と一緒に出力されます。ただし、時点数が多いと組み合わせ数が多くなるため、出力に時間が掛かることがあります。時点数が多い場合は「総当たり」ではなく「1列目が対照群」を選択することをお勧めします。

 Ver.6.0まではこのようなデータを分析する際には、
 ・「母平均の差の検定」を選んでから「対応あり」を選択
 ・「ウィルコクソン検定」を選んでから「対応あり」を選択
という手順を踏む必要がありました。
 このブログで何度も書いていることですが、対応ありのデータであることは明らかですので、このようなソフトの構成は不自然でした。
 多くの統計学の本で、パラメトリック検定→ノンパラメトリック検定の順番で解説されているため、別々に覚えた方もいらっしゃると思います。本来、この両手法はセットで覚えるべきで、同じダイアログボックスにすることで両手法の繋がりを知らないまま難しく捉えている方の助けになればと思っております。

 次回は「二元配置分散分析」と「フリードマン検定」を紹介します。

EXCEL統計Ver.7.0の紹介(12)

 今回はソフトの紹介です。
 3月12日に発売した『EXCEL統計Ver.7.0』からいくつかピックアップします。

 今回は「等分散を問わない一元配置分散分析」と「クラスカル・ウォリス検定」で、これは「3群以上&対応のない&平均値または中央値の違いを検定する手法」です。
 母平均の差の検定(t検定)と同様に、一元配置分散分析にも「等分散を仮定した手法」と「等分散を問わない手法」の2通りの計算方法があります。Ver.6.0までは「等分散を仮定した手法」しか搭載されていませんでしたが、Ver.7.0では「等分散を問わない手法」を追加しました。

 以下の例題をご覧ください。
 東京都、神奈川県、埼玉県についての数値データです。前回までと同じデータです。
 セルA1からC11を範囲指定して実行すると、E列以降のものが出力されます。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 上記は多重比較の「テイムヘインT2」を選択した時の出力結果です。
 基本統計量、等分散性の検定、ウェルチ検定、テイムヘインT2、相関比の5つが出力されます。
 等分散を仮定しない場合、選択できる多重比較法は以下の3つで、全て総当たりの検定です。
 (1)テイムヘインT2(Tamhane T2)
 (2)ダネットT3(Dunnett T3)
 (3)ゲイムス・ハウエル(Games-Howell)

 続いて下記は「クラスカル・ウォリス検定」を選択した時の出力結果です。多重比較法は「スティール・ドゥワス」と「スティール」です。クラスカル・ウォリス検定では平均値ではなく平均順位が計算の対象になります。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 基本統計量、クラスカル・ウォリス検定、スティール・ドゥワスの3つが出力されます。
 正規性を仮定しない場合、選択できる多重比較法は以下の3つで、(1)が総当たりの検定、(2)~(3)が一番左の群(列)を基準とした検定です。
 (1)スティール・ドゥワス(Steel-Dwass)
 (2)スティール(Steel)
 (3)シャーリー・ウィリアムズ(Shirley-Williams)

 説明の都合上、36行目以降に「スティール」も載せていますが、実際に出力される多重比較法は1つだけです。
 チェックボックスではなくラジオボタンによる選択のため、一度に2つ以上の多重比較法は出力できませんので、ご注意ください。
 Ver.6.0までは棄却域との大小比較で判定していたためp値が出ませんでしたが、Ver.7.0ではシャーリー・ウィリアムズ以外はp値が出るようにしました。

 次回は「対応ありの母平均の差の検定」と「対応ありのウィルコクソン検定(サインランク検定)」を紹介します。

EXCEL統計Ver.7.0の紹介(11)

 今回はソフトの紹介です。
 3月12日に発売した『EXCEL統計Ver.7.0』からいくつかピックアップします。

 今回は「等分散を仮定した一元配置分散分析」で、これは「3群以上&対応のない&平均値の違いを検定する手法」です。
 以前はダイアログボックスだけでしたので、ここでは出力結果を紹介します。
 母平均の差の検定と同様に、一元配置分散分析にも「等分散を仮定した手法」と「等分散を問わない手法」の2通りの計算方法があります。Ver.6.0までは「等分散を仮定した手法」しか搭載されていませんでしたが、Ver.7.0では「等分散を問わない手法」を追加しました。
 「等分散を問わない手法」については次回に譲ります。

 以下の例題をご覧ください。
 東京都、神奈川県、埼玉県についての数値データです。前回と同じデータです。
 セルA1からC11を範囲指定して実行すると、E列以降のものが出力されます。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 上記は多重比較の「ボンフェローニ」を選択した時の出力結果です。
 基本統計量、等分散性の検定、分散分析、ボンフェローニ、相関比の5つが出力されます。
 等分散を仮定した場合、選択できる多重比較法は以下の9つで、(1)~(7)が総当たりの検定、(8)~(9)が一番左の群(列)を基準とした検定です。
 (1)最小有意差(LSD)
 (2)ボンフェローニ(Bonferroni)
 (3)シダック(Sidak)
 (4)ホルム(Holm)
 (5)シェッフェ(Scheffe)
 (6)ダンカン(Duncan)
 (7)テューキー・クレーマー(Tukey-Kramer)
 (8)ダネット(Dunnett)
 (9)ウィリアムズ(Williams)

 続いて下記は「テューキー・クレーマー」を選択した時の出力結果です。
 「ボンフェローニ」と同様に、基本統計量、等分散性の検定、分散分析、ボンフェローニ、相関比の5つが出力されます。
 多重比較以外の結果は変わっていないことにご注意ください。
 Ver.6.0まではボンフェローニ以外は棄却域との大小比較で判定していたためp値が出ませんでしたが、Ver.7.0ではウィリアムズ以外はp値が出るようにしました。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 最後に下記は「ダネット」を選択した時の出力結果です。
 基本統計量、等分散性の検定、分散分析、ダネットの4つが出力されます。
 一番左にある東京都を基準にして他県と検定したい時に使います。
 ボンフェローニやテューキー・クレーマーと違って、2通りの検定しかおこなわれていないことにご注意ください。画像をクリックすると、別ウィンドウで拡大画像が開きます。

 Ver.6.0までは多重比較の手法ごとにダイアログボックスが分かれていましたが、Ver.7.0では一元配置分散分析やクラスカル・ウォリス検定と統合して1つのダイアログボックスにしました。
 弊社が参考にしている『統計的多重比較法の基礎』(サイエンティスト社)には「多重比較法と一元配置分散分析は別物」という記述があり、Ver.6.0まではそれに沿っていました。しかし、多くの統計解析ソフトでは多重比較法を一元配置分散分析やクラスカル・ウォリス検定の延長上においており、弊社でも使いやすさを考慮してVer.7.0で変更しました。

 次回は「等分散を問わない一元配置分散分析」と「クラスカル・ウォリス検定」を紹介します。