私の所属する研究室では、2,3週に一度、修士以上の学生で集まって自主的なゼミが開催されています。(目的は、論文を書く時に使うデータ分析等の手法の勉強です)
本日は、前回、前々回、前々々回に引き続き、12月に行われたゼミの様子をご紹介します。
学生ゼミシリーズ
第1回:相関分析ってどんなもの?
第2回:回帰分析ってどんなもの?
第3回:交差検証ってどんなもの?
第4回:χ2乗検定ってどんなもの?(今回)
テーマ χ2乗検定(χ二乗検定、カイ二乗検定)
ゼミの進め方
1.最初に一人が分析手法の概要を話す
2.他メンバーが実際にその手法が使用された論文のレビューを行う
0.χ2乗検定概要(担当:yu)

じゃあχ2乗検定いこう

χ2乗検定は、別名「独立性の検定」とも呼ばれます
「独立=関係がない」
「独立でない=何か関係性がある」

医師における長男と次男の話を例にしながら、χ2乗検定の具体的なやり方を説明します
「カイ二乗検定 | Logics of Blue(外部サイト)」
このサイトの例が一番わかりやすかったです
*以下の例題は「Logics of Blue」に掲載されている例を元に改題したもの
例題1:長男であるかどうかは、医師の適正と何か関係があるか?
仮に以下のデータが手に入ったとする
医師の人数 | |
長男 | 800 |
次男 | 300 |
一見、長男のほうが多いと思われるが、このデータは「医師にならなかった人のデータがない」という致命的な欠陥がある。
データを取り直した結果こうなったとする。
医師の人数 | 医師以外の人数 | 合計 | |
長男 | 800 | 299200 | 300000 |
次男 | 300 | 119700 | 120000 |
合計 | 1100 | 418900 | 420000 |
長男も次男も1000人に2,3人が医師になっているとわかる。
長男がいて次男がいない家庭はあるが、次男がいて長男がいない家庭はないため、人数においては長男が上回っただけであった。
「関係性があるかどうか」調べる時には、こうした関係に配慮せねばならない。そのため「独立性の検定」を行う。
χ二乗検定のステップ
1.データをクロス集計表にまとめる
2.期待度数を求める
3.データと期待度数との差からχ二乗値を求める
4.χ二乗値をp値に変換する
例題2:あるWebサイトにおいて、男性の写真と女性の写真をつかったリンクを設置した。モデルの性別はクリック数に影響するか?
1.データをクロス集計表にまとめる
写真とリンクへのクリックの関係を調べたところ、以下のデータが得られた。
リンクをクリックした | クリックしなかった | 合計 | |
男性の写真 | 15 | 185 | 200 |
女性の写真 | 35 | 265 | 300 |
合計 | 50 | 450 | 500 |
2.期待度数を求める
もしモデルの性別がクリック数に関係がないとしたらどうなるか?
全体では500人中50人、10人に1人がクリックしているので、こうなるはずである。
リンクをクリックした | クリックしなかった | 合計 | |
男性の写真 | 20 | 180 | 200 |
女性の写真 | 30 | 270 | 300 |
合計 | 50 | 450 | 500 |
3.データと期待度数との差からχ二乗値を求める
データと期待度数の差= (元データ-期待度数)^2/期待度数
上記の式を元に全ての差を計算すると以下となる
リンクをクリックした | クリックしなかった | |
男性の写真 | 1.25 | 0.14 |
女性の写真 | 0.83 | 0.09 |
χ二乗値はこれらの和であるため、
χ二乗値= 1.25+0.83+0.14+0.09 =2.31
4.χ二乗値をp値に変換する
χ二乗値が大きければ、モデルの性別とクリック数に関係があるとわかる。ではどれくらい大きければ良いのか?
χ二乗値はp値という値に変換ができる。p値は「たまたまそうなった確立」であり、これが0.05未満であれば「偶然ではない」とみなせる。
計算過程は省略するがExcelの関数を使用すれば簡単に出せる。詳しくは「https://logics-of-blue.com/chi-squared-test/」参照
今回のケースでは、p値=0.128(>0.05)なので「有意な関係があるとは言えない」

まずクロス集計を行うのが前提なんですね

クロス集計は次回やけどな、誰やこの予定考えた奴は?(予定を組むのはtamuの仕事です)今回は要因と相関で全部まとめてて、だからさっきの交差検証みたいな、やたら難しい手法も入れたんだけど

そういうものがあると知れただけ儲けものです。
この「p値」は相関分析の時にでたものと同じですかね