研究室の日常4<χ2乗検定ってどんなもの?>

私の所属する研究室では、2,3週に一度、修士以上の学生で集まって自主的なゼミが開催されています。(目的は、論文を書く時に使うデータ分析等の手法の勉強です)

本日は、前回、前々回、前々々回に引き続き、12月に行われたゼミの様子をご紹介します。

学生ゼミシリーズ

第1回:相関分析ってどんなもの?
第2回:回帰分析ってどんなもの?
第3回:交差検証ってどんなもの?
第4回:χ2乗検定ってどんなもの?(今回)

テーマ χ2乗検定(χ二乗検定、カイ二乗検定)

ゼミの進め方
1.最初に一人が分析手法の概要を話す
2.他メンバーが実際にその手法が使用された論文のレビューを行う

0.χ2乗検定概要(担当:yu)

じゃあχ2乗検定いこう

χ2乗検定は、別名「独立性の検定」とも呼ばれます
「独立=関係がない」
「独立でない=何か関係性がある」

医師における長男と次男の話を例にしながら、χ2乗検定の具体的なやり方を説明します
カイ二乗検定 | Logics of Blue(外部サイト)」
このサイトの例が一番わかりやすかったです


*以下の例題は「Logics of Blue」に掲載されている例を元に改題したもの

例題1:長男であるかどうかは、医師の適正と何か関係があるか?

仮に以下のデータが手に入ったとする

医師の人数
長男 800
次男 300

一見、長男のほうが多いと思われるが、このデータは「医師にならなかった人のデータがない」という致命的な欠陥がある。

データを取り直した結果こうなったとする。

医師の人数 医師以外の人数 合計
長男 800 299200 300000
次男 300 119700 120000
合計 1100 418900 420000

長男も次男も1000人に2,3人が医師になっているとわかる。
長男がいて次男がいない家庭はあるが、次男がいて長男がいない家庭はないため、人数においては長男が上回っただけであった。

「関係性があるかどうか」調べる時には、こうした関係に配慮せねばならない。そのため「独立性の検定」を行う。

χ二乗検定のステップ

1.データをクロス集計表にまとめる
2.期待度数を求める
3.データと期待度数との差からχ二乗値を求める
4.χ二乗値をp値に変換する

例題2:あるWebサイトにおいて、男性の写真と女性の写真をつかったリンクを設置した。モデルの性別はクリック数に影響するか?

1.データをクロス集計表にまとめる

写真とリンクへのクリックの関係を調べたところ、以下のデータが得られた。

リンクをクリックした クリックしなかった 合計
男性の写真 15 185 200
女性の写真 35 265 300
合計 50 450 500

2.期待度数を求める

もしモデルの性別がクリック数に関係がないとしたらどうなるか?
全体では500人中50人、10人に1人がクリックしているので、こうなるはずである。

リンクをクリックした クリックしなかった 合計
男性の写真 20 180 200
女性の写真 30 270 300
合計 50 450 500

3.データと期待度数との差からχ二乗値を求める

データと期待度数の差= (元データ-期待度数)^2/期待度数

上記の式を元に全ての差を計算すると以下となる

リンクをクリックした クリックしなかった
男性の写真 1.25 0.14
女性の写真 0.83 0.09

χ二乗値はこれらの和であるため、

χ二乗値= 1.25+0.83+0.14+0.09 =2.31

4.χ二乗値をp値に変換する

χ二乗値が大きければ、モデルの性別とクリック数に関係があるとわかる。ではどれくらい大きければ良いのか?

χ二乗値はp値という値に変換ができる。p値は「たまたまそうなった確立」であり、これが0.05未満であれば「偶然ではない」とみなせる。

計算過程は省略するがExcelの関数を使用すれば簡単に出せる。詳しくは「https://logics-of-blue.com/chi-squared-test/」参照

今回のケースでは、p値=0.128(>0.05)なので「有意な関係があるとは言えない」


まずクロス集計を行うのが前提なんですね

クロス集計は次回やけどな、誰やこの予定考えた奴は?(予定を組むのはtamuの仕事です)今回は要因と相関で全部まとめてて、だからさっきの交差検証みたいな、やたら難しい手法も入れたんだけど

そういうものがあると知れただけ儲けものです。
この「p値」は相関分析の時にでたものと同じですかね

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください