研究室の日常6<アソシエーション分析ってどんなもの?>

私の所属する研究室では、2,3週に一度、修士以上の学生で集まって自主的なゼミが開催されています。(目的は、論文を書く時に使うデータ分析等の手法の勉強です)

前回に引き続き、1月に行われたゼミの様子をご紹介します。(2/4)
1月学生ゼミテーマ
1.クロス集計 2.アソシエーション分析
3.決定木分析 4.クラスター分析

学生ゼミシリーズ

第1回:相関分析ってどんなもの?
第2回:回帰分析ってどんなもの?
第3回:交差検証ってどんなもの?
第4回:χ2乗検定ってどんなもの?
第5回:クロス集計ってどんなもの?
第6回:アソシエーション分析ってどんなもの?(今回)

toku:サイト管理人 M1 専門は住宅、リフォーム

mo: M1 専門はコミッショニング

yu: M1 専門はゼネコンの海外進出

tamu: D1 学生最年長 専門はPM、意思決定

テーマ: アソシエーション分析

ゼミの進め方
1.最初に一人が分析手法の概要を話す
2.他メンバーが実際にその手法が使用された論文のレビューを行う

0.アソシエーション分析概要(担当:toku)

次はアソシエーション分析ですね。アソシエーション分析は相関分析と混同されやすいものですが、明確に違います
例えば、商品Aを買うと商品Bも買うという併買傾向、「関連」を分析する。(これをアソシエーション・ルールと呼ぶ)
マーケティングの分野で大活躍してる分析で、ビッグデータの扱いを得意としています

アソシエーション分析
相関(英語ではcorrelation)ではなく、「商品Aを買っている人の65%が商品Bも買っている」という関連(英語ではassociation)を分析する手法。データマイニングの代表的手法であり、ビッグデータの活用に有効。店舗のPOS(point of sales)データの分析のために開発された手法で、別名「マーケットバスケット分析」

データ分析で扱うデータは、本来は表2のように項目ごとに整理された状態が望ましいんですけど、こうしたデータは容量が膨大になりやすい難点があります。

表1 トランザクション形式データの例

表2 マトリックス形式データの例

(出典:ビッグデータマガジン「使ってみたくなる統計」シリーズ2回 アソシエーション分析、[online]http://bdm.change-jp.com/?p=1341)

店舗とかに残っているデータは、大抵は整理されてない状態、例えるなら「大量のレシートがごちゃごちゃになっている状態」になっている。
アソシエーション分析は、ここから有意なデータを得るにはどうすればいいか、ということで考えられた手法です。

表3 アソシエーション分析の結果の例

(出典:同上)

得られる結果は、商品の組み合わせ(アソシエーション・ルール)に対する3つの指標(支持度、確信度、リフト値)となります

3つの指標の意味がわかりずらいのですが、この説明がわかりやすく噛み砕いてくれてます。
Marketing Analyticsゼミナール「アップセルとクロスセルで顧客収益性を上げたい!|活用ケース解説」 (外部サイト)

・信頼度は、「そもそも相関があるのかないのか」
商品Aと商品Bを買う組み合わせが、商品Aを買う中で、よくある組み合わせなのか、珍しい組み合わせなのか?
・指示度は、「併買する顧客が絶対数として多いのか少ないのか」
・リフト値は「その2つの商品に本当に関連があるのか」 AもBも独立の理由で売れているのではないか、という疑問に答えるものです

本来は統計の知識が必要な手法ですが、僕らだとデータ分析用のツールを使うのが現実的かと。簡単なものなら、エクセルでも可能です

AとBって、Aのほうが母数が多いときがAになる?

多分なんでもいいです、優先して分析対象にはなるでしょうけど、両方調べることもあると思います

BからAってこと?

うん、AとBに相関があっても、AがメインかBがメインなのかは別じゃん

相関分析の後でやるってこと?

いや、相関分析ができない時に行う分析。
例えば、アマゾンくらい商品が多かったらとてもマトリックスデータなんで作れないし。この表2のマトリックスデータは3列しかないけれど、アマゾンなら万とか億になっちゃうから

相関分析が出来るときはそっちを優先する?

大事なことは相関と関連が全然違う概念だってことでしょ?

相関と関連はどう違うの?

主な違いとして、相関分析の場合は「数理的データ」だけども、トランザクション形式データは四則演算もできないから、優位なデータを得るために全く違うアプローチをとっているという話。
さらに、相関分析は<AとB>の「1対1」だが、アソシエーション分析は<(A&B) → C>という「2対1」の分析も可能

多変数の相関とはどう違う?

関連、相関、因果の順で厳しい?

いや、別カテゴリーだと思います。

そもそもアプローチが全く異なるわけで。
仮定として、トランザクションデータをわざわざマトリックスにして、相関係数を出すことも理論上できるし、そうすれば高い確率で相関関係もあるだろうけども。
「関連」はある意味、方向性がある意味では「相関」より限定的だけど、2対1もありという意味では自由

上位概念とかではないわけね

1.論文 Number1(担当:mo)

まずRFM分析という手法で顧客を分類したと。FM分析ってなんですかね?

アソシエーション分析は、俺の論文もそうだけど、誰かが提唱してる特殊なアソシエーション分析を使ってて。結構そういうケースが多いね

クロス集計してからやってる感じやな、「優良顧客、男性の場合はこうだ」と。
このF1ってF1層の話?RFMのランキング?
RFM分析のRFMは”Recency”, “Frequency”, “Monetary”、
FM分析のFMは”Female”と”Male”の意味やな。
F3となると、オールドレディ的な(1:20~34歳、2:35~49歳、3:50歳~)
RFMとFMを同時に使ってて、それぞれのFとMが混在してるから凄く読みづらいな…

FM分析は3が最大だから、F5というのはRFM分析ですね
大文字小文字でわけるとか、してほしかった。

ルールを抽出したとは書いてるけど、どんなルールかが書いてないなぁ…

2.論文 Number2(担当:yu)

土木学会の論文か~

表1で、全部調べると大変なので、組み合わせで関連を見てるね

全パターンが16×6×14…1000パターンくらい?

組み合わせが多すぎて大変な時にアソシエーション分析を使うのね
ある程度要素を抽出できたなら、相関分析、回帰分析に行けるのかも

指示度、関連度、リフト値の3つが大きなものを取り上げると

結論は…噛み砕いて言うと「子供の頃から親しませておけ」ってことかな?

表4はどんな意味の図なのかな

これは抽出した上位20位のアソシエーション・ルールを並べてるんやな

3.論文 Number3(担当:tamu)

マーケティングの分析手法ですからね、yuさんのような例の方が珍しい

酒屋の人に協力してもらってクラフトビールを買う人の傾向を調べている論文です。まず酒の種類がどんなのがあるのかを分析して

このクラスター分析というのは?

クラスター分析は、クラフトビールがどれに近いかを分類してて、輸入ビールに近いと分析してる。


その後で購入者の複数の属性でアソシエーション分析をしてる。それを端的に示したのが、図5と、表2表3かな。結局、結論は「クラフトビールは独立したカテゴリーになってる」、なのね

 

要するに、表1を見る限り、輸入ビールやウイスキーを買う人は
クラフトビールも買ってるということですよね

いや、そもそも数値が高くないんやな。だから「独立し」てると

大したこと言ってるわけじゃないからな、酒買ってる人がどういう人かってだけだから

購入者世帯の特徴を2章の3)以降で調べてるじゃないですか。これはどういう手法ですか?

フィッシャーの正確確立検定という手法らしいけれど、これはまた別の分析方法。前半のアソシエーションルールのときは、Jaccard(ヤッカード)係数とAprioriアルゴリズムを使ってるけど、これは多分、アソシエーション分析に関連する概念やな

Jaccard係数
2つの集合の類似度を表す1つの数値表現。分母には2つの集合のORをとったときの要素数、
分子には2つの集合のANDをとったときの要素数が該当する
Aprioriアルゴリズム
アソシエーション・ルールを検出するために、最も広く用いられているアルゴリズム

前:クロス集計
次:決定木分析

参考

1)ビッグデータマガジン「第2回:アソシエーション分析~「使ってみたくなる統計」シリーズ ~ 」、[online]http://bdm.change-jp.com/?p=1341
2)Marketing Analyticsゼミナール「アップセルとクロスセルで顧客収益性を上げたい!|活用ケース解説|マーケターのためのデータ分析実践入門」 、[online]http://www.sascom.jp/ma_semi/session/heibai/heibai2.html
3)亀岡 瑶, 船山 貴光, 宗像 昌平, 山田 実俊, 八木 圭太, 山本 義郎(2014)「条件付きアソシエーション分析による購入の特徴抽出」日本計算機統計学会大会論文集第28巻、pp89-92
4)大塚佳臣、荒巻俊也(2014)「アソシエーション分析を用いた水辺経験と都市河川の意識との関連評価」土木学会論文集G(環境)、Vol.70 No.7、ppⅢ_365-Ⅲ_372
5)清水愛友実、氏家清和(2015)「国内酒類市場におけるクラフトビールの特徴-スキャナパネルデータによる市場での位置づけならびに購入者属性の分析-」農業経済研究、第87巻第3号、pp291-296

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください