研究室の日常7<決定木分析ってどんなもの?>

私の所属する研究室では、2,3週に一度、修士以上の学生で集まって自主的なゼミが開催されています。(目的は、論文を書く時に使うデータ分析等の手法の勉強です)

前回に引き続き、1月に行われたゼミの様子をご紹介します。(3/4)
1月学生ゼミテーマ
1.クロス集計 2.アソシエーション分析
3.決定木分析 4.クラスター分析

学生ゼミシリーズ

第1回:相関分析ってどんなもの?
第2回:回帰分析ってどんなもの?
第3回:交差検証ってどんなもの?
第4回:χ2乗検定ってどんなもの?
第5回:クロス集計ってどんなもの?
第6回:アソシエーション分析ってどんなもの?
第7回:決定木分析ってどんなもの?(今回)

テーマ: 決定木分析

ゼミの進め方
1.最初に一人が分析手法の概要を話す
2.他メンバーが実際にその手法が使用された論文のレビューを行う

0.決定木分析概要(担当:mo)

決定木分析は、複数の要因と結果の関係性の中から影響の強い要因を階層別に把握する分析手法です。 樹木状のモデルを用いて何らかの結果を記録したデータセットを分類することで、結果に影響を与えた要因を調べ、将来を予測します。(参考:EnterpriseZine「決定木分析:要因を分析し、将来を予測する」、)

決定木(けっていぎ、英: decision tree)は、(リスクマネジメントなどの)決定理論の分野において、 決定を行う為のグラフであり、計画を立案して目標に到達するために用いられる。(出典:Wikipedia「決定木」)

具体例としては、商品の購入意向からの適切な組み合わせの把握。この例では1万人の顧客を対象に分析してます。
指標、つまり要因を階層ごとに分けていくんですけど、購入したい意向が最大となるのが「味の持続性」ということがわかります


図1 決定木分析の具体例(出典:市場調査・マーケティングリサーチ会社のマーシュ「デシジョンツリー分析(決定木分析)」

一番上の1万が5千ずつになって、下に行くほど少なくなっていくね。これはどうして、どのように減っていく?

これはアンケートでしょうね。決定木分析のメリットとして、目的変数を変えることで回帰も可能で、この例だと分類ですね。購入意向が目的変数になっていて(アンケートの項目のうち、「購入意向」を目的変数に設定しその他の項目を条件(説明変数)とした)

説明変数:何かの原因となっている変数。独立変数とも言う。
目的変数:説明変数の影響を受け生じた結果を表す変数。予測したい変数のこと

商品について、味の独自性を期待する人のうち、購入したい人が7割?

そうだとおもったんですけどね、僕は。だからこの、最後の88.9%は、全部の条件があれば88.9%が買いたいってことなんですかね?

わからないのが、上位階層の項目をどう決めていくのか?階層の順番は影響の大きさ順にやってくらしいけど

順番入れ替えたらぜんぜん違う結果がでたりするんですか?

しそうじゃない?

複数ある決定木

決定木は、要因=属性をどのような順番で並べるかにより、複数つくることができ、どれも全てのパターンを正しく再現できる。この場合、オッカムの剃刀(可能な限り説明を簡潔に行うべし、という指針)に従い、木が最小サイズになるものを求める。

図2 複数の決定木(出典:北海道大学オープンコースウェア「決定木の学習」

木を全パターン作成するのは非効率的であるため一般に、「識別力」の高い属性(回答がよく偏る質問のこと。回答が全てYESかNOになれば、それ以上分岐を続ける必要はなくなるため。情報理論に基づき、識別力は数値化・比較ができる)を先にテストする。

図3 属性の識別力(出典:北海道大学オープンコースウェア「決定木の学習」

例えば図1で、これが、味の独自性はさして重視しない人が9000人で、重視する人が1000人だったらどうなるんですかね?これがあべこべだったら

だったら9000に伸ばしていくんじゃ?

そっちは購入したい割合が低いじゃないですか

それと、この今回の例は左側が途中で終わってますけど?

続けてもいいよ、ただ購入意向が最大になるケースを調べてるから、望みのない方の分岐は打ち切ってる。
しかし、決定木はシミュレーションだと思ってたけど必ずしもそうじゃないんやな

実務ではシミュレーションで使ってるんじゃないですか?

僕とtamuさんの選んだ論文はまさにシミュレーションですよね?

交差検証と似たジャンルで、データが限られたときに結果を出す分析手法だと思ってた。過剰適合も、意味的には「このデータではちゃんとした内容でるんだけど、他の一般的なデータを入れた時、全然上手く機能しなくなる」。汎化性能が低いというのは、汎用性が無いということで

事例一つ一つで考えるしか無いってことですかね

一般化しようとしたらとんでもない数のサンプルが必要になるんだろうな

1.論文 Number1(担当:yu)

栫井らによる「決定木分析による都市型アミューズメント施設の来訪者特性評価」。アミューズメント施設の来訪者の特性評価、消費者の意識と傾向を、店舗の消費状況を解析するマーケティングみたいな論文です

207ぺージの図が、決定木かな


表1 枝刈りされた決定木

クロス集計とχ二乗検定を行って、出向回数と来訪者の特性との傾向と有意差を調べて、その後決定木を作ってますね。

性別、年齢、職業、自家用車の所有形態、自宅からの距離、結婚の有無が条件属性(説明変数)に挙がってますね

2.論文 Number2(担当:tamu,toku)

これ、調べた論文かぶったんですよね

僕らの調べた論文も、まずχ二乗検定を使ってるな。「CHAID」って手法だけど。枝を増やしていく時にχ二乗検定を使ってるんじゃないかな?有効そうな枝を伸ばして、あまり有効じゃないのは、そこで止めて


図4 心配の決定木(CHAID版)

枝切りですか

少しバージョンが違いますね。安 俊相, 吉田 哲, 宗本 順三「戸建住宅団地における独居高齢者の訪問者に対する不安感の研究
僕の見た論文だと「CART」を使ってる


図4 心配の決定木(CART版)

「CHAID」というのが、χ二乗検定。「CART」はジニ係数を使ってて、分岐していくルールが違うんやな。
僕のが2008年で、tokuのが2009年発表。ほぼほぼ同一だけどね

決定木分析の種類

表2 決定木分析の種類(出典:マーケティングリサーチのマクロミル「決定木分析」

一口に決定木分析と言っても、ツリー作成のアルゴリズムは様々なものがある。よく使用されるのは「CHAID」「CART」「C5.0」の3種類である。

CHAIDは複数の分岐が可能。CRATは分岐が必ず2つになる分、シンブルなツリーになる。C5.0はCHAIDと同じく複数分岐が可能だが、目的変数が質的変数に限定される。

ツリーの伸ばし方に色々種類があるんですね

今日はそんなのばっかりやな

適切なのを使い分けなきゃいけないわけですね

それが出来る人が一人前の研究者になってくんやろうな

前:アソシエーション分析
次:クラスター分析

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です