研究室の日常2<回帰分析ってどんなもの?>

私の所属する研究室では、2,3週に一度、修士以上の学生で集まって自主的なゼミが開催されています。(目的は、論文を書く時に使うデータ分析等の手法の勉強です)

本日は、前回に引き続き、12月に行われたゼミの様子をご紹介します。

学生ゼミシリーズ

第1回:相関分析ってどんなもの?
第2回:回帰分析ってどんなもの?(今回)

テーマ 回帰分析

ゼミの進め方
1.最初に一人が分析手法の概要を話す
2.他メンバーが実際にその手法が使用された論文のレビューを行う

0.回帰分析概要(担当:tamu)

回帰分析は、基本的に相関分析をした後にするもの、2つのことに相関があると相関係数で把握した後にする分析です

引用してきたのが、一番わかり易くザックリ説明してくれたのが、何故か埼玉県総務課総務部統計課なんですけど、
参考:回帰分析とは何ですか – 埼玉県(外部サイト)

回帰分析は結果となる数値と要因となる数値の関係を調べてそれぞれの関係を明らかにする統計的手法である
この時、要因となる数値を説明変数、結果となる数値を目的変数もしくは非説明変数といい、
説明変数が一つの場合を単回帰分析、複数の場合を重回帰分析という

単回帰 y=a+bx (x: 説明変数, y: 目的変数)
重回帰 y=a+b1x1+b2x2+ … +bnxn (xn: 説明変数, y: 目的変数)

重回帰分析だとこの係数がどんどん増えていく

図1,2は株式会社ALBERTのサイト(外部サイト)から借りてきました。回帰分析の手法も沢山あるんだけど、一般的な手法である最小二乗法について説明します
図1のような散布図があった時に、色々な線の引き方がある。これの、予測誤差が少なくなるように、誤差の2乗の和を最小にする。ボロノイ分析っぽいんだけど、この考え方を重回帰分析でも用いることができる


図1 最適な回帰式
図2 最小二乗法の概念

この時散布図における回帰式との誤差は図2の黒い下線にあたる
“y=ax+b”から各点から黒い破線が出てますけど、これが回帰式との誤差になります
この長さが、例えば一番右の点で考えると、実際の点のy座標であるY5とy座標である”aX5+b”との差分になります
前述した通り、最小二乗法は各点と誤差の2乗を最小にする考え方なので、誤差である破線の長さを一辺とした正方形の面積の総和が最小となる直線を探します

その場合、直線の傾きがどうなるかというと、xの分散と、xとyの共分散をxの分散で割ったものになる
最後に、xの平均と、yの平均を代入することになって、bの値を求めることができる
それによって”y=ax+b”の式がでる

回帰分析の目的は、基本的に予測を立てるためとか傾向を調べるために使うようです
つまり、相関があるとわかったら、ある程度この傾向でいくと、身長がこれくらいなら体重はこれくらい、とか、我々の売上はこれだけになる、とか予測がつく
ではtokuから

1.論文 Number1(担当:toku)

 

集合住宅の中古価格形成要因における修繕工事費の影響に関する研究*1

丁度都合よく、重回帰分析を使ってる論文を知っていたので、2頁でサラッと読めるので紹介します。
皆さんご存知、芝浦工業大学の論文(芝浦工業大学は、建築生産を学ぶ学生が現在とても多い)ですけど、これは「集合住宅の中古物件で売りに出されている物件の価格が何から決まっているのか」ということと「修繕工事費(=リフォームに使った金額)がそこにどれだけ関わってくるのか」を調べた論文です

不動産会社から集めたものと、SUUMOのWebサイトを利用してたっぷりデータを集めて、その内、きちんと販売価格などの情報が揃っている物件(大規模修繕を行ったものに限る)に絞り、1,500物件から83に絞り込んだものに対して相関分析と重回帰分析を行ったと。
その結果が表1と表2


相関係数が強いのは、何と言っても「路線価格」とか、「面積」だとか
工事費はそんなに相関係数は大きくない
ちょっと気になったのが、さっきの話だと0.3でもそこそこ弱い相関があるという話ですが、この論文は「0.324と極めて弱い相関であった」と記述があるんですね。僕はてっきりそれで0.3は相当に弱いのかと思っていたんですけども、そうでもないのか?
ちなみに、路線価格、専有面積、敷地面積、築年数、大規模工事費で係数を調べて、得られた結論は、「工事費は僅かな影響があるけど、金額から工事の有無がわかるほどはっきりした差はでない」でした
以上です

0.324で非常に低い相関係数なら、それ以下って本当にほぼないやん
でも全部独立変数にしてんな

まずいんですか?

まずいかはわからないけど…

22項目変数としてあって、幾つか弾いてるんですよね

変数の選択はステップワイズ法を使ってる、5項目に絞ってるんや。項目は単純に上位5つじゃないね、22項目の中に「敷地」ってある?

ないですね、「建築面積」は違うし

マンションだったら関係ないんじゃないですか?

問題はそこじゃなくて、相関係数の表に「敷地面積」がないのに、重回帰分析のところでポーンと登場しているのが謎という…ミスですかね?

打ち間違えた?

「専有面積」ってなんだっけ?

「専有面積」はマンションの中で、部屋というか、その人が借りている部分の面積

共有部分抜いたところな、まあいいや。もしかしたら本当に22個取り直しているのかもしれないし、それは読み取れない

2.論文 Number2(担当:mori)

 

次は僕ですかね

東京圏における定期借地権設定住宅地の性状と借地権価格の性向に関する調査研究*2(外部サイト)

この研究の目的は「定期借地権制度の創設期における定期借地権設定住宅地の性状と借地権の性向を明らかにし、その普及に寄与すること」
回帰分析の使われ方は、190頁の左側中ほどにかいてある3)ですね

価格が目的変数で、住宅地の情報が説明変数
目的変数としては保証金とか、実質賃料とかで、説明変数は画地価格など

結論は「本調査研究の結果から、借地権価格は画地価格並びに画地面積と関係があることが確認できる。また信頼性の指標として用いた、最小二乗法の決定係数R²による判別によって、回帰分析で求められた決定係数が高く、その関係が顕著と考えられる以下の近似曲線を活用することにより、保証金、賃料、実質賃料の近似が可能である」
そんな感じです

予測が目的なのかな?

宅地価格から保証金や賃料を推定できると。要するに相場ですかね、適切な価格はこんなものだと
不動産の相場ってかなり難しくて、不動産業者も値付けには苦労してますから基準の数字があれば助かるんじゃないですか?まして定期借地はまだまだ少ないですから

3.論文 Number3(担当:yu)

 

教師からの言葉によるほめられ経験がその後の学習意欲に与える影響*3(外部サイト)

背景としては小学生が褒められたら、授業の参加率の向上に有効であることが前提で、この論文では、大学生を対象として研究してます
調査方法はアンケート調査、そこから因子分析、その後は回帰分析を行ってます

重回帰分析の結果を見る限り、「成長の賞賛」が物凄く効果があるみたい

1%水準をクリアしてるのが成長の賞賛だけで、後は努力の賞賛と日常の賞賛
ほぼ成長の賞賛で稼いでるな。相関係数とか、日常の賞賛とか凄い低い、0.08とか

・成長の賞賛が「言葉遣いが丁寧だね」とか「よく働いているね」とか
・日常の賞賛が「字が綺麗だね」「元気な挨拶だね」「姿勢がいいね」とか
主観的な効果が薄いって意外ですね、Iメッセージ(自分の気持を伝える)が効果的ってよく言うじゃないですか。もうちょっと相関がありそうですけど

これはアンケート内容によるもんじゃないか?
調査材料が大学生に対する「学校生活における教師に言われて嬉しかった言葉とその状況を思いつく限り書いてください」だから、そう考えた時、「主観的な賞賛」が出にくかったんじゃない?

調査対象が大学生というのはでかいかもしれないですね

そう

そもそも「言葉遣いが丁寧だね」って成長の賞賛なのか?

あ、確かに日常の賞賛に分類されそうですね

てか成長の賞賛のほとんどが成長に関することじゃない気がする。分類が難しそう

じゃ、次は交差検証に行こうか

前:相関分析
次:交差検証

参考:
1)香川宏樹、志手一哉、石田航星(2017)「集合住宅の中古価格形成要因における修繕工事費の影響に関する研究」、日本建築学会学術講演梗概集(中国)、8004
2)小嶋勝衞、根上彰生、宇於暗勝也、生田目裕(1997)「東京圏における定期借地権設定住宅地の性状と借地権価格の性向に関する調査研究」、日本建築学会計画系論文集第495号、pp189-196
3)三浦宏之、山本奬(2017)「教師からの言葉によるほめられ経験がその後の学習意欲に与える影響」、岩手大学教育学部附属教育実践総合センター研究紀要第16号、pp83−92

更新
2018/02/11 タイトル一部変更

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください