研究室の日常1<相関分析ってどんなもの?>

私の所属する研究室では、2,3週に一度、修士以上の学生で集まって自主的なゼミが開催されています。(目的は、論文を書く時に使うデータ分析等の手法の勉強です)

本日は、12月に行われたゼミの様子をご紹介します。

研究室メンバー紹介

toku:サイト管理人 M1 専門は住宅、リフォーム


mo: M1 専門はコミッショニング


yu: M1 専門はゼネコンの海外進出


tamu: D1 学生最年長 専門はPM、意思決定


テーマ
・相関分析

ゼミの進め方
1.最初に一人が分析手法の概要を話す
2.他メンバーが実際にその手法が使用された論文のレビューを行う


0.相関分析概要(担当:toku)

じゃあtokuから始めてもらっても良い?回帰分析より前にやりたいし

そうですね、相関分析の概要から話します。
相関分析は2つの変数に対して、相関関係があるのかを示す分析で、結果は-1~1の間になる、0なら無関係、1か-1なら完全に対応するという代物です

相関分析:2つのデータの相関関係の強さを分析する。関連の強さを見るアソシエーション分析とは異なる。

↑相関係数を求める式(参考:「使ってみたくなる統計」シリーズ 第1回:相関分析 | ビッグデータマガジン

 

相関分析で止めて回帰分析に行かない研究ってあるのかな?

僕のも純粋な回帰分析は見つけられなかったですね

相関分析の求め方はスルーでいい?


1.論文 Number1(担当:mori)

私が紹介するのは空間相関分析法の道路ネットワーク空間への拡張という論文です

一般的な相関分析ではないですけど、空間相関分析法という相関係数の概念を2次元に拡張して、都市活動要素の空間的な関係性を分析するものです。
一連の分析は2次元連続空間という仮定のもと、都市要素間の距離がユークリッド距離で定義されていました
ユークリッド距離による分析よりネットワーク空間上でネットワーク距離を使って分析したほうが良いとして、道路ネットワーク上で空間相関分析を行う方法を提案してます


図1 二次元連続空間とネットワーク空間の違い*1

ユークリッド距離ってどんなのでしたっけ?

x、yで見た距離ね。普通の距離。ボロノイ分割を使うほう。都市空間って直線距離を測っても直線的には行けないじゃん?道が入り組んでいたりした時とか。だからネットワーク距離にしようっていう

基本式は同じなんだね

相互空間相関関数の定義式*2

ベクトルになって複雑になった感じですね

建築の人が書いた論文ではないから完璧に理解する必要はないかも

こういう研究って建築にどう活かせるのかな?

最適避難経路とか色々あるでしょ
都市計画の大家のアレキサンダーとかも、確か数学系出身で、建築系の人の理論をぶち壊してなかったっけ?50年ぐらい前の話だけど

クリストファー・アレグザンダー(Christopher Alexander 1936年10月4日 – )はウィーン出身の都市計画家・建築家。ケンブリッジ大学で数学を学んだ後、アメリカに渡り、ハーヴァード大学大学院で建築学を学び、カリフォルニア大学バークレー校教授になる。建築・都市計画の理論としてパタン・ランゲージを提唱したことで知られる。日本ではその理論を元に、盈進学園東野高等学校(埼玉県入間市、1984年)を建設した。(Wikipedia:クリストファー・アレグザンダー

数学的なアプローチしてましたね

都市はツリーではない、でセミ・ラティス構造を提唱したほか、設計手法としてパターン・ランゲージを考案した人ですよね、後者は施工業者からは出戻りが多くて不評だったみたいですが


2.論文 Number2(担当:yu)

次はyuさん

都道府県別データを用いた図書館貸出冊数と書籍販売金額の相関分析」です、毎年の相関係数の表*3を作って相関性を検討してます

相関係数が一番高い段階から6割行ってないね(笑)2013年とか0.3も行ってないし

どんどん下がってますね

あんまり関係ないってことですね、何割以上なら関係あるんですか

研究分野によって違うんじゃないですか?あるいは比較対象があって、自説のほうがもっと有効ですよ、みたいな

0.7~1なら高い、アンケート調査なら0.3~0.5である程度相関があるみたい

そもそもこの研究は負の相関がなければいいわけですよね、否定したいのは「図書館の貸出が販売に負の影響を与える」という仮説ですし(この論文は、「図書館における貸出点数の増加が書籍販売金額の減少に繋がる」という出版業界の論調が背景にあるもの)

有意水準、有意性検定ってどういう意味なんですかね

有意水準:統計学用語。 統計的仮説検定を行う場合に,帰無仮説を棄却するかどうかを判定する基準。5% あるいは 1% がよく使用される。
帰無仮説:統計学用語。ある一つの変数が他のある変数と関係がないとする仮説。

工業製品では大抵5%で、基準が厳しい時は1%を使うみたい

結果が勘違いである可能性が、5%以下、1%以下だと示してるんじゃ?有意水準を計算する式があるんじゃない?

有意水準は自分で決定するものでは?有意水準やp値や正規分布の図ってどこからでてくるのかな?

わからなければ調べれば良いのだ

スマホ登場(テテテテッテテー♪)

↓有意水準がよくわかるサイト
p値(有意確率)と有意水準を具体例から解説!有意水準を設定するタイミングについて | アタリマエ! (外部サイト)

有意水準は自分で設定。p値は計算して出す値。で、p値が有意水準以下かどうか見るみたい。p値の意味は、「たまたま極端な結果が出た」「偶然そうなった確立」だね。正規分布の端っこ部分の合計

サンプルが増えたらp値は0に近づくのかな

より確かになるだけで、0に近づくとは限らないね。ただ、相関係数がいくら高くても、有意水準に達してなければ、相関はない、というか信頼できないわけだね


3.論文 Number3(担当:tamu)

中村隆夫さんの「鉄筋加工場における規模と面積配分」という研究です

研究の背景と目的は、工場の規模の規模や敷地の選定、機械設備の配置など、平面計画に関する一般的な事項は様々な文献に記述があるけど、鉄筋加工場のような具体的なモノはデータがほとんどないので、データをとります、というものです

今までは一般的な工場のデータをもとに設計者の勘でやってたということですか?

うん、いつものって感じなんだけど(笑)

研究の方法は、おそらくは知り合いか何かの加工場3社に対して予備調査して、その後31社の加工場で同様の調査をした。その後アンケート調査。で、相関分析によって、売上高や鉄筋の数量と相関関係の高いデータを出してます

だいたいの散布図(20個)で、ポーンと離れたデータが大きな影響を与えてる気がしますけど、これなかったらどうなるんですか


図2 鉄筋加工場における売上金額による購入・預かりの棒鋼数量の算定*4
(このような散布図が20個ほど掲載されている)

わかんない、とりようが無い気がする

こんな外れ値の影響が大きそうな場合でもいいんですかね?

少なくとも査読は通ってるな

相関係数は出るけど回帰分析は厳しそう。だから相関分析で止めたんですかね

かもね。アンケートの取り方も結構言い訳してるのよ、半ページくらい使ってる(笑)要約すると、「別々のところでとったデータ使ってるけど、これは別に悪くないんだよ」って延々と

そろそろ回帰分析に行きますか?

次:回帰分析

参考:
1) 大佛俊泰、内藤智之(2009)「空間相関分析法の道路ネットワーク空間への拡張」、日本建築学会計画系論文集台74巻第646号、pp2605-2610
2) 同上
3) 貫名貴洋(2017)「都道府県別データを用いた図書館貸出冊数と書籍販売金額の相関分析」、広島経済大学経済研究論集第40巻第1号
4)中村隆夫(1996)「鉄筋加工場における規模と面積配分」、日本建築学会計画系論文集第483号、pp129-136

更新
2018/02/11 タイトル一部変更

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください