研究室の日常3<交差検証ってどんなもの?>

私の所属する研究室では、2,3週に一度、修士以上の学生で集まって自主的なゼミが開催されています。(目的は、論文を書く時に使うデータ分析等の手法の勉強です)

本日は、前回、前々回に引き続き、12月に行われたゼミの様子をご紹介します。

学生ゼミシリーズ

第1回:相関分析ってどんなもの?
第2回:回帰分析ってどんなもの?
第3回:回帰分析ってどんなもの?(今回)

テーマ 交差検証

ゼミの進め方
1.最初に一人が分析手法の概要を話す
2.他メンバーが実際にその手法が使用された論文のレビューを行う

0.交差検証概要(担当:mori)

じゃあ交差検証いこうか

交差検証はAIなどの機械学習に関する手法です
・機械学習と、ある対象の特徴をモデルという数式に置き換えたもの
・よって精度100%のモデルは開発できない
100%に近づけるため、モデルを実際に作って評価してみるため、つまりモデル評価法の一つとして交差検証が挙げられます

どういうものかというと
1.統計学において標本データを分割し、
2.一部を解析して
3.残る部分で解析のテストを行い
4.解析自身の妥当性の検証・確認に当てる方法

最初に解析するデータは、訓練ですね。AIに練習、学習させる部分が訓練。残った部分でテストをする

幾つかある交差検証の手法の内、k分割交差検証が一番良く使われるもの、図1に交差検証の図があります。この図ではnになってますけど


図1 k分割交差検証*4

1回目、(n-1)個をトレーニングして残りの1個でテストする
2回目、分割したものの次のやつ以外をトレーニングさせて、1個テストする
これを延々と繰り返し、n回やってそれぞれで得られた精度から、平均をとる

交差検証のメリットは「データ数が少なくても手持ちのデータを最大限まで生かした性能測定が可能」
デメリットは「モデルの学習をk回行う仕組みから、長い計算時間を要する」
kが大きいほど信頼性は高いそうです

1.論文 Number2(担当:yu)

じゃあyuさんから

単語の感性情報を考慮した文章類似度による感情推定

背景としては、人間のコミュニケーションを目的としたロボットの開発において感情の要素を取り入れた試みが盛んで
ロボット自身が感情性や表現を行わず無感情な対応を取り続ける場合、人間は飽きてコミュニケーションを行おうとしなくなる
ロボットが会話の中に人間の感情を推定できることを目指すというもので
交差検証を使ったのは3頁目のところです

どういう風な使われ方をしてますか?

そこら辺はよくわからないです

交差検証難しいですって、これ

んー、なんで俺交差検証ここに入れたのかな?(ゼミの予定を組むのはtamuの仕事)

どう考えても情報系の研究室じゃないと扱えないですよ、実際これ情報処理学会の研究報告ですし

飛ばしましょう……

2.論文 Number2(担当:tamu)

じゃあ、孫京廷さんの「老後の居住願望として中心市街地・郊外の選択と生活関連施設-樹形モデルを用いた磐田市と宇部市での分析 その2-」について
筆者らは磐田市と宇部市の居住地の選択肢等を、高齢社会を迎えて関心が高まっている老後の生活に注目して
老後に住みたい居住環境と行いたい日常生活の関係で捉えてきました
本研究においては、筆者らは老後に住みたい居住環境とその要因の関連について調べています

まず、老後に住みたい居住環境と同県台にしようとする生活関連施設について114頁の表2のようなアンケートを行っています
次に必要とする生活関連施設を領地の中心部と周辺部の生活関連施設の現況との関係性を考察しています
この際、筆者らは老後に住みたい居住環境に関して樹形図を作成して分析しているんですが

樹形図は117頁の上にあるもの
これをまあシュミレーションして成長させる必要があるんですけど、
独立した新たなデータセットを用意できなかったから
アンケートで集めた既存データを交差検証を用いることで検証してます
データを10等分して交差検証を行って誤分類率を向上させることに成功したとのことです
つまり、今回の交差検証の用い方は、手持ちのデータが少なかったから

社会学の研究で交差検証を使うお手本みたいな使い方じゃないですか?moriの説明にもありましたけど

「手持ちのデータを最大限に生かした性能測定が可能」

本当はデータを作ってからもう一回調査しないといけないけど、無理だったからバリエーションを作って精度を上げていきましょうと

この論文、結論としてはどういう?

結論は結局、だから120頁の表9やけど「中心市街地と郊外で、磐田市と宇部市でこんな施設が必要とされてます」てことだけど
中心市街地では最寄り店、飲食店。宇治市だと、コンビニや金融機関
一致してる場合ってさ、居住地選択肢の話やん?
正直、調査関係ないことやからあんまり突っ込まないほうがいいかもしれないけど、
だいたいさ、老後に住みたい居住環境と現在住んでいる地区にあるものって全部かぶってるやんか

一同:(笑)

3.論文 Number3(担当:toku)

じゃあ、僕のもサクサクと。
ユーザの姿勢を考慮したモバイル端末の把持姿勢認識
僕のもyuさんと同じく良い論文がなかったので「へー、そんな研究あるんだ」みたいな話しかできないんですよね
これも情報処理学会の論文ですし
モバイル端末って色んな姿勢・角度で操作されるじゃないですか
その認識を踏まえて分析しないといけないよね、という手法の開発なんですけど、
簡単に言えば、画面表示が回転するのともうちょっと高い精度で便利にしたいな
でもそれをするには操作姿勢を把握しないと難しいな、と
端末を操作する際のセンサの値とタッチ情報を集めて、認識するプログラムを作ろう
36頁で、この交差検証を使い、データを5分割して、分割した内の4つを学習に使い、結果として高い精度での認識を可能とした、と
それしかわかりませんでしたが、技術的な話はさっぱりだったので

こういう研究だとデータが揃いやすいのが羨ましいですね
12種類の姿勢で、被験者は5名
2400個のデータができてますから
うちの研究室だと、研究はアンケートかヒアリングですけど
アンケートの場合まず「嘘をつかれていないかどうか」という信頼性の部分から考えないといけないじゃないですか

そうかな?

いや、サンプルセレクションバイアスとか、アンケートの取り方が適切だったか、という部分から始めないといけないじゃないですか

まあそうだけど、でも厳密に、(筆者が示している)「縦画面座位」と、その人が言ってる「縦画面座位」が同じかというと、そこはなんとも言い難い……

時間がヤバそうなので、カイ二乗検定いこうか

前:回帰分析
次:カイ二乗検定

参考

1)Wikipedia:交差検証、[online]https://ja.wikipedia.org/wiki/交差検証
2)第21回(最終回) 機械学習 はじめよう:機械学習 はじめよう|gihyo.jp … 技術評論社、[online]http://gihyo.jp/dev/serial/01/machine-learning/0021
3)交差検定(クロスバリデーション)など機械学習の評価方法まとめ : 新規事業のつくり方、[online]http://aiweeklynews.com/archives/50219779.html
4)モデルの精度を推定する-Musashi、[online]http://musashi.osdn.jp/tutorial/mining/xtclassify/accuracy.html
5)宇原章浩、加藤昇平 (2013)「単語の感性情報を考慮した文章類似度による感情推定」情報 理学会研究報告 Vol.2013-ICS-171 No.6、pp1-4
6)孫 京廷、宗本 順三、山崎 敏(2005)「老後の居住願望として中心市街地・郊外の選択と生活関連施設-樹形モデルを用いた磐田市と宇部市での分析 その2-」日本建築学会計画系論文集第70巻587号、pp113-120
7)小川剛史、朴燦鎬 (2017)「ユーザの姿勢を考慮したモバイル端末の把持姿勢認識」情報処理学会論文誌デジタルコンテンツVol.5 No.1、pp31-37

更新
2018/02/11 タイトル一部変更

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください