新着Pick
1748Picks
Pick に失敗しました

人気 Picker
ブログを書きました。

機械学習を身近なトピックに使っていこう、というブログです。今回は、東京都23区の賃貸物件データを取得、機械学習に食わせて、お買い得物件をサーチしてみました。
Kosakaさん、興味深い記事を有難う御座います!
データをちゃんと整えることがどれだけ重要かが、機械学習以前に伺える記事…そのうえで、今回はお買い得物件を探されているが、パラメータから家賃予測をできるという点で、家賃をどうするか決めるのに使うのが王道だと思う。あとは自分が借りるときに本当に適切な価格なのかをチェックするため。数百円とかだったら、最後悩むときとか交渉用に使いたいという人もいるのでは!?
うちのデータを全て差し上げるので、旅行でも分析をしてもらえないでしょうか(真顔)
ブログでここまで詳細に書いていただけると試したくなりますね。

我々も不動産に関する研究を行ってまして、下記の点を補足しておきます
・コンビニや小中学校までの距離も結構強い影響がある。特に学生が多い地域では駅までの距離よりコンビニまでの距離のようが影響が強い場合も。
・重複物件に注意。同じ建物かつ同家賃のの101号室と102号室がたまたまWEBに掲載されていて片方がトレーニング、他方がテストデータに振り分けられるととてもよく予測できるように見えますが、これはデータの汚染が起きているだけ。
・実は時系列解析も重要。
・多層パーセプトロン(MLP)を利用すると、要因解析はできなくなりますが相関は0.97程度出るようになります。

また、データセットの重要性は言うまでもありませんが、NIIという組織が不動産情報に限らず様々な企業のデータを研究用途に集約して公開しています(NII-IDR)。研究用途に限られますが、楽天やクックパッドのデータもあります。

http://www.nii.ac.jp/dsc/idr/
こういうのを経て、鍛えられた人工知能が不動産エージェントになったとき、人間のエージェントに求められることは何だろう…という疑問への、一つの回答がおぼろげながら見えてきている。もう少ししたら、製品として市場に問いたいと思う。
微妙な物件に引っ越してしまったばかりの私にはタイムリーですね。
最後お買い得物件が部屋数の多い物件に引きずられてるのは差額をリニアでとっているから?logスケールで差額とれば庶民感覚でのお買い得物件いっぱい見つかりそう
お買い得1位のブランズ代々木、建物高さ12で階数13って。。。

、、、突き抜けとるがな!屋上かっ!

とっても面白い記事でした。

追記:
学習十分な家賃25万円以下にしぼって、予測モデルとの差額ではなく何%引きなのかで比較した、真のお買い得ランキングが見たいと思いました。でないと、もともと家賃が10万円の物件は、予測モデルとの差額は最大でも10万円までしか行かず、絶対額ランキングでは埋もれてしまうので。
前職ではこんな感じの分析してましたね。エントリのように、回帰線から乖離したもの(割安物件)をさらにメタ分析して共通項となる変数を目星つけたあと、再びその変数をモデルに入れて回帰→R^2やp値をチェック、というのを繰り返すとさらに色々わかる
おもしろい分析アプローチですが、江東区とか中央区が入ってこない時点で最期のランキング抽出過程に再考の余地があるような。
株式会社オンワードホールディングスは、東京都中央区に本社を置くアパレル会社の持株会社である。 ウィキペディア
時価総額
460 億円

業績