今日のオリジナル番組


詳細を確認
タブーに切り込め!ここがおかしい「日本の保険」
本日配信
753Picks
Pick に失敗しました

人気 Picker
わかりやすくて、本質が理解できる素晴らしい記事です。私もAlpahGoを 2016年3月に見て、衝撃を受けて以来、どう社会実装すれば良いか考えてましたが、その基本的アルゴリズムである強化学習の学習の困難さがネックになっていました。学習を加速するためには通常グーグルのTPUのようなスーパーコンピュータレベルのハードを使うのが一般的ですが、この記事にある人間の洞察を入れることも良い結果を産むかも知れない。今後の展開が楽しみです。
無粋なコメントで失礼しますが、他者の書いた文章や図面を引用するときは出典をきちんと示すといいと思います。

Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces
https://arxiv.org/abs/1709.10163
Deep Learningの可能性と限界が素直に書かれた良記事。やはり自分で手を動かしている人の言うことは、口やお金しか動かさない人よりもはるかに説得力があるなあ。

メタな議論だけど。自分で手を動かさないマネージャーは、最終成果物の出来不出来しかわからない。まさに記事中のDQNと同じ。逆に自分で手を動かしているエンジニアは、日々の過程での中間ステップが良い方向に向かったかかどうかフィードバックがある。記事中のDeep Tamerのような感じ。

かくいう僕もどうも最近はタスク・マネージメントの仕事が増えてしまって、手を動かす時間より口やお金を動かす時間の方が長い。いかんなあ、もっと手を動かさなくては。
さすが清水さんという感じの読み応えもあり、わかりやすい記事だったでゲソ。ただ、TAMERのようなアプローチはこれまでやってきてなかったのか、少し気になったでゲソ。もしくはディープラーニングの進化によって、TAMERの与える効果が変わってきたということでゲソかね?
ずいぶん前の記事ですが、、、。まさにこれ!

  強化学習が「終わりのあるゲームにおける状況判断の学習」
  だとすれば、継続的学習とは、「終わりのない戦いにおける
  状況判断の学習」についての手法である。

  人間のコーチが指導することによって、一見膨大に見える
  パターンを一気に絞り込むことができる可能性が見えてきた。
  「世界最大の計算資源」は、こと確率論的ゲームにおいて
  は人間の勘に劣る場合があるのだ
良記事。文系人間でも理解できるのにもかかわらず、AIとかディープラーニングって何なのかも理解することができた。
タイトルがアレっぽい