ヒトもAIも好奇心で進化する 強化学習を超える先端研究
コメント
注目のコメント
AIの動作には、大きく二つあることを理解することが重要である。
一つは「刈り取り」あるいは「活用」(Exploitation)である。過去のデータから推定して、最も結果がよくなる行動を選択するということである。
しかし、この「刈り取り」だけでは、うまくいかない。理由は単純である。過去の経験はどんなにデータが大量になろうとも、広大な未来への可能性の中での部分に過ぎないからである。結果も、過去の経験から分かることをつかった最適化になる。大きな劇的なことは起きない。
そこで必要なのが、「探索」(Exploralation)である。広大な未知の可能性の中から有望なのをためして、より賢くなるということである。データが少なかったり、全くないことをやってみるということである。
ここで大事なのはデータが少ないので、統計的に考えてもベストケースとワーストケースの間に大きなギャップがあることである。だから試す意味があるのである。だから試すのを止めるという発想はダメなのだ。この楽観的な態度がスロットマシンのような単純なモデルでもうまくいくことが数学的に既に証明されている。
もちろん刈り取りと探索とのバランスはある。でも大事なのは両方をバランス良く行うのが最もパフォーマンスがよいことを皆が認識することである。人工知能やビッグデータ活用で失敗する大きな理由が、上記の刈り取りだけにフォーカスし、探索を行わないことである。従来のルール指向での思考に探索がないからである。
これをシステマティックに効率よく我々が行えるようにする方法論が既に確立されている。それは専門的には「強化学習」と呼ばれていたり「バンディット問題」と呼ばれているが、このような機械学習の言葉で説明するのは誤解を与える。あたかもコンピュータのアルゴリズムかと思わせるからである。
これはコンピュータの専門知識でもなく、人工知能の内部動作でもない。これは我々が未知の未来に向けて、どんな判断をすべきかの方法論を示しているのである。
あらゆるビジネスパーソンや経営者が知っておくべきことなのである。AIにはなく人にはある力の(1)は、省電力化に繋がる一方で、バイアスによる可能性の切り捨てでもあるから、膨大な処理能力で無数の組み合わせから最適解を導くというAIの強みを殺しかねない能力でもあるな。
→"強化学習の弱点を克服するのに注目されているのが、実は好奇心だ。これまでの強化学習というのは、人の場合に置き換えれば、金銭や地位の向上など、外から目に見える報酬を最大化するように学習することに対応する。
一方、報酬が好奇心を満たすこととなれば、内なる興味・関心に基づいて学習することになる。人と同様、外部の報酬だけに頼るのではなく、内部の報酬で成長を促すほうがよいのではないか。そう考えたのである。
《中略》
そもそも、好奇心について考えるうえで、人とAIとの違いはどこにあるのか。ここで、AIにはなく、人にはある3つの力について示したい。
(1)頭の中でシミュレーションする力
《中略》
(2)知らずを知る力
《中略》
(3)知らない世界にはみ出す力"人間からしたら、奇想天外に見えてしまうやり方が、実はもっと良い案だったよというのが、AI的な発見であって、その辺の良さは弱まってしまいそうな気もする