日本郵船の避航操船AIが学ぶ、「ベテラン船長の技」とは
コメント
注目のコメント
「深層強化学習においては、他船との衝突を避けるなど「上手な操船」に報酬(得点)を与えるゲーム手法で操船技術を向上させていく。」
深層学習というと、CNNをよく聞くけど、強化学習(RL)もよく聞く。何が違うんだろう?と思った方に向けての簡単な解説です。いろんな解釈・説明の仕方があるので一例として聞いてください。
操作を微分できるものは誤差逆伝播法 (back propagation)という手法が使え、精度が高いです。何がどの様に間違ったか、ニューロンにフィードバックできるからです。このときに使うのがCNN。正確にはBPを使うのがCNNなのではなくて、情報を畳み込み演算で扱うのがCNNなのですがここはわかりやすさのために。
一方、強化学習はどこかに微分できない操作が入っていて、その操作がどの様に良かったか悪かったかを瞬時に判断できない処理に使います。例えば、ゲームやこの記事にある船や自動車の操縦。いま右に舵を切ったことがどれくらい良かったか誤差逆伝播できないので、強化学習を用います。自動車のように過去の事故や安全運転に関するデータが世界中で大量に蓄積されている移動体であれば、蓄積されたデータから自動運転のアルゴリズムを作り出すことは将来的に可能でしょう。
それ以外の乗り物では、本記事のようにVR/ARのような仮想技術を使って、いろいろなパターンの乗り方やシチュエーションの学習用データを作り出すところからスタートしなければいけないのだなと痛感しました。
ただ、これは可能性を感じます。乗り物以外でも、現実でテストの難しい(人命に関わるような)ケースも、バーチャル上で再現して学習用データとして準備することが可能だということなので、このようなアプローチは今後、他の領域でも取り入れられて行く気がします。実際の船の操船を教師データとして取り込むことができればテスラの自動運転のように精度を高められるのかもしれませんね。
折角なので挙動不審な海賊船を見極めるとかそのあたりも対応できそうな気がします。