読唇術で人間に勝利! AIの恐るべき動画認識は ココまできている!
コメント
選択しているユーザー
これは私自身のサービスにとってもとても興味深い。読心術AIが進化し、話した言語を現地語に瞬間翻訳してテロップになったら最強だな。早くそうなってほしい。
注目のコメント
読唇術 (lip reading)はCV界でも結構注目を集めており、コンテストなども開かれています。
LIP-READING USING DEEP LEARNING METHODS
https://bmvc2017.london/lipreading-using-dl-methods/
下記は代表例としてVGGなどを開発するOxfordのZissermanらの研究成果。Youtubeビデオもあります。
Lip Reading Sentences in the Wild
http://openaccess.thecvf.com/content_cvpr_2017/html/Chung_Lip_Reading_Sentences_CVPR_2017_paper.html
https://www.youtube.com/watch?v=103CXDFhpcc
また、読唇術でなくて、部屋にある葉っぱやポテチの袋、コップなどが声の音波で微妙に揺れることを利用して遠くから音の内容を推定使用という試みも。
映像だけから音を復元するビジュアルマイク技術。防音ガラス越しのポテチ袋から会話を再現
http://people.csail.mit.edu/mrub/papers/VisualMic_SIGGRAPH2014.pdf
https://japanese.engadget.com/2014/08/05/vm/HAL 9000が、David とFrank のポッド内での会話内容をlipread したシーンが目に浮かびますねぇ(浮かばない?)
https://en.m.wikipedia.org/wiki/HAL_9000
あ、言語指定はするんですよねぇ 要らないならスゴイです
追記
↑浮かんだ方が2名ほどいらっしゃったようでウレシイ
追記オワリ
あ、HALのHはheuristicsだったんですねぇ コレは忘れてましたが、示唆的ですねぇ
(上のwikiより)
「HAL(Heuristically programmed ALgorithmic computer) is」
追記オワリ