人間のように話す「Google Duplex」、パブリックテストを開始へ
コメント
選択しているユーザー
注目のコメント
予約や注文代行であれば、誰も損しませんから、まずは試験サービスで実証しようということですね。
ただ、声質を真似る音声合成技術がほぼ実用段階に入っています。わずか数分の音声があれば、本人そっくりに発話できます。これはかなり怖い。本人の声そっくりですから、オレオレ詐欺で騙される人はさらに増えるでしょう。
市場的には、電話セールスの最初の数十秒を合成音声で代替して、購入しそうであれば、オペレータに引き継ぐサービスが流行りそうです。電話インタビューによる市場調査や世論調査は、新たなマーケティング手法になる気がします。人間が自然とやれている対話をシンプルに分解すると、「聞く」、「理解する」、「話す」です。それぞれ人間が使ってる脳も違うのと同じように、コンピュータでやる場合もそれぞれ異なる技術要素が使われます。
聞く → 音声認識(音声からテキスト変換)
理解する → 自然言語処理(意味解析と意味理解)
話す → 音声合成(テキストから音声変換)
昨今はディープラーニングが流行ってますがそれぞれの領域でも活用されて従来のやり方での精度を大幅に超える成果が目立ってきてます。ここ数年は自然言語処理(NLP)にも応用しようとする研究が特に盛んです。
人間よりも流暢に話すというだけでなく、人間らしいイントネーションをつける、リアルタイムで翻訳する、相手によって使う言葉を使い分ける、方言や流行言葉を適材適所で使うなども出来るでしょうし、好きな人の声を選択して話させられるといった時代が来るのも時間の問題でしょうね。言葉に関わる分析をNatural Language Processing、よくNLPといいます。NLPはdeep learningにより格段に精度が向上しましたが、まだまだ始まったばかりです。今回のdemoを見るとやはり10年後には少なくとも現在の仕事の半分はコンピュータに置き換わる可能性は高いように思います。