OpenAIの「Voice Engine」は15秒分の声データを元に本人そっくりに喋る
コメント
選択しているユーザー
この辺の技術も実は急にできたものでもない。10年前に芸能人の音声を事前に録音しておいて投稿されたテキストを読み上げる企画コンテンツもあったし、時間をかけてたことや物が短時間でできるようになるのは当たり前ですよね。最近でもAIひろゆきとか。
今時間がかかってることも然りなので、焦って怖いとかやばいとかで思考停止する前にどう付き合うとかどう有用な活用ができるだろうとか考えた方が楽しいし、対策もできる。
技術の進歩は素晴らしい👍
注目のコメント
OpenAIの生成AIの普及の流れとしては、
・DALL•Eの画像生成(Text to Image)、
・ChatGPTのテキスト生成(Text to Text)、
・Soraの動画生成(Text to Video)、
・Voice Engineの音声生成(Text to Voice)
と、インプット側のテキスト入力は一定ながらアウトプット側は、言語、画像、動画、音声とマルチモーダル化が着実に進んでいます。
恐らく次はインプット側のマルチモーダル化が進むはずで、すでに画像→テキスト(Image to Text)など一部は可能になっていますが、音声→動画などの生成もサービスとして利用可能になっていくはずです。
伴って心配されるのが、やはり規制・法整備のルールの部分で、人権に配慮した技術進展がより求められることになりそうです。簡単に人を真似て話をさせる事ができる時代になりました。
使いようによっては、自分の変わりに介護応答させたりスピーチさせたりと効率を上げるための使い方もできるでしょう。
一方で詐欺などに活用されると大きなリスクになります。
だから技術開発を止める。という選択肢はありません。
そういう事ができる時だである事が前提で社会の仕組みを変えていく時代になってきました。