「話し声と足音だけ抜き出して」など、複雑な言語指示で音を分離できるモデル 英国チームが開発
コメント
注目のコメント
昨日発表のあったビートルズの「新曲」は、過去の音源からジョン・レノンさんが残した歌声だけをきれいに抜き出す技術によって可能になったという話でしたね。
この記事の技術かどうかはわかりません。
ビートルズ最後の新曲「Now & Then」は、11月2日に世界同時発売とのこと。実は私の若い頃の研究の一つが、環境音の擬音語認識でした。日本語には豊かな擬音語が数多くあります。スペクトル分析で識別して、擬音語に割り当てるのは音声認識とおなじです。
今なら生成AIを使えば、色々な音を擬音語として認識できるでしょう。日本人しか研究できないので、誰か研究しませんかね。入口が自然言語でってのは、ChatGPTなどのFunction Callingである程度実装出来そうな気がしてしまうけど、実態はそんなことないんでしょうね。
>LASSシステムの学習は困難である。その主な理由は、自然言語の表現が複雑で多様であることにある。多様な表現や言い回しを理解し、それに基づいて音を分離する能力が求められる。
このレベルの学習データを集めるのは相当に骨が折れそうな気がします。かなり挑戦的な研究ですね。