「話し声と足音だけ抜き出して」など、複雑な言語指示で音を分離できるモデル　英国チームが開発

ITmedia

2023/10/27

Picks

このまま本文を読む

本文を読む

注目のコメント

碓氷早矢手
講談社宣伝統括部担当部長
・2023年10月27日
昨日発表のあったビートルズの「新曲」は、過去の音源からジョン・レノンさんが残した歌声だけをきれいに抜き出す技術によって可能になったという話でしたね。
この記事の技術かどうかはわかりません。

ビートルズ最後の新曲「Now & Then」は、11月2日に世界同時発売とのこと。
比屋根一雄
三菱総合研究所執行役員兼研究理事生成AIラボセンター長
・2023年10月27日
実は私の若い頃の研究の一つが、環境音の擬音語認識でした。日本語には豊かな擬音語が数多くあります。スペクトル分析で識別して、擬音語に割り当てるのは音声認識とおなじです。

今なら生成AIを使えば、色々な音を擬音語として認識できるでしょう。日本人しか研究できないので、誰か研究しませんかね。
淺間康太郎
富士通株式会社 Japan Change Leader / GenerativeAI Advocate / DX Officer補佐
・2023年10月27日
入口が自然言語でってのは、ChatGPTなどのFunction Callingである程度実装出来そうな気がしてしまうけど、実態はそんなことないんでしょうね。

>LASSシステムの学習は困難である。その主な理由は、自然言語の表現が複雑で多様であることにある。多様な表現や言い回しを理解し、それに基づいて音を分離する能力が求められる。

このレベルの学習データを集めるのは相当に骨が折れそうな気がします。かなり挑戦的な研究ですね。