【本格ブレイク】「自動文字起こしサービス」が秘める可能性

NewsPicks編集部

・2019/10/25

461

Picks

このまま本文を読む

本文を読む

注目のコメント

碓氷早矢手
講談社宣伝統括部担当部長
・2019年10月25日
発言と同時に字幕がつく日も遠くないでしょう。
発言は記録され、検索される。
これを恐れることなく、人の心を動かす話ができる力はますます大切になりそうです。
山崎俊彦
東京大学大学院情報理工学系研究科電子情報学専攻　教授
・2019年10月25日
たくさんの使い道が思いつく反面、まだまだ解決すべき課題は多いです。例えば
・音声が不明瞭だとエラーが大きくなる（よほど明瞭でないと、精度はまだまだ）
・複数人の声が重なると駄目 (マイクアレイでも使えば・・・・)
・新語、専門用語への対応がネック (皆さん、思いの外「業界用語」をお使いです)
・処理時間がまだまだ (現状、N分の音声を入れるとN分後にテキストが出てくる感じです。一瞬ではできない。)

ほとんどのメジャーサービスは試してみましたが、speech2textに関してはIBMが現状いい感じです。下記でも使っています。

AIによるプレゼンテーションのトレーニングサービス「プレトレ」提供開始
https://newspicks.com/news/3944867
比屋根一雄
三菱総合研究所執行役員兼研究理事生成AIラボセンター長
・2019年10月25日
スマホの音声入力を多用しています。チャットやメールの2-3行のメッセージなら、半分くらいは無修正で入力できます。残りの半分も最後にちょっと修正すればOKです。

勘違いしている人が多いのですが、音声入力を使いこなすには、次の２つのスキルの訓練が必要です。

(1) 明瞭で紛れの少ない発声スキル
　音声認識エンジンは相当進化しましたが、精度100%ではありません。単語単位で明瞭に発音することが第一です。適切なスピードもあります。
　同音異義語がある場合には文脈に沿って変換されてしまいます。これは間違いのパターンに気づくと避けることができます。

(2) 文語体で完成した1文として話すスキル
　チャットやメールなので、話し言葉のようにぶつ切りでは違和感があります。音声認識が正しくても修正が必要になってしまいます。
　発話前にメッセージ全文を思い浮かべて、それを読むように滑らかに話すことが必要です。

どちらもある程度の訓練が必要です。特にメッセージ全文を思い浮かべるは意外と最初は難しいものです。