【本格ブレイク】「自動文字起こしサービス」が秘める可能性
コメント
注目のコメント
たくさんの使い道が思いつく反面、まだまだ解決すべき課題は多いです。例えば
・音声が不明瞭だとエラーが大きくなる (よほど明瞭でないと、精度はまだまだ)
・複数人の声が重なると駄目 (マイクアレイでも使えば・・・・)
・新語、専門用語への対応がネック (皆さん、思いの外「業界用語」をお使いです)
・処理時間がまだまだ (現状、N分の音声を入れるとN分後にテキストが出てくる感じです。一瞬ではできない。)
ほとんどのメジャーサービスは試してみましたが、speech2textに関してはIBMが現状いい感じです。下記でも使っています。
AIによるプレゼンテーションのトレーニングサービス 「プレトレ」提供開始
https://newspicks.com/news/3944867スマホの音声入力を多用しています。チャットやメールの2-3行のメッセージなら、半分くらいは無修正で入力できます。残りの半分も最後にちょっと修正すればOKです。
勘違いしている人が多いのですが、音声入力を使いこなすには、次の2つのスキルの訓練が必要です。
(1) 明瞭で紛れの少ない発声スキル
音声認識エンジンは相当進化しましたが、精度100%ではありません。単語単位で明瞭に発音することが第一です。適切なスピードもあります。
同音異義語がある場合には文脈に沿って変換されてしまいます。これは間違いのパターンに気づくと避けることができます。
(2) 文語体で完成した1文として話すスキル
チャットやメールなので、話し言葉のようにぶつ切りでは違和感があります。音声認識が正しくても修正が必要になってしまいます。
発話前にメッセージ全文を思い浮かべて、それを読むように滑らかに話すことが必要です。
どちらもある程度の訓練が必要です。特にメッセージ全文を思い浮かべるは意外と最初は難しいものです。