【AVIOT】新進オーディオメーカーが見据える、ヒアラブルの未来

2019/4/10
 ここ数年で急激に市場を広げたワイヤレスイヤホン。特に、ケーブルを排除したトゥルーワイヤレス型の製品は、AV業界のトレンドにもなっている。そうしたなか、「日本の音」を追求する国産ブランドとして注目されているのがAVIOTだ。
 欧米の高級ブランドに比べ求めやすい価格帯ながら、これらの商品にまったく引けを取らない高音質と“聴き心地”の良さでオーディオマニアの間でも高い評価を得ており、国内最高権威のオーディオビジュアルアワード「VGP2019」では、複数の分野での受賞を果たした。
 だが、AVIOTの魅力は単なるオーディオ機器の領域にとどまらない。ブランド名の由来は、「AV+IoT」。そこにはIoT時代の到来を見据えた、「ヒアラブル」の可能性が秘められているというのだ。
AVIOTシリーズの最新モデル「TE-D01d」。バッテリーを備えた付属ケースで充電でき、2時間の充電で最大9時間再生、4時間の通話が可能。
 AVIOTが持つヒアラブルの可能性、そしてその先に見据える未来像とはどのようなものなのか。音声認識の世界に新次元をもたらした「AmiVoice」の開発で知られるアドバンスト・メディアの鈴木清幸氏を招き、AVIOTの開発者である岩崎顕悟氏、山下耕平氏とともに、彼らが目指すIoTの未来について話を聞いた。
日本人の“耳”に合わせたチューニングとは?
── AVIOTの特徴である「日本の音」とは、具体的にはどのようなものなのでしょう?
山下 オーディオ業界もグローバルになっていて、我々の市場も海外に広がっています。ただ、市場が広いからこそ、音づくりの部分では様々な国や地域の共通項を捉えようとしてコモディティ化が進んでいる。
 AVIOTが「日本の音」にこだわっているのは、日本企業にしかできない独自性を世界に発信したいという思いがあるからです。
三重県出身。関西大学法学部法律学科卒業。同志社大学法科大学院司法研究科卒業。Samurai Ears合同会社商品企画担当役員を務めるほか、フジアンドチェリー株式会社など複数の会社を経営。商品企画開発からマーケティング・セールスまで、新規事業プロジェクトを手がける。
岩崎 たとえば、僕らのように英語が身近になっている世代は「Disney」を「ディズニー」と発音できるじゃないですか。しかし、お年寄りのなかには「ディズニー」ではなく「デズニー」と発音する方もいらっしゃる。
 なぜかといえば、実際そのように聞こえているから。つまり、もともと日本人の耳は、母音節を中心とする日本語が聞き取りやすいようになっているんですよ。
── 使用される言語の特性によって、民族ごとに聞こえ方に差異があると。
岩崎 そう。日本人の場合、日本語が母音節中心ですから、英語などでよく使われる子音を組み合わせた音の聞き取りが苦手と考えられるわけです。
 そこに着目して開発したのがAVIOTシリーズです。具体的には、日本人がもっとも聞き取りやすい周波数帯域に合わせたチューニングを徹底的に施しています。
日系大手オーディオメーカーで中国、ドイツ、英国などの現地駐在を経て、米国のプロオーディオ機器最大手SHUREの日本代表に就任。その後、ウェアラブル機器で有名なJawboneのアジア地域代表、NOKIAのヘルスケア部門販売統括を歴任し、その後現職。
── 日本語が、よりはっきりと聞こえるイヤホンになっているわけですね。
岩崎 というよりも、日本人の耳の特性にマッチするイヤホンですね。もちろん日本語も聞き取りやすくなっていますが、その他の音に関しても、他の言語とは違う特徴を持つ日本語を聴き慣れた日本人の耳に心地よく響くようになっていると。
鈴木 そうしたAVIOTのアプローチは、我々が手がけている音声認識の分野にとっても、非常に興味深いところですね。
 おっしゃっていたように、耳が聞き取る「音」は、言語情報と非言語情報の両方で構成されています。音声認識に関しては、基本的に言語情報を扱うわけですが、だからといって非言語情報を無視するわけにはいかない。
 インプットの部分でいえば、入力される音から言語情報をどのように抽出するかという問題があるし、アウトプットの部分では言語情報と非言語情報のバランスをどのようにチューニングしていくのか、という問題があります。
東洋エンジニアリングを経て、インテリジェントテクノロジーに在籍中の1987年に米国カーネギーグループ主催の知識工学エンジニア養成プログラム(KECP)を修了。1997年、アドバンスト・メディアを設立し代表取締役社長に就任。2005年、東証マザーズ上場。2010年より現職。音声認識技術「AmiVoice」は、議事録作成やコールセンターなど、BtoBを中心に様々な業種・業界で広く採用されている。
山下 音声認識といえば、主にインプットの部分を磨いていく分野というイメージがありますが、違うのでしょうか?
鈴木 もちろん音声のインプットは重要ですが、音声のアウトプットを磨くことも重要です。我々は音声コミュニケーションが社会環境の中に溶け込み、当たり前になることを目指して活動してきました。それは音声の双方向性を前提としています。
 22年前の創業時は「音声認識」という言葉すらなじみがなく、技術としてはあっても、アメリカでさえビジネスとして成功させた例はありませんでしたし、ましてや日本に市場はなかった。
 どれだけ最高の音声認識エンジンを作っても、クルマのように人が使う形に仕上げないと、ユーザーは生まれない。そのクルマに当たるものがアプリケーションやサービス、そして、それらが動くデバイスや利用シーンの創出です。こういったことが、市場化には不可欠でした。
山下 97年といえば、音声認識のデバイスもPCが中心でしたよね。現在のようにスマートフォンやIoT機器が普及する未来なんて、当時は誰も想定できていなかったと思います。
鈴木 そうですね。私の場合は音声コミュニケーションが利用される未来の姿を描き、未来と現状との乖離を埋めるための音声認識エンジンの開発と磨き上げから始めました。
 そして、魅力的なアプリケーションやサービスの開発、さらには音声認識に対する社会的な認知の獲得、別の言い方をすれば、音声認識の文化の醸成に勤しんできました。20年やってきて、今やっと音声認識の時代が来たといわれる状況になっているんです。
もっとも脳に近いインターフェイス
山下 まだ存在しない未来を形にしたいという思いは、AVIOTも同じです。現状では、あくまでもオーディオ製品という位置付けで販売していますし、オーディオとしての性能を磨いていくことに注力しています。でも、僕らが考えているワイヤレスイヤホンの可能性って、オーディオ製品の枠を超えたところにあるんですね。
 それが「AVIOT」というブランド名に込めた「AV+IoT」という概念です。
岩崎 私はSHUREというオーディオメーカーを経て、ウェアラブル機器を得意とするJAWBONEやノキアのヘルスケア機器などに携わり、ウェアラブルデバイスの将来性については人並みならぬ興味を持っています。
 IoTというのは、要するにモノと人をインターネットでつなぐということですよね。そのインターフェイスを考えたときに、スマートウォッチなど腕に着けるものは減っていって、イヤホンか、メガネが主流になると考えたんです。
── AVIOTも、SiriやGoogleアシスタントなどの音声入力に対応していますよね。インターフェイスとしてイヤホンが優れているのは、なぜですか。
山下 簡単にいうと、イヤホンがいちばん脳に近い場所にあるからです。耳、鼻、口といった器官に近い位置で入出力を行うことで、効率よく自然に情報のやり取りができます。
 スマートグラスのようなメガネ型のデバイスもありますが、メガネって視力が悪くなければつけない人もいるし、装着感も含めて好みがわかれるじゃないですか。
 でも、音楽を聴くためのツールとしてすでに普及しているイヤホンなら、より多くの人が自然に装着できますよね。
岩崎 さらに言えば、イヤホンは耳栓にもなります。不快な音や不必要な音をシャットアウトして、自分が聞きたい周波数帯だけを聞くこともできるんです。
 ちょっと脱線すると、補聴器って安いものでも10万円とかするんですけど、やっていることはどれも拡声に過ぎない。マイクで拾った音をアンプで大きくして、弱った鼓膜に響かせているわけですね。
 ただ、それだけだと余計なノイズも増幅して脳に送り込んでいるわけです。英語なら、もうちょっと聞き取りやすいみたいですけど、日本語の響きはどうも騒音に打ち消されやすい特性があるということがわかってきたんです。
 騒音のなかから言葉を拾い、それらだけを音声情報として送れば、混雑しているカフェでの会話もしやすくなりますし、音声入力や遠隔での通話の精度を上げることもできるようになります。
鈴木 マイクで言葉を拾うのは、どのようなアプローチでやっていらっしゃるんですか。
岩崎 いちばん大事なのは指向性です。マイクの指向性を尖らせれば尖らせるほど、インターフェイスとしての力が生きてくる。特にAVIOTは装着感を重視した完全ワイヤレスで、口とマイクとの距離が離れているので、口元からの音をいかに拾うかを研究して作り込んでいます。
 もうひとつ、骨伝導を利用して入力する方法もあるんですが、これだと周波数帯が変わるので、音声認識を行うことが困難になるんですよね。
ヒアラブルには、“ヒアスルー”が必要?
鈴木 不要なノイズや音の歪みを処理することは、まさに音声認識で取り組んでいるテーマです。どれだけ言語処理・解析のアプリケーションが優れていたとしても、エッジデバイス側で音声をうまく処理できなければ、まったく用をなしません。
 その両方が揃って初めて、ヒアラブルの世界が開けるわけですから。
岩崎 鈴木さんのおっしゃるようにヒアラブルの未来を考えるには、ハードとソフト、インプットとアウトプットが常にセットになります。
 特に、ヒアラブルデバイスとしてのイヤホンを常時装着することを考えると、デバイス側で音を聞き分けて、必要な音だけをユーザーに伝達する「ヒアスルー」の技術が必要になってきます。
 たとえば、電車に乗っているときには車内アナウンスを優先的に聞きやすくする。徒歩で移動しているときには、音声でナビゲーションを行いながら、周囲の音もシャットアウトしない。
 こういったセレクティブな音声処理を行うには、言語解析はもちろん、場合によってはGPSで取得した位置情報や加速度情報なども必要になるでしょう。
鈴木 まさにそれが、IoTやウェアラブルの未来だと思います。要素技術でいえば、ウェアラブルに使えるものはだいたい出揃っています。
 問題は、それらを目的に合わせて、どのように組み合わせていくかというパーソナライズの部分。音声認識、イヤホンの性能というような、単一の技術では語れないんです。
鈴木氏が代表を務めるアドバンスト・メディアの音声認識技術「AmiVoice」は、「UDトーク」などの音声認識・翻訳アプリや、東京都議会の議事録作成に利用されている。
 人間の感覚だって、視覚や聴覚、触覚など五感をすべて使っているわけです。そのすべてに訴求しなければ、これからのサービスは成立しない。それに、ヒアスルーにしてもスルーしたい情報はTPOに応じて人それぞれ異なるわけですから。
岩崎 目的やTPOに合わせたパーソナライズは、本当に重要ですよね。AVIOTは日本人の耳の特性に合わせてチューニングしていますが、海外での利用シーンを考えると、もう少し面白い広がりがあって……。
山下 ワイヤレスイヤホンが売れる国は、「人口密度が高い」という共通項があるんです。具体的には日本や韓国、中国の都市部、そしてロシアみたいな、満員電車での移動が日常的なエリアなんですよ。
 日本で電車通勤している方ならよくわかると思いますが、スマートフォンの画面を見たり操作したりすることすら困難な状況で、音楽や音声コンテンツを楽しむことに対するニーズがある。そこに、ヒアラブルデバイスの市場が広がっています。
IoTの “comfort zone”を再定義する
岩崎 AVIOTのブランドサイトを見ていただくとわかるんですが、ブランド名の下に「make A comfort zone」というキャッチコピーが入っています。実は、高級オーディオの世界では原音に忠実なピュアサウンドが良いとされていて、「comfort zone」という言葉は、あまりポジティブな意味では使われないんです。
山下 それを敢えて掲げることは、我々が新しい「comfort zone」を定義していこう、という姿勢の表れでもあるんですよね。
 心地よいサウンドを追求することに加えて、これまで話してきたような、言葉を行き来させるインターフェイスとしての「comfort zone」を追求していく。これからのデバイスやサービスは心地よさを磨いていくべきだという思いを込めています。
鈴木 まったく同感です。我々は、それを“Joyful”というキーワードにしていますが、そこを追求しなければ技術やサービスの未来は見えてこない。
 今の技術やサービスは個々に広がっていますが、これからは様々なインターフェイスが収斂していく。インプットもアウトプットも、「心地よさ(comfort)」や「楽しさ(Joyful)」を高めるように五感のすべてに働きかける、環境に溶け込んだアンビエントなものになっていくだろうと思います。
岩崎 その通りですね。我々はオーディオメーカーとして、まずは「音」を基点として心地よさを追求する。同じ価格帯のイヤホンと聴き比べてもらえば、その違いは伝わると思います。
 でも、それだけだとまだAVIOTの可能性の半分でしかありません。これから音を使って入出力を行うIoTやアプリケーションが増えるに従って、インターフェイスとしてのAVIOTの機能がますます生きてくると考えています。
(取材・執筆:石井敏郎 編集:宇野浩志 撮影:森カズシゲ デザイン:國弘朋佳)