【結論:マイクと口を近づける!】音声入力の精度を上げるには?その方法と検証結果を徹底解説!

人生の最適化
スポンサーリンク

こんにちはMake WakのWakです、最近音声入力にハマっているのですが、こんな悩みを抱えています。

「音声認識の精度が高いときと低いときがあって、違いがよくわからない…」
「音声入力って、精度が低くって使い物にならないんじゃないの?」

今ならわかります。それ、マイクと口の距離が遠くないですか?

音声認識を行うにあたって、音声をいかにクリアに取れるか、というのはとても重要なポイントです。

マイクと口の距離が近ければ、声がクリアに入力できますし、周りの雑音は相対的に小さくすることができます。

今回は実際にiPhoneを使った音声入力で検証してみましたので、 データを見ながら確認していきましょう!

結論:マイクと口は極限まで近づけろ!

すでに何度か触れていますが、今回お伝えしたい結論は 「音声入力をする際はマイクと口をとにかく近づけろ!」です。

詳しくは後で述べますが、マイクと口を離すと音声の質が悪くなってしまうため、雑音ノイズの影響をモロに受けるようになってしまいます。

その結果、音声入力の精度としては90%を下回ってしまい、 とても使い物にならなくなってしまいます。

場合によっては、全く認識されないということにすらなりかねません。

理想的にはマイクと口は0 cmどんなに遠かったとしても数十cmまでに収めるべきです。

スマホならば、 運転手さんが無線機(トランシーバー)でしゃべるように、口元とマイクをほぼ接触させるぐらいの距離で入力するのがおすすめです。

意外と、息が吹きかかって風きり音で入力が精度が悪くなるということは少ないですので、もうとにかく口を近づけて入力をしてみてください。

iPhone の場合は、この写真のように本体の上側にできるだけ口を近づけて喋ると精度が高くなります。

マイクがここにありますので、より音声を拾いやすくなるんだと思います。

さて、以降ではマイクと口の距離⇔音声入力の精度に関して、データを基にもう少し詳しく見ていきましょう。

詳細: iPhone を使った検証データ

今回は以下のような条件で検証をしてみました。

<検証条件>

・ iPhone の Siri を使って音声入力 ・「吾輩は猫である」の冒頭部分を読み上げて、その正誤を判定 ・周囲の雑音を想定して、テレビを通常見るぐらいの音量でつけっぱなし

正誤判定にはこちらのサイトを利用させていただきました

文章比較ツール

<検証結果>

検証の結果を簡単にまとめるとこんな感じになりました。

このように、 テレビのような雑音があっても、マイクを口元に近づけて(0cm)話せば90%とかなり高い精度で音声入力ができます。

逆に、普通に手に持っているぐらいの距離(50 cm) で話してしまうと音声入力の精度は一気に下がり始めます。

体感的には、 認識精度が90%を下回ってくると、修正に手間がかかりすぎるので「使い勝手が悪いな…」と感じてくるラインです。

手に持って遠ざけたぐらいの距離(1 m) まで来てしまうと、何を喋っているのか全く判定できなくなってしまいます。

スマホを手に持って、 1メートルも離して使うことはまずないと思いますが、 音声入力の精度がマイクと口の距離にとても敏感に左右される、ということはここから理解していただけると思います。

音声入力をするときは、とにかく口とマイクの距離が近いほど良いです。

その他の音声入力でも一緒です

ここでこんな疑問も湧いてくると思います。

「 iPhone の検証結果って…Android やパソコンの場合はどうなの?」

その答えとしては、 『大きな傾向は「どのデバイス」「どのマイク」「どの音声認識ソフト」を使っても一緒』です。

基本的に音声入力では「マイクと口が近ければ近いほど」入力精度が高まっていきます。

Wakはふだんから音声入力をヘビーユースしていますが、その感覚からしてもこの傾向は間違いありません。

ちなみに唯一例外と言ってもいい条件があり、それは「Blue Yeti」 などのような高級マイクを使った場合、ですね。

こちらの記事で詳しく検証していますので、 パソコンを使って音声入力をしてみたい人はぜひ参考にしてみてください。

音声入力の「精度」と「マイク」の関係を徹底検証してみた → オススメは○○のマイク
こんにちは、Make Wakの (@wak198)です。今回は「音声入力の精度」と「マイク」の関係について検証してみたのでその結果についてレポートしていきます。皆さんはふだん、音声入力に関してこんな悩みをお...

高級かつ遠くの音まで拾うことを目的に設計されたマイクを使っている場合は、50 cm や1 m ぐらい離しても入力の精度を維持することができます。

おわりに:

今回は音声入力をフル活用して効率を上げるためのコツとして「マイクにできるだけ口を近づける」 ということを解説してきました。

データで見てみるとはっきりわかるように、距離と入力の精度には明らかな相関があります。

マイクと口の距離が近ければ近いほど入力の精度が上がっていきます。

音声入力の精度が上がると、それだけ修正にかかる手間が減りますので、入力の効率が急激に上がっていきます

もし、今まで音声入力を試してみたけれどちょっと不満に思っている、 という方がいらっしゃったらぜひ参考にしてみてください。

それでは良いモデリングライフを! Wak

コメント

タイトルとURLをコピーしました